Появилась новая модель искусственного интеллекта Google. И она может генерировать или редактировать изображения также легко, как и текст – в рамках разговора с чат-ботом. Результаты неидеальны. Но вполне возможно, что в ближайшем будущем каждый человек сможет манипулировать изображениями таким образом.

В прошлую среду Гугл расширил доступ к собственным возможностям генерации изображений Gemini 2.0 Flash, сделав экспериментальную функцию доступной для всех, кто использует Google AI Studio. Ранее ее могли использовать только тестировщики. Эта мультимодальная технология объединяет собственные возможности обработки текста и изображений в одну модель ИИ. Новинка получила название Gemini 2.0 Flash (Image Generation) Experimental. В момент выпуска этой модели на прошлой неделе она осталась незамеченной. Но в последние несколько дней она привлекла к себе все больше внимания из-за своей способности удалять водяные знаки с изображений, хотя и с артефактами и снижением качества.

    Это не единственный трюк. Новинка также может добавлять и удалять объекты, менять обстановку и освещение, пытается менять углы обзора изображения, увеличивает или уменьшает масштаб и выполняет другие преобразования – все с разной степенью успешности в зависимости от предмета, стиля и прочих факторов. Чтобы это осуществить, Гугл обучил модель на большом наборе данных изображений (преобразованных в токены) и текста. «Знания» новинки об изображениях занимают то же пространство нейронной сети, что и ее «знания» о концепциях мира из текстовых источников. Автор: Павел Афанасьев

    Запись перемещена в архив
    Нет больше статей