«Сбер» представил новую версию нейросети Kandinsky

«Сбер» запустил новейшую версию собственной нейросети — Kandinsky 2.1, которая способна создавать изображения по их текстовому описанию на естественном языке. О этом advnews сказала пресс-служба компании. 

Инструмент также может соединять несколько рисунков, изменять их по текстовому описанию, генерировать изображения, похожие на данное, дорисовывать недостающие части рисунки и сформировывать изображения в режиме нескончаемого полотна (inpainting/outpainting). Модель соображает запросы на 101 языке и умеет отрисовывать в разных стилях.

Нейросеть разработали и научили исследователи Sber AI при партнерской поддержке ученых из Института искусственного ума AIRI на объединенном датасете Sber AI и компании SberDevices.

Модель Kandinsky 2.1 была добавочно обучена на 170 млн пар «текст — изображение» высочайшего разрешения к уже имеющемуся набору в 1 миллиардов пар «текст — изображение». Потом она дообучалась на раздельно собранном датасете из 2 млн пар изображений. В этот сет попали рисунки с описаниями в таковых областях, как тексты и лица людей.

Нейросеть также усовершенствовали за счет новейшей обученной модели автоэнкодера, которая употребляется в числе остального в качестве декодера векторных представлений изображений. Это улучшило генерацию картин в высочайшем разрешении. Благодаря этому новенькая модель содержит 3,3 миллиардов характеристик заместо 2 миллиардов в Kandinsky 2.0.

Не считая того, Kandinsky 2.1 употребляет не только лишь закодированное текстовое описание, да и особое представление изображения моделью CLIP. В таком виде нейросеть сформировывает представление рисунки на базе текстовой инфы и подает его на вход главный генеративной модели.

«Сбер» выпустил первую версию Kandinsky в июне 2022 г. Это была усовершенствованная версия нейросети ruDALL-E, которая генерировала рисунки по описанию на российском языке. 2-ая версия Kandinsky 2.0 была представлена в ноябре такого же года. 

Примеры работ Kandinsky 2.1: