DALL-E — это нейросеть для создания изображений по текстовому описанию от компании OpenAI (той самой, которая создала языковую нейросеть GPT и текстового помощника ChatGPT). Самая свежая третья модель нейросети появилась в октябре 2023 года. Среди плюсов — простой интерфейс, поддержка разных языков и качественную работу с человеческой анатомией. Наши тесты показали, что она почти так же прекрасна, как Midjourney. Почему «почти», читайте в этом материале.
Получить доступ к DALL-E раньше было не очень просто: нужна была регистрация на сайте компании OpenAI, при этом для подтверждения регистрации невозможно было использовать российский телефонный номер. Но в октябре 2023 года компания Microsoft (основной инвестор и партнёр компании OpenAI) открыла бесплатный доступ к генерации картинок для всех желающих на сайте Microsoft Bing. Генерация происходит в самой свежей модели DALL-E 3.
Для начала работы нужно перейти на страницу bing.com/images/create и войти в систему, используя учётную запись Microsoft. Проще всего это сделать тем, кто использует Windows 8, 10 или 11 и уже имеет нужную учётную запись. Ну а пользователям MacOS, Linux или более старых версий Windows с локальными учётными записями перед началом работы придётся зарегистрироваться на сайте.
Создание изображений с помощью нейросети DALL-E 3
Окно для работы с нейросетью выглядит лаконично. Здесь нет ни оживлённого чата с работами других участников, как в Discord-боте Midjourney, ни многочисленных вкладок и ползунков с настройками, как в Stable Diffusion. Просто окно со строкой для ввода описания, кнопки «Создать» и «Удивите меня» и панель справа, в которой будут отображаться созданные картинки.
На чёрном поле под строкой описания есть две вкладки: открытая по умолчанию вкладка «Творения», в которой и происходит работа над картинками, и слева от неё вкладка «Обзор идей». В ней находится галерея с работами других пользователей. Если навести мышь на картинку, можно увидеть запрос к нейросети, который использовался при создании этой картинки. А если кликнуть по ней, картинка откроется в большом размере и её можно будет рассмотреть подробнее и сохранить к себе.
Для тех, кто теряется при виде пустого интерфейса и не знает, с какого запроса начать, есть кнопка «Удивите меня». При её нажатии нейросеть самостоятельно создаёт описание. Уходит на это 3-5 секунд. За несколько нажатий кнопки DALL-E 3 предложил опробовать его возможности и нарисовать джек-рассел терьера среди звёзд в стиле пиксель-арт, робота в виде винтажного микрофона, «Делориан» из фильма «Назад в будущее», геометрическую абстракцию и гамбургер в виде 3D-куба. Генерация при этом не запускается: если запрос показался интересным, нужно самостоятельно нажать кнопку «Создать».
Запрос про 3D-бургеры выглядит интересным, запускаем нейросеть. Спустя 15-20 секунд в чёрном поле появляются четыре картинки, а количество жетонов с молнией в конце строки запроса уменьшается на один — теперь их 13. Как сообщает подсказка, это ускорения. Как только они закончатся, на создание картинок будет уходить больше времени.
За одну генерацию нейросеть создаёт четыре картинки размером 1024х1024 пикселя. Если нажать на одну их них, она откроется во весь экран, и станут доступны кнопки «Поделиться» (копирует ссылку на изображение), «Сохранить» (сохраняет картинку в коллекцию «Сохранённое» в аккаунте Microsoft Bing), и «Загрузить» (скачивает картинку на компьютер).
При работе с DALL-E запросы не обязательно составлять на английском. В отличие от Midjourney и Stable Diffusion, эта нейросеть неплохо понимает запросы на русском языке. Вот таких космоежей можно получить по запросу «ёж-космонавт в скафандре на поверхности дикой планеты, звёзды и галактики в небе».
Давайте посмотрим, насколько хорошо эта нейросеть понимает запросы и как у неё дела с реализмом. Обычно больше всего проблем у нейросетей возникает с рисованием людей: то глаза съедут, то руки внезапно сольются, то пальцев на руках станет неожиданно много. Так что начнём с рисования фотореалистичных портретов.
Раз уж DALL-E понимает русский язык, будем создавать запросы на нём. Первый запрос — «Девушка сидит в кафе у окна и улыбается, в руках чашка горячего кофе, размытый задний план, профессиональное фото, реалистичное фото». Результат — на четвёрку с плюсом. Пальцы на месте, глаза с ресницами тоже, и даже зубы получились вполне прилично. Но и придраться при желании есть к чему. Например, у второй девушки слишком резкая граница волос, словно её снимали на телефон с искусственным размытием или сделали не слишком аккуратную маску в фотошопе и размыли фон. При съёмке на хороший светосильный портретник переход между резкими и нерезкими областями был бы более плавным и мягким. А у третьей слишком одинаковые и слишком квадратные зубы, да и на часах стрелок не хватает.
Теперь посмотрим на пейзажи, а заодно и проверим, насколько хорошо DALL-E знает конкретные города. Попробуем сгенерировать дождливый питерский пейзаж, запрос «Дождливый осенний пейзаж, Санкт-Петербург, центр города, вечер, отражения в лужах, стрит-фото».
Картинок на этот раз почему-то вышло только три.С дождём, осенью, вечером и лужами всё просто отлично. Санкт-Петербург под вопросом. Левая и правая картинка по атмосфере напоминает Невский проспект, хоть конкретные здания и не узнаются (зато переплетения проводов удались хорошо). На среднем фото здание подозрительно похоже на дом компании Зингер (он же Дом Книги и офис ВК), вот только мост и канал куда-то делись. На стрит-фотографию эти изображения и вовсе непохожи.
Традиционный пиццевый тест DALL-E прошёл на четвёрку с минусом. По описанию «Пицца с пепперони и стаканом апельсинового сока, фуд-фото, рекламное фото» красивые фотографи уровня Midjourney получить не удалось. Единственное, что роднит DALL-E и Midjourney, это желание положить апельсины в пиццу. Картинки в целом симпатичные, и для соцсетей при желании их использовать можно. Но вот настоящего фуд-фотографа с профессиональной камерой, объективом и комплектом света или фотобанк эта нейросеть пока не заменит.
Зато DALL-E умеет почти без ошибок писать «Pizzeria». Когда его попросили нарисовать рекламный буклет для пиццерии, в половине картинок слово написано правильно, а в остальных двух всего лишь с одной ошибкой. Остальной текст в буклете, к сожалению, не разобрать.
Ещё одна дизайнерская задача — создание бесшовных паттернов. Их можно применять при создании обложек для соцсетей, обоев на телефон и компьютер и как фоновое изображение при разработке полиграфической продукции. К сожалению, получить полноценный бесшовный паттерн, который можно бесконечно повторять во все стороны, с помощью DALL-E не удалось. Ни запросы на русском языке, ни на английском не помогли. Так что за такими вещами лучше обращаться к Midjourney.
Как и другие генеративные нейросети, DALL-E умеет стилизовать свои произведения под работу конкретных художников. Картинки действительно получаются стилизованными, но вот опознать в них руку мастера удаётся далеко не всегда. Вот так, по мнению нейросети, должен выглядеть московский пейзаж авторства Ван Гога, Пикассо, Сальвадора Дали и Николая Рериха:
Есть и задачи, за которые DALL-E просто не берётся. Например, картинки с участием конкретных людей нейросеть не рисует — вместо генерации появляется предупреждение о заблокированном запросе.