Что еще умеет DALL-E?
Конечно, пока DALL-E кажется просто игрушкой, пусть и с серьезным научным значением. Но у нее большое будущее. Пожалуй, впервые появилась технология, где результаты ограничены не алгоритмом, а лишь нашим воображением.
Фактически создается новый вид программирования, открытый каждому, даже людям без каких-либо технических знаний. В будущем такое программирование будет все более и более распространенным. Пока это лишь предварительные результаты, но они уже поражают.
Например, DALL-E может создавать художественные иллюстрации с очень тонким контролем над их содержимым. Нарисовать можно практически все, смотрите:
Текстовый запрос: капибара на закате.
Текстовый запрос: капибара ночью
Текстовый запрос: капибара в кожаной куртке играет на гитаре
Учитываются нюансы типа отражений и теней, цветов окружения. Нейросеть понимает геометрию, формы и материалы, время года и суток, художественные стили, ракурсы и способы отображения.
Как уже упоминалось, вы можете попробовать все это сами – примеры опубликованы в блоге OpenAI. К сожалению, пока в свободном доступе можно лишь выбирать из фиксированных наборов вариантов заданий, а не вводить произвольный текст, да и результаты не всегда идеальны.
Но даже то, что уже доступно, поражает. Язык пока поддерживается только английский, хотя это вопрос обучающей выборки.
Уже сейчас DALL-E может фактически изобретать новые вещи. Например, в видео выше есть пример с зелеными треугольными часами.
Одним кликом мышки они превращались в пяти- или шестиугольные, причем предлагалось огромное количество вариантов. Можно задать любую задачу и за несколько секунд получить кучу прототипов.
Гостиная с картиной, на которой изображен Сиднейский оперный театр
Текстовый запрос: кожаное кресло в виде пончика
Текстовый запрос: манекен в джинсах и красном поло
Сложно даже представить себе все, что позволит сделать эта нейросеть в недалеком будущем, когда мы сможем получить обученные модели. Пока в тестовом режиме DALL-E пробовали применять для дизайна одежды и интерьеров.
Нарисуют логотип и помогут определиться с «хотелками» для всего остального
Раньше
З: Мы завтра открываемся, а у нас до сих пор нет логотипа. Можете нарисовать что-нибудь по-быстрому?
Д: Так быстро не сделаем. Дайте дня три хотя бы. И, да, двойная оплата за срочность.
З: Ой, нет, нам срочно надо. Попрошу племянника что-нибудь нарисовать, он у меня на художника учится.
Сейчас
З: Мы завтра открываемся, а у нас до сих пор нет логотипа. Можете нарисовать что-нибудь по-быстрому?
Д: А что у вас за компания?
З: Магазин булавок для галстуков.
Д: Приходите через пару часов, мы вам сделаем несколько вариантов — заодно и фирменный стиль прикинем.
З: Вы нас спасли!
Logojoy — сервис для генерирования логотипов. Пользователь вводит название компании, слоган, выбирает несколько понравившихся цветов и изображений и через несколько минут получает варианты логотипов своего проекта.
Скачать понравившееся изображение можно за 20 $ за простую картинку, 65 $ — за файл в векторе и в растре, плюс разработанный водяной знак, авторские права и ещё кучу бонусов в придачу.
Сделают кликабельный макет новой версии сайта
Раньше
З: Нам бы сайт обновить… Посовременнее сделать. Нас, в принципе, всё устраивает, но на фоне конкурентов смотрится архаично.
Д: Пишите техзадание, что конкретно менять.
З: Да, я словами не могу сказать. Просто — посовременнее, вот это всё…
З: Знаете, нам не нравится. Вы можете показать ещё версию. Или сделать две.
Д: Я вас не понимаю.
Сейчас
З: Нам бы сайт обновить…
Д: Как обновить?
З: Посовременнее сделать…
Д: Ни слова больше! Через полчаса покажу вариант, и, если всё устраивает, доработаем.
З: О! То, что надо! И вот тут одну картинку поменяйте, пожалуйста.
«Сделать сайт посимпатичнее» — задача, которая подразумевает не только игру со шрифтами и цветами.
Сайт — это набор из графики, текстов, файлов, видео и прочего контента, которые должен быть распределён в определенном порядке, чтобы выполнять бизнес-задачи.
Если вы имеете дело с обновлением сайтов-визиток и небольших лендингов, uKit AI поможет прикинуть новые варианты их компоновки за несколько минут
Онлайн-сервис определит, какие элементы есть на текущей версии сайта и пересоберёт их на отдельном url-е так, чтобы важное для посетителя оказалось на видном месте. А заодно сам адаптирует результат под требования времени: мобильные устройства, HTML5, кликабельность телефона и так далее.
Результат можно тут же доработать или скинуть заказчику: люди чаще понимают, чего ещё хотят, когда «есть что пощупать».
uKit AI
Сервис готовится к запуску. Команда uKit AI до этого создала линейку отечественных онлайн-конструкторов, названия которых знакомы многим: uKit, uCoz и другие.
Развитие нейросетей
В начале 2019 года ученые из калифорнийской компании Open AI создали основанную на машинном обучении технологию, способную работать с естественными языками: отвечать на вопросы, завершать неполный текст, анализировать его содержание, делать выводы и выполнять многие другие задачи.
Эта нейросеть получила название GPT-2. В основе ее лежала идея о том, что все перечисленные задачи можно сформулировать в виде различных вариантов дополнения текста, где нам требовалось только предоставить системе неоконченный текстовый фрагмент, а она его дописывала.
В июне 2020 года появилась нейросеть GPT-3 – дальнейшее развитие этой идеи. Она достигла, казалось бы, совершенно невероятных результатов. Например, по текстовым описаниям могла создавать элементы веб-сайтов.
Но кто сказал, что нейросети могут работать только с текстовой информацией?
Спустя несколько месяцев у исследователей возникла идея о том, что, если мы можем дополнять текстовые предложения, почему бы не попробовать завершать изображения. Этот проект получил название Image GPT. Идея в его основе также была простой: мы даем системе неполное изображение и хотим, чтобы она дополнила отсутствующие пиксели.
Пример работы нейросети Image GPT.
Например, она смогла определить, что кот на картинке скорее держит бумагу и дополнила изображение. А если на картинке изображена капля и часть кругов на воде, то нужно завершить их и добавить брызги.
Но на этом тоже не остановились: в январе 2021 года, спустя всего 7 месяцев после разработки GPT-3, компания представила свою новую сногсшибательную технологию, которой удалось построить связь между текстом и изображениями.
Эту нейросеть назвали DALL-E.
Но если завершение изображений уже работает, что нового она может сделать? На самом деле, как вы увидите ниже, было бы правильнее задать вопрос «а чего она сделать НЕ может?»
В чем фишка DALL-E?
В текущем состоянии эта нейросеть создает изображения по текстовому описанию. И глядя на примеры работы, просто невозможно осознать, насколько это фундаментальная, сложная, и поразительная задача.
DALL-E получила кучу возможностей: она может визуально представлять текст, создавать антропоморфные версии животных и предметов, обоснованно связывать не имеющие друг к другу отношения предметы, а также трансформировать уже существующие изображения.
Пример работы DALL-E. Запрос – создание неоновой вывески с надписью SkyNet.
Конечно, результаты не идеальны. На картинке выше можно заметить, что на одной картинке вместо SkyNet написано SKJNET.
Но просто взгляните и задумайтесь – самые разнообразные вывески, витрины, двумерные и трехмерные, в разных ракурсах и все достаточно вменяемо выглядит. Поразительно.
Помимо вывесок можно создавать автомобильные номера, пакеты чипсов, сумки, и многое другое – на сайте OpenAI вы легко можете попробовать это сами.
Области применения нейросетей
️ анализ информации: на основании введённых данных, система автоматически строит определённые выводы
️ прогнозирование: например, погоды или биржевых котировок
️ принятие решений: управление техническими системами или финансовые задачи типа одобрения заявки на кредит исходя из данных о клиенте
️ распознавание образов: от узнающих хозяина домашних гаджетов до анализирующих изображения с городских камер полицейских систем
Именно развитие нейросетей, как многие считают, позволит решить задачу создания искусственного интеллекта – машины, способной мыслить самостоятельно, а не по заданной программе. И не только обрабатывать имеющиеся данные, но и создавать нечто новое.
Как вы увидите ниже, вполне возможно, что мы от этого уже не так далеки.
Помогут быстро объяснить идею
Раньше
З: Я вот попытался нарисовать логотип…
Д: Это что? Морковка на голове у жабы?
З: Это ракета, и она как бы вырастает из лотоса…
Д: Извините, я не понимаю.
Сейчас
З: Я вот попытался нарисовать логотип…
Д: Это что? Морковка на голове у жабы?
З: Это ракета, и она как бы вырастает из лотоса…
Д: Подождите, сейчас попробуем обработать ваши каракули. Вот так?
З: Отлично!
Google активно вкладывается в нейросети. Внимания тех, кто привык объяснять идеи «графически» (но не научился рисовать), заслуживает веб-сервис AutoDraw. Эта система способна превратить в сносные иконки многие каракули, угадав, что вы могли иметь в виду.
AutoDraw угадал лошадку
Вы уже, наверное, знаете, с кем из собственной команды или на стороне клиента поделиться новым знанием о сервисе. Согласитесь, потратить минуту на занятную игру в визуализацию явно лучше, чем затевать получасовое, с обязательными перерывами на кофе, обсуждение идей в Skype.
Если вам понравился проект, вы можете помочь обучить его, используя сервис Quick, Draw. Вам дадут задание за 20 секунд нарисовать определённый объект, а машина попробует угадать, что вы нарисовали. Эта игра поможет нейросети обучаться дальше, регулярно получая новый массив входящей графической информации.
Обучаем нейросеть в Quick, Draw
А если вы привыкли жить и общаться в мире гифок и прочей анимации, стоит ждать новинки от Microsoft. Два года назад компания приоткрыла технологию Autocomplete hand drawn animations. Получив один готовый кадр, система предлагает каркас для следующего. В отличие от уже существующих продуктов, эта разработка не требует от вас указывать точки привязки или ключевые кадры, а сама предполагает, как будет развиваться действие.
Что такое «нейросеть»
Зачастую нейросеть иллюстрируют именно так. И в этом есть доля правды, ведь данные передаются от одного нейрона к другому по цепочке.
Если не углубляться в математические дебри, нейросеть – это система связанных между собой простых элементов, которые называются искусственные нейроны.
Каждый нейрон преобразует несколько входных фактов в один выходной. К примеру:
1. Есть два факта, один из которых важнее второго.2. Нейрон получает эти два факта, сравнивает и в случае приоритетности одного выдаёт определённый результат.3. Этот результат, в свою очередь, является одним из входных данных для следующего нейрона.
Такой процесс происходит до выдачи окончательного результата обработки данных на выходе системы. Конкретная структура нейросети и ее возможности определяются количеством этих элементов и характером связей между ними.
Наглядная схема обучения нейросети. Взято отсюда.
Сами по себе эти элементы довольно просты, но объединяясь в большие массивы, они способны выполнять достаточно сложные задачи. Именно поэтому нейросети получили такое распространение лишь в последнее время. Раньше для них просто не хватало вычислительной мощности.
Главная особенность нейронных сетей заключается в возможности обучения. По известному набору входных и соответствующих им выходных данных настраиваются параметры – коэффициенты связей между нейронами.
В процессе сеть может определять зависимости между этими данными, а также обобщать их. Поэтому по завершении обучения нейросеть сможет выдавать новые верные результаты для входных данных, которых не было в обучающем наборе, в том числе неполных и искаженных.
Работа нейросети похожа на работу мозга, когда человек приходит к определённому выводу на основании полученной извне информации.
Оценят, «зайдёт» ли картинка
Раньше
З: А давайте поменяем это изображение на портрет нашего директора?
Д: Знаете, портрет — это скучно… Так уже никто не делает.
З: Ну, а мы сделаем. Тем более, директор хочет.
Д: Я-то сделаю, но подписываться под этим не буду.
Сейчас
З: А давайте поменяем картинку на портрет нашего директора?
Д: Смотрите, я меняю картинку, а программа говорит, что привлекательность фото близка к нулю. А наша картинка будет оставлять хорошее впечатление и запомнится надолго.
З: Хорошо, я передам директору. Думаю, он согласится.
В прошлом году было достаточно установить Prisma, чтобы сделать клёвую картинку для поста в соцсети. Однако часто сложно оценить, даст изображение нужный эффект или нет.
Для этого существуют сразу две разработки, которые будут полезны на этапе творческих поисков, а также в те моменты, когда между заказчиком и исполнителем начинается спор о том, почему выбрано одно изображение, а не другое.
Система Everypixel работает как поисковик по изображениям на основе имеющейся картинки. Вы скажете: «Это давно умеет Google». Однако программа имеет возможность определять степень привлекательности изображения. А если вы ещё и немного SEO-шник, система автоматически проставит ключевые слова к картинке.
LaMem
В свою очередь, алгоритм LaMem (ex-MemNet) от MIT определяет, какие изображения, постеры и рекламные буклеты запомнят надолго, а какие — забудут почти сразу же.
Как оживить фотографию
По словам авторов, система, получившая название Fewshot learning, способна создать очень реалистичные модели говорящих голов людей и даже портретных картин. Алгоритмы производят синтез изображения головы одного и того же человека с линиями ориентира лица, взятых из другого фрагмента видео, или с использованием ориентиров лица другого человека. В качестве источника материала для обучения системы разработчики использовали обширную базу данных видеоизображений знаменитостей. Чтобы получить максимально точную «говорящую голову», системе необходимо использовать более 32 изображений.
Для создания более реалистичных анимированных изображений лиц разработчики использовали предыдущие наработки в генеративно-состязательном моделировании (GAN, где нейросеть додумывает детали изображения, фактически становясь художником), а также подход машинного мета-обучения, где каждый элемент системы обучен и предназначен для решения какой-то конкретной задачи.
Одна из моделей машинного обучения
Достаточно одной фотографии, чтобы нейросеть начала работать
Оживлять можно не только фотографии, но и картины
Для обработки статичных изображений голов людей и превращения их в анимированные использовались три нейросети: Embedder (сеть внедрения), Generator (сеть генерации) и Discriminator (сеть дискримитатор). Первая разделяет изображения головы (с примерными лицевыми ориентирами) на векторы внедрения, которые содержат независимую от позы информацию, вторая сеть использует полученные сетью внедрения ориентиры лица и генерирует на их основе новые данных через набор сверточных слоев, которые обеспечивают устойчивость к изменениям масштаба, смещениям, поворотам, смене ракурса и прочим искажениям исходного изображения лица.
А сеть дискриминатор используется для оценки качества и подлинности работы двух других сетей. В результате система превращает ориентиры лица человека в реалистично выглядящие персонализированные фотографии.
Как нейросеть генерирует новые фото
Даже самые старые изображения могут быть оцифрованы и оживлены
Разработчики особо подчеркивают, что их система способна инициализировать параметры как сети генератора, так и сети дискриминатора индивидуально для каждого человека на снимке, поэтому процесс обучения может быть основан всего на нескольких изображениях, что повышает его скорость, несмотря необходимость подбора десятков миллионов параметров.
Обсудить новость можно в нашем Telegram-чате.
Не нужно этого бояться — надо пробовать
Вокруг нейросетей крутится миф о том, что чуть ли не завтра профессии дизайнера, верстальщика и копирайтера исчезнут, а работу вместо людей будет выполнять искусственный интеллект. Но если вы читаете эти строки, то вы, вероятно, ещё живы.
И уже живёте в мире, где искусственный интеллект (ИИ) делает часть работы за вас.
Замеряем пульс российского диджитал-консалтинга
Какие консалтинговые услуги востребованы на российском рынке, и как они меняют бизнес-процессы? Представляете компанию-заказчика диджитал-услуг?
Примите участие в исследовании Convergent, Ruward и Cossa!
Так, на машинном обучении основана функция Content Aware Crop в Photoshop. Продукты, применяющие нейронные сети, как правило, делает тот, кто имеет за плечами большой опыт создания классического ПО и сервисов для решения определённых задач: разработчики конструкторов сайтов, инструментов для графических, 3D- и веб-дизайнеров и так далее. Едва ли они хотят «убить» своих клиентов и свой рынок. Цель — снять рутинные задачи с человека и сделать инструменты более быстрыми, доступными и удобными.
Когда-то подобную революцию произвели компьютеры. Скажите, многие ли пострадали от этого?