Как сгенерировать нейросетью любые картинки

Где попробовать

Для работы с алгоритмом достаточно интернета и гугловского ноутбука в облаке. Мы уже писали про jupyter-ноутбуки, но на всякий случай вот суть:

  1. Ноутбук — это среда выполнения для кода, которая позволяет сразу видеть результат работы всех частей кода. В нашем случае это среда для Python, но бывают и ноутбуки для других языков.
  2. Можно эту среду запустить на своём компьютере, а можно использовать облачные ноутбуки. Если запускать у себя, то ноутбук сможет использовать все системные ресурсы и работать быстрее. Если в облаке — ресурсы облачного компьютера. 
  3. Пример такого облачного ноутбука — «Гугл Колаб». Им можно делиться с кем угодно, и тот, у кого есть ссылка на ноутбук, может тоже запустить тот же самый алгоритм. 

Вот . На всякий случай мы сделали свою копию, если вдруг исходный ноутбук будет недоступен.

Нейросети для удаления фона

Начнем с простых задач. Далеко не у всех есть фотошоп, и тем более — желание его осваивать. В 2021-м есть выход — это обработка фото нейросетью. Причем не только фото! Но обо всем по порядку.

Сервис Remove Background быстро стал популярным среди SMM-щиков и дизайнеров. Нейросеть убирает фон практически на любой фотографии в считанные секунды. Не нужно обводить объект инструментом “лассо”, как в фотошопе, или платить деньги. Remove.bg быстрый и бесплатный.

Посмотрите, как нейросеть удаляет фон:

На удалении фона изображений разработчики не остановились. Спустя несколько месяцев создатели Remove.bg выпускают еще один незаменимый продукт — Unscreen.bg. Эта нейросеть научилась удалять фон с любого видео

Результат фантастический, при этом неважно, использовался хромакей или нет

Посмотрите, как нейросеть убирает фон:

На удалении фона изображений разработчики не остановились. Спустя несколько месяцев создатели Remove.bg выпускают еще один незаменимый продукт — Unscreen.bg. Эта нейросеть научилась удалять фон с любого видео

Результат фантастический, при этом неважно, использовался хромакей или нет

Если о сервисах выше вы могли где-то слышать, то эта нейросеть для фотографий точно вам не встречалась. ObstructionRemoval — уникальный ИИ, который научили удалять преграды на изображениях. Например, решетку в зоопарке, стекло с бликами, грязь и прочее. Фото с помощью нейросети становятся чище. Вот как все работает:

Области применения нейросетей

️ анализ информации: на основании введённых данных, система автоматически строит определённые выводы
️ прогнозирование: например, погоды или биржевых котировок
️ принятие решений: управление техническими системами или финансовые задачи типа одобрения заявки на кредит исходя из данных о клиенте
️ распознавание образов: от узнающих хозяина домашних гаджетов до анализирующих изображения с городских камер полицейских систем

Именно развитие нейросетей, как многие считают, позволит решить задачу создания искусственного интеллекта – машины, способной мыслить самостоятельно, а не по заданной программе. И не только обрабатывать имеющиеся данные, но и создавать нечто новое.

Как вы увидите ниже, вполне возможно, что мы от этого уже не так далеки.

Что дальше

Реализовать другую заранее обученную модель.
Попробовать другой датасет.
Использовать больше картинок, чтобы увеличить точность работы нейросети.
Написать усилитель (amplifier) для цветового пространства RGB. Создайте аналогичную модель для раскрашивающей сети, которая берёт на вход очень насыщенные цветные изображения, а на выходе получаются картинки с корректными цветами.
Реализуйте взвешенную классификацию.
Примените нейросеть к видео

Уделите внимание не точности раскрашивания, а стабильности переходов между отдельными кадрами. Или можете собирать большие изображения из мелких «лоскутков».

Можете раскрасить свои чёрно-белые изображения с помощью всех трёх описанных версий нейросети на FloydHub.

Какие проблемы связаны с технологией и почему распознавание лиц — это всё равно хорошо

На сегодня с современными системами распознавания лиц связаны две основные проблемы, которые не сильно зависят от алгоритмов и носят общий характер, рассказал Skillbox Media директор департамента решений на базе ИИ компании Oberon Владимир Борисов.

Во-первых, по мнению эксперта, есть недоверие людей, страх тотальной цифровизации и того, что в современном мире у человека не останется личного пространства. В результате вокруг систем распознавания лиц образуется негативный информационный фон. «Но это не относится к корпоративному сегменту, где на протяжении многих лет формировалось мнение, что ИИ и системы распознавания приносят много пользы и работают на благо как конкретного сотрудника, так и предприятия в целом», — утверждает Владимир Борисов.

Во-вторых, у систем распознаваний лиц есть проблемы с инфраструктурой, на которой должна работать биометрия. Если базу создавать с нуля, то сложностей не возникает. Можно довольно быстро подобрать и смонтировать оборудование. Но если на предприятии уже есть видеокамеры или системы видеонаблюдения, то зачастую приходится формировать дополнительные рекомендации по верному расположению камер, изменению фокусного расстояния и светочувствительности.

Владимир Борисов убеждён, что системы распознавания лиц не могут навредить законопослушным людям. Напротив, они помогают в повседневной жизни. «Например, это различные удобные сервисы оплаты или прохода через турникеты по лицевой биометрии, биометрические карты лояльности, позволяющие продавцу-консультанту в торговом зале быстро сориентироваться и предложить покупателю необходимый товар», — объясняет он.

Системы распознавания лиц активно используются также для борьбы с преступностью. По словам Борисова, ежесекундно в России «миллионы камер в аэропортах, на ж/д вокзалах или транспорте сопоставляют пассажиропоток с базой террористов». В случае выявления совпадений камеры выдают необходимые оповещения на пульт охраны.

Фото: VladFotoMag / Shutterstock

Вопрос системы распознавания лиц чаще обсуждается не на уровне технологического прогресса, а на уровне этических нормативов, с сожалением отметил в разговоре со Skillbox Media директор по продуктам облачного сервиса для видеонаблюдения Ivideon Заур Абуталимов. Обсуждение проблемы инициировал ЕС, в ряде штатов США запрещено использование технологии для коммерческой деятельности, а в Сингапуре, например, уже действуют цифровые паспорта.

RemoveBg

Эта нейросеть от компании Product Hunt удаляет фон с изображений за 5 секунд. В компании рассказали, что используют искусственный интеллект и несколько дополнительных алгоритмов, но не раскрыли, какие именно технологии помогают обрабатывать иллюстрации.

Раньше сервис работал только с фотографиями, на которых есть люди. Сейчас автоматически распознает любые объекты на переднем плане и убирает фон сзади них. Просто загрузите изображение и получите готовую иллюстрацию без фона: обработка занимает 3-4 секунды.

Так выглядит результат обработки

В этом же сервисе полученное изображение можно редактировать. Например, стереть его часть, выбрать цвет фона или загрузить свой, восстановить определенную область фона.

Здесь красный цвет для фона и восстановленная часть исходного изображения

Ostagram

Нейросеть, судя по коду на GitHub, создана жителем Нижнего Новгорода Сергеем Моругиным. Она умеет раскрашивать изображения в цвета других иллюстраций.

Ostagram очень похожа на DeepArt и Instapainting, но у нее немного другой принцип работы. Она оформляет исходное изображение не в стиле выбранной картины, а в ее цветах. Чтобы начать обработку, нужно просто загрузить или выбрать исходник и изображение, откуда нужно взять цветовую гамму.

Вот такая красота может получиться, если совместить два разных изображения

Основная версия сервиса бесплатна, в остальном он условно бесплатный. Без денег можно получать готовые иллюстрации в разрешении максимум 600 пикселей по длинной стороне. Но, во-первых, у нас есть Let’s Enhance, а во-вторых, можно оплатить услуги сервиса. Размер изображения в версии Premium – до 700 пикселей, в версии HD – до 1 200 пикселей.

Шрифты

Fontmap — интерактивная карта шрифтов, созданная ИИ. Разработчик сайта Кевин Хо вдохновился исследователем из Стенфорда, который с помощью нейросети организовал тысячи фотографий на одной карте. В блоге Кевин пишет, что эксперимент с фотографиями показал, насколько полезными стали нейросети в работе с визуальной информацией. Программист задумался, как применить машинное обучение к дизайнерской рутине, и нашел решение — выбор шрифтовых сочетаний.

По мнению Кевина, для новых проектов дизайнеры берут шрифты, которые уже использовали, и выбирают из них по простым категориям — гротеск или антиква. Но в них большой спектр различий — в макете один шрифт без засечек может не сочетаться с другим.

Тогда Кевин совместно с Google Creative Lab разработал Fontmap. Алгоритм машинного обучения сортирует шрифты по визуальным характеристикам и подбирает сочетающиеся. Сейчас в базе Fontmap 750 шрифтов.

Шрифты, которые нейронные сети Fontmap выбрали для использования с Roboto

René — программа, которая поиграет со шрифтами за вас. Ее создал разработчик Джон Голд из Airbnb и TheGrid. Работа René построена на машинном обучении — с каждым новым подбором программа учится понимать принципы сочетания шрифтов. René помогает дизайнерам и разработчикам экономить время и составлять подборки шрифтов для разных проектов.

Джон Голд настраивает базовые характеристики для подбора шрифтов

Разработчик поддерживает идею, что нейросети — это инструменты-помощники, и высказывается против автоматизированного подхода. По мнению разработчика, René будет полезна только для дизайнера-профессионала, который будет «рулить» программой.

В чём различие обработки Artisto и фотофильтров

Фильтры фотографий действуют, попросту перекрашивая изображение. Для фильтра изображение — плоская картинка с набором точек (пикселей). При применении фильтра числовое значение точки (цвет) изменяется независимо от значений соседних пикселей.

В нейросетевой обработке главное отличие в том, что сеть видит изображение в перспективе, рассматриваются не отдельные пиксели, а целые объекты. Стилизация выходит более глубокой, чем перекраска фильтром.

При обработке видеофайлов основная проблема заключается в том, что нужно сохранить частоту кадров для гладкости воспроизведения. Artisto обрабатывает каждый кадр, основываясь на предыдущем, поэтому видео выходит сглаженным. Это же способствует быстрой обработке видео.

Собственный ИИ для реконструкции лица

Лица — чрезвычайно важная часть любого изображения, которое сложно воссоздать. Разработчики обучили нейронные сети на тысячах изображений, чтобы научить ИИ автоматически распознавать маленькие лица и предложить вам лучшую и более точную реконструкцию лица.

От фотокниг до широкоформатных — улучшите разрешение изображения и dpi для наилучшего результата печати.

Для электронной коммерции

Повысьте коэффициент конверсии вашей электронной коммерции — четкие и качественные изображения, чтобы покупатель мог видеть все

Для недвижимости

Делайте яркие и насыщенные фотографии недвижимости, чтобы повысить интерес и увеличить продажи.

Улучшение фотографий онлайн

Как Let’s Enhance увеличивает разрешение изображения?

Let’s Enhance использует передовую технологию сверхвысокого разрешения изображений, основанную на глубоких сверточных нейронных сетях. До появления этой технологии было невозможно резко увеличить фото или размер изображения без потери качества. Ваш лучший вариант в Photoshop, называемый бикубической интерполяцией, сделал ваше изображение нерезким и размытым. Те из вас, кто разбирается в математике, могут возразить — как бы вы ни увеличивали разрешение изображения — новой информации об изображении нет — вы просто не можете добавить дополнительное качество! Это неверно в случае использования нейронной сети и ИИ. Наша нейронная сеть обучена на огромном наборе данных изображений, поэтому она изучает типичные особенности физических объектов — кирпичи стен, волос и кожи. После того, как сеть распознает эти особенности на загруженных изображениях, добавит дополнительные детали на основе своих общих знаний о мире.

Какой максимальный предел изображения?

Для бесплатных пользователей мы устанавливаем предел в 15 мегапикселей и 15 мегабайт для каждой загруженной фотографии. Обработка и улучшение изображений с помощью нейронных сетей — чрезвычайно ресурсоемкий процесс. Мы снимаем эти ограничения для наших платных пользователей — никаких ограничений на размер файла и ограничение на размер изображения 30 мегапикселей.

Вы удаляете шум JPEG из загружаемых мной изображений?

Да, если мы обнаруживаем изображение с расширением .jpg или .jpeg, мы автоматически применяем систему шумоподавления, также основанную на нейронных сетях. Если по каким-либо причинам вы хотите повысить масштаб изображения и избежать удаления шума — загрузите изображение как .png

Какие изображения лучше всего подходят для работы с Let’s Enhance?

Система лучше всего работает с необработанными изображениями, которые ранее не подвергались масштабированию, повышению резкости и т. Д. Пожалуйста, убедитесь, что ваше изображение ранее не масштабировалось с помощью какого-либо инструмента. Если он был увеличен или отсканирован с физического оригинала, иногда уменьшение разрешения перед обработкой может дать гораздо лучшие результаты. Экспериментируйте!

Что еще интересного?

Let’s Enhance — украинский стартап, который разрабатывает онлайн-сервис на основе искусственного интеллекта, который позволяет улучшать изображения и увеличивать их без потери качества. По словам разработчиков, они использовали технологию машинного обучения сверхвысокого разрешения.Улучшить фотографию: Letsenhance

Если тебе понравился этот материал, ты можешь подписаться на мой  Instagram / / Medium / Linkedin. Там ты найдешь больше интересных материалов о дизайне.

Colorize

Сервис создан российской компанией G-Core Labs на основе проекта DeOldify с открытым исходным кодом. Нейросеть умеет раскрашивать черно-белые фотографии в реалистичные цвета.

Чтобы получить готовое изображение, просто загрузите черно-белую иллюстрацию и оставьте адрес электронной почты. Обработка займет от 10 секунд до 30 минут, в моем случае письмо было на почте через 15 секунд.

Черно-белое фото раскрашено вполне реалистично, но морю не хватает немного красок

Это условно бесплатный сервис. На каждой иллюстрации будет видна надпись «Created by colorize.cc», а всего можно загрузить до 50 картинок.

Сам ты художник

«Портрет Эдмонда де Белами» издалека кажется экспонатом классического искусства: из прямоугольника позолоченной рамы на зрителя хмуро глядит расплывчатый незнакомец в темном сюртуке и белой сорочке. Алгоритмическое происхождение картины выдает лишь подпись — математическая формула, которая создала портрет (min G max D x + z ). Это генеративно-состязательная сеть (Generative Adversarial Network, GAN) — система, которая натравливает алгоритмы друг на друга: одна нейросеть генерирует образцы изображений, а другая пытается отличить «правильные» от «неправильных». Впервые генеративно-состязательные нейросети были созданы ученым Иэном Гудфеллоу (Ian Goodfellow). Фамилия Белами — своего рода дань первосоздателю: good и fellow примерно переводятся на французский как bel ami — Белами.

Вокруг нейроискусства густо роятся споры. Может ли искусственный интеллект быть художником? Вероятно, алгоритм — это просто инструмент? Кто — или что — имеет авторское право: алгоритм; программист, его написавший; или художник, его применивший?

Мы, увы, не можем спросить, что думает нейросеть. Художники же расходятся во мнении. Пьер Фотрель из коллектива Obvious в интервью отмечал

Герман Тюменцев, создатель нейроклипа по Библии, уже не считает алгоритм лишь инструментом, но и отдавать авторство машине не склонен:

Скажем, один и тот же код Герман Тюменцев и я использовали по-разному. Я грузанула Есенина; Герман — Библию. Я грузанула, потому что «так вышло», предыстория клипа Германа интереснее. Поначалу он обучал нейросеть «разговаривать» на семплах электронной музыки. Но из-за небольшого количества слов в электронной музыке нейросети не хватило данных, произошел так называемый underfitting — сеть будто пыталась что-то сказать, но напоминало это крики из преисподней. «Вопли из ада» стали поводом задуматься о религиозной тематике и сгенерировать по библейскому тексту иллюстрации.

Именно этот процесс создания — сотрудничество человека и машины, — с точки зрения сторонников алгоритмов, гораздо ценнее конечного продукта. Признание соавторства художника и алгоритма — полумера, помогающая разрешить спор «художник ли? искусство ли?». Потому как сотрудничество человека и машины в поиске новых визуальных форм мало чем отличается от концептуального искусства, где идея, лежащая в основе работы, и процесс ее создания важнее результата.

Но можем ли мы найти у алгоритмов качества, свойственные художникам, поэтам, композиторам? Можем, но — в схожей «полумере» — не совсем можем.

От фотографий — к видео

Все исходные видеофайлы содержат избыточную информацию и занимают большой объем. Поэтому давно были разработаны алгоритмы сжатия, которые разбивают их на ключевые кадры (по сути — серии фотографий) и дельта-фреймы (частичные кадры, содержащие только изменения по отношению к ключевым кадрам). Чем чаще мы создаем ключевые кадры, тем более точным сохраняется описание каждой сцены, но тем сильнее растет избыточность и размер файла.

Похожий принцип используется и в TPN для добавления изначально отсутствующих данных о цвете. После раскрашивания человеком одного ключевого кадра вручную он анализируется нейросетью. Затем она транслирует выявленные закономерности цветовой заливки на дельта-фреймы.

Обычно новый ключевой кадр создается после каждых 30-60 промежуточных. Соответственно, нейросеть экономит ручной труд в 30 раз и более. Если на обрабатываемом участке видео не было смены планов, то следующий ключевой кадр будет мало отличаться от исходного и AI также попытается раскрасить его автоматически по аналогии.

Как видите, самой сложной задачей остается сохранение единого стиля. Человек понимает, что у рубашки одинаковые рукава, и знает, какого цвета была лента на форменной шляпе. ИИ «мыслит» на уровне пиксельных групп и не владеет информацией о свойствах объектов. Он просто переносит данные о цвете с частей продемонстрированного примера на все похожие изображения.

Нейросети для создания фото людей и аватарок

Следующие сервисы способны сгенерировать лицо человека или аватарку для соцсетей. Результат выглядит естественно и отличить работу нейросети от настоящего фото практически невозможно.

Еще год назад сервис пребывал в зачаточном состоянии и выдавал достаточно сырые результаты. Однако разработчики не забросили свою идею — и вот, на 2020 год в архиве нейросети более миллиона сгенерированных лиц живых людей. Самое то для аватарок в соцсетях. Например, чтобы пофармить аккаунты Facebook, а?

В Generated.photos есть удобный фильтр — можно сгенерировать лицо конкретного пола и возраста, выбрать цвет глаз и волос, длину прически и даже эмоцию на лице. Нейросеть работает безупречно.

Более простой по функционалу, но от этого не менее прекрасный сервис по созданию лиц несуществующих людей. Чтобы нейросеть сгенерировала онлайн фото, достаточно зайти на сайт и обновлять страничку. Варианты, которые подходят под ваши цели, сохраняются в формате jpg. Изображения получаются натуральными — можно использовать в отзывах, соцсетях и пр. Посмотрите, как работает нейросеть для фотографий:

ThisPersonDoesnotExist обработала миллионы человеческих лиц и создает новые на основе собирательных образов. Начинка сервиса — генеративная нейросеть StyleGAN от Nvidia.

А вот и один из самых интересных экземпляров нашей подборки. Нейросеть для создания дипфейк-видео из обычных картинок. Фото с помощью нейросети превращаются в анимацию. Для этого используется технология First Order Motion Model. Изначально код был опубликован на гитхабе, но энтузиасты уже перенесли все в Telegram-бота. Ребята даже анимировали жуткую голову из рекламы телекомпании “ВИД”:

На обработку 1 секунды видео требуется примерно 7 секунд времени, поэтому иногда в боте образовываются очереди. Подобную махинацию можно провернуть с любой фотографией, результат вас приятно удивит.

Сравнение с существующими методами

Представленный в данной статье метод был приведён в количественное сравнение с другими современными методами на примере датасетов NIST16, Columbia, COVER и CASIA. Сравнение было выполнено с применением двух оценочных метрик: F1 score и Area Under the receiver operating characteristic Curve (AUC).

Предлагаемая модель (RGB-N) была приведена в сравнение как с другими методами (ELA, NOI1, CFA1, MFCN, и J-LSTM), так и с одним RGB потоком (RGB Net), с одним шумовым потоком (Noise Net) и с моделью, в которой реализовано прямое объединение всех зарегистрированных ROI из RGB Net и Noise Net (Late fusion). Результаты данного сравнения представлены в таблицах ниже.

Таблица 1. Сравнение по метрике F1 scoreТаблица 2. Сравнение по метрике AUC

Из таблиц видно, что модель RGB-N превосходит такие общепризнанные методы, как ELA, NOI1 и CFA1. Причиной этого может быть тот факт, что все эти методы сфокусированы на специфичных артефактах редактирования, которые содержат только часть информации о локализации обработанного региона. Метод MFCN был превзойдён предлагаемой моделью на датасетах NIST15 и Columbia, однако показал более высокий результат на датасете CASIA. Кроме того, можно заметить, что с датасетом Columbia шумовой поток работает лучше (на основании оценок в метрике F1), чем двухпоточная модель. Причина этого в том, что изображения этого датасета содержат только несжатые «склеенные» области, поэтому хорошо сохраняют разницу в шуме.

Ниже приведены результаты качественного сравнения нейросетей RGB Net, Noise Net, и RGB-N на примере двух типов обработки изображений. Как видно, двухпоточная нейросеть даёт корректный результат, даже если один из потоков ошибается (RGB-поток в первой строке, шумовой поток во второй).

Как работают нейронные сети.

В топологии показаны схемы, каждая стрелка представляет собой связь между двумя нейронами и указывает путь для потока информации. Каждая связь имеет вес, целое число, которое контролирует сигнал между двумя нейронами.

Если сеть создает «хороший» и «нужный» выход, то нет необходимости корректировать вес. Однако если сеть создает «плохой» или «нежелательный» вывод или ошибку, то система корректирует свои весовые коэффициенты для улучшения последующих результатов.

ИНС способны к обучению, и они должны быть обучены. Существует несколько стратегий обучения

Обучение — включает в себя учителя, который подает в сеть обучающую выборку на которые учитель знает ответы. Сеть сравнивает свои результаты с ответами учителя и корректирует свои весовые коэффициенты.

Обучение без учителя — это необходимо, когда нет обучающей выборки с известными ответами. Например в задачах кластеризации, т.е. деления множества элементов на группы по каким-то критериям.

Обучение с подкреплением — эта стратегия, построенная на наблюдении. Сеть принимает решение наблюдая за своим окружением. Если наблюдение является отрицательным, сеть корректирует свои веса, чтобы иметь возможность делать разные необходимые решения.

Источники

  • https://neurohive.io/ru/osnovy-data-science/osnovy-nejronnyh-setej-algoritmy-obuchenie-funkcii-aktivacii-i-poteri/
  • https://protraffic.com/articles/neuronetwork-8-5362.html
  • https://software.intel.com/content/www/ru/ru/develop/hardware/ai-on-pc.html
  • https://www.zeluslugi.ru/info-czentr/stati/primery-iskusstvennogo-intellekta-programmy
  • https://habr.com/ru/post/337870/
  • https://neuronus.com/stat/1271-nejronnye-seti-iskusstvennyj-intellekt.html