Как рисует нейросеть?
Это рассказ под названием "Дали-2". И наверняка вы уже много слышали про "Дали-2". Очередная нейросеть, которая умеет круто рисовать, можно дополнить пластическую картину или сделать обложку для журнала. Но все не так просто. Сегодня разберемся, как работает Dali-2. И почему она настолько крута, что вы не нуждаетесь в профессиональных художниках? Выясним, что она похожа на матрешку, ну и, конечно, протестируем. Все ли там круто? Или не очень? Будет интересно. Так, начнем. Как Apple и IKEA изменили вещи вокруг нас? Почему в моде минимализм? Было ли дизайн в СССР и что такое техническая эстетика? Обо всем этом и не только говорим на втором канале "Основа" с историком дизайна Марией Свостяно. И смотрите по ссылке в описании. Как понимать язык вещей, чем крут советский дизайн? А что у него не получилось? И много интересных картинок. Кликайте по ссылке, ставьте лайк, колокольчик и подписку. Если понравилось, поддержите проект от меня, благодарочка. Как понятно из названия Dali-2, и это уже вторая версия. И именно она стала первой нейросетью, о которой говорили в больших медиа. И она первая сделала обложку для крупного глянца в журнале "Космополитан". И это нейросеть один из многих проектов в компании OpenAI. Про OpenAI вы хотите знать две вещи. Первое, это слоган OpenAI, это компания по изучению и внедрению искусственного интеллекта. Наша миссия сделать так, чтобы искусственный интеллект служил на благо человечеству. Второе, один из ее создателей Илон Маск. Кстати, у нас есть супер-подробный разбор компании Tesla. Посмотрите. Итак, давайте разберемся, что умеет Dali-2 и как она устроена. Помните спотти? Собачку со шляпой из вашей юности в контакте. Так вот, спотти подрос и стал кибер-спотти. Какое время, такие и собаки? Теперь спотти NFT. Да-да, в контакте с двух ног решает в мире Web3. И совсем скоро выпускает свою первую NFT коллекцию с кибер-спотти в главной роли. Образ кибер-спотти помогли создать крутые цифровые художники. Руслан, Виальцев, Миша, Либерти и Женя Зубков. Каждый из них отрисовал уникального спотти в своем стиле. Всего коллекция состоит из 8 тысяч токенов, каждый из которых уникален. Бывают обычные токены, а бывают очень редкие. И у каждого будет шанс получить своего борта кибер-спотти, который станет коллекционным. Но главная фишка коллекции NFT — можно купить за рубли без всяких заморочек с криптовалютой, не выходя из контакта. А еще NFT можно поставить на аватарку или на витрину в профиле. Или продать на любом другом маркетплейсе. Дроп коллекции будет в феврале, и чтобы не пропустить, подпишитесь на сообщество VK NFT. Хаб. Там все свежие новости и интересные материалы о мире Web3. А еще заходите в приложение VK NFT и пройдите обучающий курс, чтобы понять, что к чему. Ссылочки на все, как обычно, в описании, заходите, но мы возвращаемся к видео. Если перейти на официальный сайт, он, кстати, доступен любому желающему. И в текстовом поле ввести запрос на английском, вроде "безумный Макс, во вселенной безумного Макса, машина в огне". То мы получим вот примерно такое изображение. Сходу неплохо, ну как это получилось? Наверное, интуитивно мы даже представляем, как это работает. Ирония на посмешище, на судьбе в коленях, картине и зонтике. Это, давайте, давайте. Ну что я вам скажу, что на самом деле в Dali-2 много нейросетей, целых три штуки, и все они работают сообща. Давайте познакомимся с ними. Первая нейросеть называется CLIP, и это очень интересно. Изначально она создавалась как антипод, Dali. То есть она по изображению генерирует текст описания. Но более того, если копнуть поглубже, можно даже сказать, что CLIP умеет чувствовать и понимать контекст текста. Как это достигается? Первым делом нейросети подавали пары, состоящие из картинок с текстовым описанием. Например, вектор кот, мотоцикл, чашка и так далее. Если сказать в общем, у вас в голове не только сам текст, но и картинка предметов. Самое интересное здесь не рассеянность хранит вместе.
Интегрированное изображение, включающее и картинку, и заголовок, таким образом организована работа нашего мозга, согласно нейробиологам. Таким образом, все эти изображения переводятся на цифровой язык, а затем нейронная сеть, называемая "Clip", отправляет их для хранения в так называемом латентном пространстве. Это похоже на место, где все эти векторы плавают и, что самое важное, группируются в соответствии с их сходством друг с другом. И это сходство рассчитывается с помощью формулы. Это можно представить в виде куба, что-то вроде обители фразума Clip, где векторы называются, потому что они распределены по разным точкам пространства. И самое главное, что похожие векторы склонны сливаться вместе. Например, морская раковина и дельфин имеют общую черту — воду, поэтому они плавают где-то рядом и группируются вместе. Но изображение режима будет плавать в совершенно другом месте. Интересный факт заключается в том, что сами разработчики не знают, какие объекты группируются вместе, где они находятся, и только Clip это знает. Однако это относится к большинству объектов. В конце концов, мы сопоставили изображения нашей первой нейронной сети. Но что дальше? Кажется, уже интересно. Если вы согласны, нажмите кнопку "Мне нравится", подпишитесь и нажмите на значок колокольчика, чтобы не пропустить другие видео. Переходим дальше. И вот появляется вторая нейронная сеть. Она называется Glide. И что она делает? Glide уже имеет готовую структуру, где объекты расположены в соответствии с их сходством, добродушно подготовленную Clip. Затем она преобразует текст в изображение, что звучит просто, но на самом деле работает. Glide работает по принципу диффузионной модели. Сначала создается квадрат 64x64 пикселя с белым шумом. И Glide начинает свою трудоемкую работу, постепенно меняя пиксели от одного к другому, добавляя информацию и спрашивая Clip, похоже ли это на то, что нам нужно. Кстати, суть диффузионных моделей заключается в том, что они изначально добавляют шум к изображению, чтобы позже сгенерировать изображение из шума. Другими словами, это не случайно. В результате мы получаем почти окончательное изображение на основе нашего текстового запроса. Единственная проблема заключается в том, что размер этого изображения составляет 64x64, что не подходит для аватара, поэтому его нужно как-то увеличить. И вот появляется третья нейронная сеть, которая, по моему мнению, этим занимается. У нее нет запоминающегося названия. Она выполняет свою работу на основе текущих стандартов, что не так сложно. Она берет подготовленное изображение и рисует подходящие пиксели. Сначала создается изображение размером 240x240, а затем финальные 24x24 пикселя. По сути, она значительно улучшает изображение. Она была обучена на изображениях с искаженными пикселями, чтобы научиться правильно их рисовать. И в результате эти три компонента формируют сеть, называемую Doliva. Но возникает следующий вопрос: что она может делать таким образом? Doliva может создавать различные изображения, и масштаб просто поразителен. Поскольку нейронная сеть и ее помощники были обучены на сотнях миллионов фотографий, вы можете заказать практически все. Реалистичные фотографии, 3D-рендеры, карандашные рисунки, почти без ошибок. Хотя технически они существуют, но об этом позже. Возможно, вы уже слышали новости о беспокойстве художников и иллюстраторов. Давайте посмотрим, как Doliva и подобные нейронные сети могут повлиять на эту профессию. Может быть, вы слышали о игре Beyond Good and Evil 2? Это долгожданный проект от Ubisoft. Они обещают невероятно большой открытый мир и свободу выбора, но нас здесь интересует что-то другое. Обычно, чтобы оживить открытый мир, Ubisoft и другие компании используют услуги фрилансеров. Но чтобы нарисовать некоторые граффити, плакаты, картины, декорации и другие мелкие детали, которыми они не хотят сильно отвлекаться, на этот раз они передали практически все мелкие задачи. Речь идет о сотнях художников, но с появлением Doliva ситуация может быстро измениться. Больше не нужно нанимать сотни сотрудников; достаточно нескольких человек, которые будут эффективно управлять такими нейронными сетями. Если мы продолжим эту тенденцию, может оказаться, что многие творческие профессии будут затронуты.
Угрозой. Кстати, фотошоп и похожие программы тоже становятся под удар. Ведь они умеют не только создавать картины, но и редактировать их. Давайте представим, что мы хотим изменить фон, что-то добавить или изменить адресатов — ограничений не так много. Но не все графические программы так прекрасны. Имеются и проблемы, но пока не так много. На главной странице проекта, конечно, показывают самые удачные реализации картин. Но вот тот же мобс из нашего примера. Мы выбрали самый симпатичный вариант, но были и другие. Часто программа не очень хорошо справляется. Если потратить больше времени, можно достичь крутого результата, может быть даже идеального, но не сразу. А с надписью вообще получается интересно. Кстати, ученые Янис Дарас и Александр Садиматис из Техасского университета сделали необычное наблюдение. Все началось с разговора двух фермеров, которые использовали субтитры. И получилась какая-то белиберда. Но давайте прочитаем. Сверху мы видим надпись в Афко-Пиннити-Гос-Вико-Тес. А в облаке диалога мы видим А-Поплое-Весра-Е-Тайс. Запомните, ученые стали экспериментировать с этими словами. И, например, если ввести в программу Вико-Тес, то можно получить фотографии, похожие на овощи. Как на картинке? Да. Мы тоже попробовали и получили вот такую морковку-мутанта. Ученые продолжили эксперименты. И они ввели фразу А-Поплое-Вес-Ре-Е-Тайс. В итоге получилось изображение птиц с третьей картинки. Исходя из этого, ученые сделали вывод, что на картинке два фермера общаются о овощах, которые портят птиц. Одно вытекает из другого. То есть, пока очень осторожно, но есть следующие предположения. Похоже, что программа разработала собственный диалект для надписей, потому что из-за дефицитной модели не может показать настоящий язык. Она не может вывести правильные слова "микран" или, тем более, сформулировать предложение, но она мыслит образами, у которых есть название в словах, придуманных ею, или каким-то образом сформулированных. И самое продуктивное — видите, что происходит уже не просто технология, позволяющая создавать красивые картинки. Уже есть ученые, которые изучают, как, по сути, мыслят или придумывают образы этих самых технологий. И, более того, кажется, этот процесс чем-то похож на устройство этой штуки тоже. Что ж, кажется, сегодня было интересно.


