NVIDIA открыла код системы машинного обучения, синтезирующей пейзажи по наброскам

13.04.2019 08:58 (MSK)

Компания NVIDIA опубликовала исходные тексты системы машинного обучения SPADE (GauGAN), позволяющей синтезировать реалистичные пейзажи на основе грубых набросков, а также связанные с проектом натренированные модели. Система была продемонстрирована в марте на конференции GTC 2019, но код был опубликован только вчера. Наработки открыты под несвободной лицензией CC BY-NC-SA 4.0 (Creative Commons Attribution-NonCommercial-ShareAlike 4.0), допускающей использование только в некоммерческих целях. Код написан на языке Python с применением фреймворка PyTorch.

Наброски оформляются в виде сегментированной карты, определяющей размещение примерных объектов на сцене. Характер генерируемых объектов задаётся при помощи цветовых меток. Например, голубая заливка преобразуется в небо, синяя в воду, тёмно-зелёная в деревья, светло-зелёная в траву, светло-коричневая в камни, тёмно-коричневая в горы, серая в снег, коричневая линия преобразуется в дорогу, а синяя линия в реку. Дополнительно на основе выбора эталонных изображений определяется общий стиль композиции и время суток. Предлагаемый инструмент для создания виртуальных миров может оказаться полезным широкому кругу специалистов, от архитекторов и планировщиков городской среды до разработчиков игр и ландшафтных дизайнеров.

Объекты синтезируются генеративно-состязательной нейронной сетью (GAN), которая на основе схематичной сегментированной карты создаёт реалистичные изображения, заимствуя детали из модели, предварительно обученной на нескольких миллионах фотоснимков. В отличие от ранее развиваемых систем синтеза изображений предложенный метод основан на применении адаптивного пространственного преобразования с последующей трансформацией на основе машинного обучения. Обработка сегментированной карты вместо семантической разметки позволяет добиться точного соответствия результата и контролировать стиль.

Для достижения реалистичности применяются две конкурирующие друг с другом нейронных сети: генератор и дискриминатор (Discriminator). Генератор формирует изображения на основе смешивания элементов реальных фотографий, а дискриминатор выявляет возможные отклонения от реальных изображений. В итоге формируется обратная связь, на основе которой генератор начинает компоновать всё более качественные образцы, до тех пор пока дискриминатор не перестанет отличать их от настоящих.

исправить +18 +/–

Лицензия: CC BY 3.0

Наводку на новость прислал Аноним

Короткая ссылка: https://opennet.ru/50507-ai

Ключевые слова: ai, nvidia, gan, pytorch, image

При перепечатке указание ссылки на opennet.ru обязательно

Обсуждение (45)

1.1, dimcha (??), 11:19, 13/04/2019 [ответить] [﹢﹢﹢] [ · · · ]	+3 +/–
ОГНИЩЕ!!!!!

1.2, Аноним (2), 11:22, 13/04/2019 [ответить] [﹢﹢﹢] [ · · · ]	–3 +/–
Всё стремится к примитивности. Такими темпами скоро появятся "желтые" заголовки в стиле - "шимпонзе создала картину превосходящую по технике Ван Гога!" и "мой кот повторяет шедевры Пикассо!"

2.8, commiethebeastie (ok), 12:38, 13/04/2019 [^] [^^] [^^^] [ответить]	+25 +/–
Мой кот умнее анонима.

3.16, Аноним (16), 15:23, 13/04/2019 [^] [^^] [^^^] [ответить]	+14 +/–
Ей, осторожнее, я и есть твой кот.

2.11, Ordu (ok), 13:52, 13/04/2019 [^] [^^] [^^^] [ответить]	+/–
https://www.brecorder.com/2019/04/11/488194/scientists-put-human-gene-into-mon

3.41, Попугай Кеша (?), 17:08, 15/04/2019 [^] [^^] [^^^] [ответить]	+/–
"Планета обезьян" из фантастики становится возможным будущим

2.39, qwerty_qwerty1 (?), 10:26, 15/04/2019 [^] [^^] [^^^] [ответить]	+/–
Искусство, вообще понятие субъективное. Так что да, ваш кот не сможет нечего создать, а вот мои рыбки те да гениальны.

1.3, Zenitur (ok), 11:27, 13/04/2019 [ответить] [﹢﹢﹢] [ · · · ]	+12 +/–
А можно ли конвертировать игры для CGA и EGA в HiRes в реальном времени?

2.15, Аноним (15), 14:41, 13/04/2019 [^] [^^] [^^^] [ответить]	+1 +/–
Нет, конечно. Оно на питоне написано.

3.19, Аноним (19), 16:50, 13/04/2019 [^] [^^] [^^^] [ответить]	+2 +/–
На питоне там только обвязка, производительность которой некритична. Сама нейросеть работает нативно.

4.20, Аноним (20), 17:06, 13/04/2019 [^] [^^] [^^^] [ответить]	+/–
Для real-time приложения, а другое для игр не получится, обвязка на питоне сожрёт любые доступные ресурсы

5.25, Аноним (25), 22:47, 13/04/2019 [^] [^^] [^^^] [ответить]	+2 +/–
Сказали же - computation graph обученной нейросети не нуждается в обвязке на питоне, конструирующей сеть и обучающей её. Нужна только тупая обвязка на С++, прокидывающая картинку из текстуры OpenGL в код на OpenCL и обратно путём биндинга некоторых объектов, ещё нужна обвязка, грузящая код из файла. Но суперпупер 3д игры не ожидайте - от кадра к кадру пропущенная через сеть картинка будет очень разная, от такой игры даже у здрового человека голова заболит. Для суперпупер 3д надо уметь векторизовать и восстанавливать 3д информацию, а это уже пахнет вокселями и 3д-нейросетью заместо полигональных моделей, а это уже неподъёмно.

5.29, Аноним (29), 03:49, 14/04/2019 [^] [^^] [^^^] [ответить]	+1 +/–
EVE Online на пайтоне. И ничего... работает!

2.31, анонимз (?), 07:07, 14/04/2019 [^] [^^] [^^^] [ответить]	+/–
http://www.the8bitguy.com/243/cga-graphics-not-bad-thought/ ;) в реальности CGA поддерживает емнип 16 цветов, а не 4, но нужен композитный монитор или телевизор

3.45, Ordu (ok), 19:23, 16/04/2019 [^] [^^] [^^^] [ответить]	+/–
Круто. Люблю такие исторические ретроспективы. Интересно, будут ли в вузах будущего читать курс истории микрокомпьютеров, где будущие историки будут учится писать скроллеры под cgi, или записывать на 5" дискету 1600Kb? Или всё это так и забудут, так же как многие тысячи пневматических уличных часов, показывавших централизованно синхронизированное время по всему Парижу на стыке XIX и XX веков. Лет же пятьдесят эти часы отработали, а потом их просто вышвырнули на помойку, и забыли успешно. Неблагодарные хомячки-потребители.

1.4, freehck (ok), 11:34, 13/04/2019 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Молодцы, что открыли, фигли. Поясните кто-нибудь, кто разбирается, и у кого есть время посмотреть: рисование картин по шаблонам вроде как тема очень не новая, в связи с чем вопрос; в части построения слоёв там что-нибудь принципиально новое есть, или это просто демонстраци того, как оптимизировать это дело под NVidia?

2.5, Аноним (5), 12:01, 13/04/2019 [^] [^^] [^^^] [ответить]	+1 +/–
Здесь наглядное сравнение с аналогами https://nvlabs.github.io/SPADE/images/coco_comparison.jpg при обучении на одной и той же коллекции картинок. Насколько я понял принципиальная разница в том, что сеть начинает поступательно улучшать полученную на входе мазню до уровня реализма без отдельной фазы нормализации.

1.6, Аноним (6), 12:23, 13/04/2019 [ответить] [﹢﹢﹢] [ · · · ]	+12 +/–
Драйверы под линь лучше бы написала и открыла

2.26, Аноним (25), 22:49, 13/04/2019 [^] [^^] [^^^] [ответить]	–2 +/–
Зачем, если они и так монополист и всех вертели?

1.7, Аноним (7), 12:27, 13/04/2019 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
>Грым не знал точно, как работает доводчик — и никто толком не знал. Дамилола сказал только, что в нём заложен тот же алгоритм, что и в Кае — программа учитывает всё, когда-то сказанное людьми, все бесчисленные смысловые выборы, которые делались в течение веков и сохранились в информационных анналах. Пальцы Грыма как бы управляли армией мёртвых душ, двигавших для него кубики слов.

1.9, Анонимс (?), 12:51, 13/04/2019 [ответить] [﹢﹢﹢] [ · · · ]	–1 +/–
> Объекты синтезируются генеративно-состязательной нейронной сетью (GAN), которая на основе схематичной сегментированной карты создаёт реалистичные изображения, заимствуя детали из модели, предварительно обученной на нескольких миллионах фотоснимков Видимо, скоро актёры в голливуде останутся без работы. Нажал на кнопку, а ИИ тебе сгенерировал 100500 новых, реалистичных актёров, которые будут делать всё, что пожелаешь.

2.12, EuPhobos (ok), 14:12, 13/04/2019 [^] [^^] [^^^] [ответить]	+/–
Рендерить рожи якобы "знаменитостей" уже умеет https://youtu.be/VrgYtFhVGmg?t=19

2.14, Аноним (14), 14:30, 13/04/2019 [^] [^^] [^^^] [ответить]	+4 +/–
Да и пес с ними с актерами.

3.34, Аноним (34), 11:04, 14/04/2019 [^] [^^] [^^^] [ответить]	+1 +/–
Действительно, что нам актёры? Такое впечатление, что анонимы "Generation П" не читали.

1.10, Аноним (10), 13:38, 13/04/2019 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Кривая гладь воды радует

1.13, Crazy Alex (ok), 14:23, 13/04/2019 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
И давно NC-лицензии стали свободными?

2.17, GG (ok), 16:19, 13/04/2019 [^] [^^] [^^^] [ответить]	+3 +/–
Они не стали, это пропаганда копирастов.

2.21, Аноним (21), 17:32, 13/04/2019 [^] [^^] [^^^] [ответить]	+/–
Да, CC BY-NC-SA 4.0 ограничивает свободу распространения, поэтому называть ее свободной нельзя. И очень странно использование CC для ПО - видимо, нестыковка как раз в этом. Данные лицензии применяют для документов. Ну вот, например, проекты распространяются под GPL v3 (исходники и бинарные сборки для всех ОС), а документация к ним, имеющая самостоятельную литературную и научную ценность, под CC-BY-SA 4.0. Считаю такой подход более корректным.

3.23, GG (ok), 19:09, 13/04/2019 [^] [^^] [^^^] [ответить]	+/–
Нет, для документации есть GNU FDL. Лицензии CC были придуманы и навязаны копирастами для рисованов, чтобы те пилили закопирастеные картинки, которые в свободном ПО использовать или проблематично или вообще невозможно.

4.24, Аноним (21), 19:51, 13/04/2019 [^] [^^] [^^^] [ответить]	+/–
Каждый вправе выбрать сам лицензию или придумать свою. Был приведен только пример. Некоторые нюансы делают GNU FDL менее предпочтительной, чем CC BY-SA, для указанного типа документации. Кстати, о картинках. Недавно один из интересных ресурсов изображений перешел с СС на собственную лицензию. А Википедия наоборот - с GNU на СС.

4.27, Аноним (25), 22:51, 13/04/2019 [^] [^^] [^^^] [ответить]	+1 +/–
Вообще-то просто cc-by, cc-by-sa и cc-0 вполне свободные лицензии. И Лессиг против копирастии.

5.28, GG (ok), 23:38, 13/04/2019 [^] [^^] [^^^] [ответить]	+/–
Нет, не свободные, т.к. не требуют выдачи исходников в случае производной работы (бинарник, например).

6.35, shpinog (?), 13:04, 14/04/2019 [^] [^^] [^^^] [ответить]	+/–
Слово " требовать" и "свобода", как то странно приравниваются... кто сказала что свободная лицензия должна что-то требовать, MIT.

1.18, Аноним (18), 16:41, 13/04/2019 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Кто-нибудь картинку с саванным шимпанзе уже проверял?

1.22, Аноним (22), 17:58, 13/04/2019 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Если бы у "Нашего человека в Гаване" была такая штука, ему не пришлось бы срисовывать чертежи пылесоса...

1.30, Аноним (-), 05:12, 14/04/2019 [ответить] [﹢﹢﹢] [ · · · ]	+/–
чистый синтез это процедурная генерация(ассембл.+ Си) а тут просто микширование картинок по шаблонам с добавлением эффектов. На современных видяхах используя чистую генерацию можно творить невероятные реалтайм шедевры умещающиеся в пару мегабайт вместо сотен гигов машинно обученой базы.

2.32, Аноним (32), 09:06, 14/04/2019 [^] [^^] [^^^] [ответить]	+/–
> На современных видяхах используя чистую генерацию можно творить невероятные реалтайм шедевры умещающиеся в пару мегабайт Ссылки на (желательно, свободные) примеры в студию.

3.37, Vitaliy Blats (?), 17:38, 14/04/2019 [^] [^^] [^^^] [ответить]	+/–
Каждая школота знала про Bryce. Ты из поколения ЕГЭ шоле ?

4.42, Попугай Кеша (?), 17:10, 15/04/2019 [^] [^^] [^^^] [ответить]	+/–
Bryce - зачетная тема, могу еще накинуть - Vue (Avatar) / Terragen (использовался в Sucker Punch)

2.33, Аноним (33), 09:49, 14/04/2019 [^] [^^] [^^^] [ответить]	+/–
Хаха, осталось только придумать процедуру (и закодить). В этом и прелесть нейронных сетей (грубо говоря, она сама придумывают процедуру). В этом же и её слабость (на ком натренирована).

3.36, Аноним (21), 15:16, 14/04/2019 [^] [^^] [^^^] [ответить]	+/–
Нейронная сеть не > придумывают процедуру

4.38, Аноним (38), 19:24, 14/04/2019 [^] [^^] [^^^] [ответить]	+/–
Грубо говоря же. Вообще, тут долго можно спорить об определениях, что есть обучение, что есть интеллект или мышление.

1.40, Аноним (40), 11:11, 15/04/2019 [ответить] [﹢﹢﹢] [ · · · ]	+/–
А можно точно также, но с электронными компонентами?

1.43, Аноним (43), 10:43, 16/04/2019 [ответить] [﹢﹢﹢] [ · · · ]	+/–
"Послушай, Успенский с тобой говорит. Здесь за окном офигительный вид.". Гуглим дальше.

2.44, Попугай Кеша (?), 13:38, 16/04/2019 [^] [^^] [^^^] [ответить]	+/–
На чем научили )

Добавить комментарий

Текст: