Что делает изображение запоминающимся? Спроси у компьютера

От «Моны Лизы» до «Девушки с жемчужной серьгой» одни образы остаются в памяти еще долго после того, как другие исчезли. Спросите художника, почему, и вы, возможно, услышите несколько общепринятых принципов создания памятных произведений искусства. Теперь есть более простой способ научиться этому: попросите модель искусственного интеллекта нарисовать пример.

Новое исследование с использованием машинного обучения для создания изображений, начиная от запоминающегося чизбургера и заканчивая незабываемой чашкой кофе, детально показывает, что выделяет портрет или сцену. Лучше всего запоминались изображения людей, участвовавших в исследовании, с яркими цветами, простым фоном и объектами, которые были заметно в центре кадра. Результаты были представлены на этой неделе на Международной конференции по компьютерному зрению.

«Картинка стоит тысячи слов», — говорит соавтор исследования Филлип Изола, Бонни и Марти (1964), доцент кафедры электротехники и информатики Массачусетского технологического института Тененбаум. «О запоминаемости написано много, но этот метод позволяет нам на самом деле визуализировать, как выглядит запоминаемость. Это дает нам визуальное определение того, что трудно описать словами «.

Работа основана на более ранней модели, MemNet, которая оценивает запоминаемость изображения и выделяет особенности изображения, влияющие на Прогнозы MemNet основаны на результатах онлайн-исследования, в ходе которого испытуемым было показано 60 000 изображений и ранжировано по тому, насколько легко они запоминаются .

Модель в текущем исследовании, GANalyze, использует технику машинного обучения, называемую генеративными состязательными сетями, или GAN, для визуализации одного изображения по мере того, как оно продвигается от «мега» к запоминающемуся. GANalyze позволяет зрителям визуализировать постепенное преобразование, скажем, расплывчатая панда, затерянная в бамбуке, превратившаяся в панду, которая доминирует в кадре, ее черные глаза, уши и лапы резко и очаровательно контрастируют с ее белой кружкой.

GAN с риффами изображений состоит из трех модулей. Оценщик, основанный на MemNet, поворачивает ручку запоминаемости на целевом изображении и вычисляет как добиться желаемого эффекта. Трансформатор выполняет свои инструкции, а генератор выводит окончательное изображение.

Прогресс дает драматическое ощущение покадровой съемки. Чизбургер, сместившийся в дальний конец шкалы запоминаемости, выглядит толще, ярче и, как отмечают авторы, «вкуснее», чем его более ранние воплощения. Божья коровка выглядит ярче и целеустремленнее. В неожиданном повороте перец на лозе превратился из зеленого в красный, как у хамелеона.

Исследователи также выяснили, какие особенности больше всего влияют на запоминаемость. В онлайн-экспериментах испытуемым показывали изображения различной степени запоминаемости и просили отмечать любые повторы. Оказалось, что самые липкие дубликаты изображали объекты ближе, из-за чего животные или объекты в кадре казались больше.. Следующими по важности факторами были яркость, расположение объекта в центре кадра и его квадратная или круглая форма.

«Человеческий мозг эволюционировал, чтобы сосредоточиться на этих функциях, и именно это GAN — говорит соавтор исследования Лоре Гетшалкс, приглашенный аспирант из Katholieke Universiteit Leuven в Бельгии.

Исследователи также изменили конфигурацию GANanalyze для создания изображений различной эстетической и эмоциональной привлекательности. Они обнаружили, что изображения, получившие более высокий эстетический и эмоциональный статус, были ярче, красочнее и имели небольшую глубину резкости, которая размывала фон, как и самые запоминающиеся изображения. Однако самые эстетичные изображения не всегда запоминаются.

GANalyze имеет ряд потенциальных применений, говорят исследователи. Его можно использовать для обнаружения и даже лечения потери памяти путем улучшения объектов в системе дополненной реальности.

«Вместо того, чтобы использовать лекарство для улучшения памяти, вы можете улучшить мир с помощью устройства дополненной реальности, чтобы выделить легко потерянные предметы, такие как ключи», — говорит соавтор исследования Од Олива. главный научный сотрудник Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) и исполнительный директор MIT Quest for Intelligence.

GANalyze также можно использовать для создания незабываемой графики, чтобы помочь читателям запомнить информацию. «Это может произвести революцию в образовании», — говорит Олива. Наконец, сети GAN уже начинают использоваться для создания синтетических реалистичных изображений мира, чтобы помочь обучить автоматизированные системы распознавать места и объекты, с которыми они вряд ли встретятся в реальной жизни.

Генеративные модели предлагают новые творческие способы сотрудничества людей и машин. Соавтор исследования Алекс Андонян, аспирант факультета электротехники и информатики Массачусетского технологического института, говорит, что именно поэтому он решил сделать их основным направлением своей докторской диссертации.

«Программное обеспечение для проектирования позволяет настраивать яркость изображения, но не его общая запоминаемость или эстетическая привлекательность — GAN позволяют вам это сделать », — говорит он. «Мы только начинаем понимать, на что способны эти модели».

Исследование финансировалось Национальным научным фондом США.



Как компьютеры получили потрясающе хорошо распознает изображения

Прямо сейчас я могу открыть Google Фото, набрать «пляж» и посмотреть фотографии с разных пляжей, которые я посетил за последнее десятилетие. Я никогда не просматривал свои фотографии и не маркировал их; вместо этого Google определяет пляжи на основе содержимого самих фотографий. Эта, казалось бы, приземленная функция основана на технологии, называемой глубокими сверточными нейронными сетями, которая позволяет программному обеспечению понимать изображения сложным способом, который был невозможен с помощью предшествующих методов..

В последние годы исследователи обнаружили, что точность программного обеспечения становится все лучше и больше по мере того, как они создают более глубокие сети и накапливают большие наборы данных для их обучения. Это вызвало почти ненасытный аппетит к вычислительной мощности, увеличив состояние таких производителей графических процессоров, как Nvidia и AMD. Несколько лет назад Google разработал свой собственный нейросетевой чип, и другие компании изо всех сил старались последовать его примеру.

В Tesla, например, компания назначила эксперта по глубокому обучению Андрея Карпати во главе свой проект Автопилот. В настоящее время автопроизводитель разрабатывает специальный чип для ускорения работы нейронной сети для будущих версий автопилота. Или возьмем Apple: чипы A11 и A12, лежащие в основе последних iPhone, включают «нейронный движок» для ускорения работы нейронной сети и позволяют улучшить приложения для распознавания изображений и голоса.

Эксперты, с которыми я разговаривал. Чтобы в этой статье проследить текущий бум глубокого обучения до одной конкретной статьи: AlexNet, прозванной в честь ведущего автора Алекса Крижевского.

«На мой взгляд, 2012 год стал вехой, когда вышла эта статья AlexNet, «- сказал Шон Джерриш, эксперт по машинному обучению и автор книги Как думают интеллектуальные машины .

До 2012 года глубокие нейронные сети были чем-то вроде захолустья в мир машинного обучения. Но затем Крижевский и его коллеги из Университета Торонто представили заявку на участие в престижном конкурсе по распознаванию изображений, которая оказалась значительно более точной, чем все, что было разработано ранее. Практически сразу же глубокие нейронные сети стали ведущим методом распознавания изображений. Другие исследователи, использующие эту технику, вскоре продемонстрировали дальнейший скачок в точности распознавания изображений.

В этой статье мы углубимся в глубокое обучение. Я объясню, что такое нейронные сети, как их обучают и почему они требуют такой большой вычислительной мощности. А затем я объясню, почему определенный тип нейронной сети — глубокие сверточные сети — так замечательно хорош в понимании изображений. И не волнуйтесь — картинок будет много.

Простой пример с одним нейроном

Фраза «нейронная сеть» все еще может показаться немного туманны, поэтому начнем с простого примера. Предположим, вы хотите, чтобы нейронная сеть решала, следует ли ехать автомобилю, на основе зеленого, желтого и красного света светофора. Нейронная сеть может выполнить эту задачу с помощью одного нейрона.

Нейрон принимает каждый вход (1 для on, 0 for off), умножает его на соответствующий вес и складывает все взвешенные значения вместе. Затем нейрон добавляет смещение, которое определяет порог активации нейрона. В этом случае, если выходной сигнал положительный, мы считаем, что нейрон «сработал», в противном случае — нет. Этот нейрон эквивалентен неравенству «зеленый — красный — 0,5> 0.. «Если это истинно, то есть зеленый свет горит, а красный не горит, машина должна уехать.

В реальных нейронных сетях искусственные нейроны делают еще один шаг. После суммирования взвешенные входные данные и добавление смещения, нейрон затем применяет нелинейную функцию активации. Популярным выбором является сигмоидальная функция, S-образная функция, которая всегда выдает значение от 0 до 1.

Использование функции активации не изменит результат нашей простой модели стоп-сигнала (за исключением того, что нам потребуется использовать порог 0,5 вместо 0). Но нелинейность функций активации важна для того, чтобы нейронные сети могли моделировать больше сложные функции. Без функции активации каждую нейронную сеть, независимо от ее сложности, можно было бы свести к линейной комбинации ее входных данных. А линейная функция не может моделировать сложные явления реального мира. Нелинейные функции активации делают это возможным для нейронных сетей для аппроксимации любой математической функции.

Пример сети

Конечно, есть много способов аппроксимировать функции. Что делает нейронные сети особенными, так это то, что мы знаем, как их «обучать» с помощью небольшого количества вычислений, большого количества данных и огромной вычислительной мощности. Вместо того, чтобы напрямую проектировать нейронную сеть для конкретной задачи, человек-программист, мы можем создать программное обеспечение, которое начинается с довольно общей нейронной сети, просматривает кучу помеченных примеров, а затем модифицирует нейронную сеть так, чтобы она создавала правильную метку. для как можно большего количества помеченных примеров. Есть надежда, что результирующая сеть будет обобщать, создавая правильные метки для примеров, ранее не входивших в ее обучающий набор.

Процесс перехода к этой точке начался задолго до AlexNet. В 1986 году трио исследователей опубликовали знаменательную статью об обратном распространении, методе, который помог математически подобрать сложные нейронные сети.

Чтобы получить интуитивное представление о том, как работает обратное распространение, давайте посмотрим на простая нейронная сеть, описанная Майклом Нильсеном в его превосходном онлайн-учебнике по глубокому обучению. Цель этой сети — получить изображение размером 28 × 28 пикселей, представляющее рукописную цифру, и правильно определить, является ли эта цифра 0, 1, 2 и т. Д.

Каждое изображение имеет 28 × 28 = 784 входных значения, каждое из которых представляет собой действительное число от нуля до единицы, представляющее, насколько светлый или темный пиксель. Нильсен построил нейронную сеть, которая выглядела следующим образом:

На этом изображении каждый из кружков в средний и правый столбцы — это нейрон, подобный тому, который мы рассматривали в предыдущем разделе. Каждый нейрон принимает средневзвешенное значение своих входных данных, добавляет значение смещения и затем применяет функцию активации. Обратите внимание, что круги слева не являются нейронами — эти круги представляют входные значения сети.. В то время как изображение показывает только 8 входных кругов, на самом деле имеется 784 входа — по одному на каждый пиксель входных изображений.

Предполагается, что каждый из 10 нейронов справа «загорается» для другая цифра: верхний нейрон должен срабатывать, когда входное изображение написано от руки 0 (и не иначе), второй должен срабатывать, когда сеть видит рукописную 1 (и не иначе), и так далее.

Каждый нейрон принимает входные данные от каждого нейрона в слое перед ним. Таким образом, каждый из 15 нейронов среднего слоя имеет 784 входных значения. Каждый из этих 15 нейронов имеет весовой параметр для каждого из 784 входов. Это означает, что один только этот слой имеет 15 × 784 = 11760 весовых параметров. Точно так же выходной слой содержит 10 нейронов, каждый из которых принимает входные данные от каждого из 15 нейронов среднего слоя, добавляя еще 15 × 10 = 150 весовых параметров. Вдобавок к этому в сети также есть 25 переменных смещения — по одной для каждого из 25 нейронов.

Оцените статью
clickpad.ru
Добавить комментарий