На проходившей в прошлом месяце в Лондоне конференции по вопросам глубинного машинного обучения несколько раз затрагивалась одна тема: важность понимания того, чем на самом деле мы занимаемся. В то время как такие компании, как Google, продолжают заявлять, что все мы живем в «первом веке ИИ», когда технологии машинного обучения лишь начинают открывать для себя новые сферы деятельности (например, распознавание речи и изображений), те, кто действительно стоит на передовых линиях исследований ИИ, стремятся подчеркнуть, что нам предстоит решить еще множество проблем перед тем, как наступит настоящий век ИИ. Даже если мы уже имеем цифровых помощников, которые могут говорить как компьютеры в научно-фантастических фильмах, это совсем не означает, что мы серьезно приблизились к созданию настоящего искусственного интеллекта.
В конечном итоге все проблемы, стоящие на пути создания настоящего ИИ, заключены в следующем: в том объеме информации, который необходимо будет в них вложить; в нашей неспособности создать ИИ, который мог бы одинаково хорошо справляться сразу с несколькими задачами; ну и на самом деле мы понятия не имеем, как подобные системы должны работать на самом деле. Технологии машинного обучения в 2016 году уже способны творить чудесные вещи, однако эти вещи порой бывает сложно объяснить даже для самих создателей. Не говоря уже о том, каких денег все это стоит. Разберем более подробно те сложности, с которыми приходится сталкиваться инженерам ИИ в настоящее время.
Сперва информация, затем – ИИ
Все мы прекрасно понимаем, что ИИ необходимо иметь доступ к информации для изучения окружающего мира, однако мы не совсем понимаем, какой именно объем информации необходим. По мнению Нила Лоуренса, профессора кафедры машинного обучения Шеффилдского университета и члена команды разработок технологий ИИ компании Amazon, этим системам потребуется в сотни и тысячи раз больше информации, чем человеку, для того чтобы научиться понимать мироустройство и распознавать те или иные объекты.
«Если посмотреть на все те отрасли и области, где инженеры добились каких-то успешных результатов в сфере глубинного обучения машин, то вы сразу увидите, какой колоссальный объем информации был задействован в решениях всех этих вопросов», — говорит Лоуренс, приводя в качестве примера те же технологии распознавания речи и изображений.
У таких компаний, как Google и Facebook, имеется доступ к целым горам информации, что, разумеется, упрощает создание различных полезных инструментов (тех же технологий голосового поиска для Android, например).
По мнению Лоуренса, информация сейчас является тем же, чем являлся уголь в начальные годы промышленной революции. В качестве примера Лоуренс приводит Томаса Ньюкомена, англичанина, создавшего в 1712 году (фактически за 60 лет до создания такой машины Джемсом Уаттом) примитивную версию парового двигателя, работающего на угле. Изобретение Ньюкомена не было идеальным. По сравнению с машиной Уатта, она оказалась неэффективной и слишком дорогой в использовании. По большей части ее можно было использовать только на угледобывающих рудниках, где объем необходимого топлива компенсировал недостатки машины.
Пример открытой технологии распознавания изображений Facebook
Лоуренс считает, что по всему миру могут быть сотни таких «Ньюкоменов», разрабатывающих свои собственные модели машинного обучения. Возможно, среди них есть действительно революционные идеи, но без доступа их технологий к огромным базам информации о них, скорее всего, никто так и не узнает. Большие компании вроде Google, Facebook и Microsoft – именно они те самые современные «угледобытчики». Они имеют доступ к неограниченному объему информации, поэтому могут создавать неэффективные системы машинного обучения и затем их улучшать. У мелких стартапов действительно могут быть отличные идеи, но они никогда не добьются ничего стоящего без доступа к информационным базам.
Эта проблема становится еще очевиднее, если посмотреть на те сферы, где получить нужную информацию становится еще сложнее. Взять хотя бы систему здравоохранения, где ИИ мог бы использоваться для выполнения задач, связанных с машинным зрением – поиском и распознаванием злокачественных опухолей на рентгеновских снимках, например. Но доступ к таким данным, как правило, очень ограничен. Основным ограничивающим фактором здесь, по мнению Лоуренса, является нынешнее представление людей о неэтичности доступа сторонними лицами к информации подобного рода. Главная проблема, как считает Лоуренс, заключена не в поиске путей распространения информации, а в том, как сделать системы машинного обучения эффективнее и научить работать с меньшим количеством информации. И эти улучшения в эффективности, по мнению ученого, могут занять те же 60 лет, как это было в случае с машиной Уатта.
Специализация – это тупик. ИИ должен уметь работать в многозадачном режиме
Еще одной ключевой проблемой, стоящей на пути разработки действительно глубинных моделей машинного обучения, является тот факт, что все наши нынешние системы ИИ, по сути дела, очень глупы. По мнению Райа Хадселл, научной сотрудницы DeepMind компании Google, эти системы на самом деле уже сейчас можно научить выполнять задачи по распознаванию котов, научить играть и при этом сделать их весьма эффективными в выполнении этих задач. Но «на настоящий момент в мире нет ни одной полноценной нейронной сети и методов, которые позволили бы натренировать ее на распознавание изображений, игры в Space Invaders и созерцание музыки». В свою очередь, именно нейронные сети являются ключевой базой для создания систем глубинного обучения машин.
И эта проблема гораздо значимей, чем могла показаться на первый взгляд. Когда в феврале прошлого года DeepMind объявила о том, что создала систему, которая может играть в 49 игр Atari, это действительно можно было рассматривать как большое достижение. Но в конечном итоге оказалось, что после того, как система завершает прохождение одной игры, ее каждый раз необходимо переобучить играть в другую. Хадселл отмечает, что мы не можем научить систему играть во все игры сразу, так как правила каждой будут смешиваться друг с другом и в конечном итоге мешать выполнять поставленную задачу. Каждый раз приходится учить машину заново, и при этом система каждый раз «забывает» то, как играть в предыдущую игру.
«Для того чтобы создать общий искусственный интеллект, нам необходимо что-то, что поможет нам научить машину выполнять сразу несколько задач одновременно. Сейчас же мы даже не можем обучить их играть в игры», — говорит Хадселл.
Решение может скрываться в так называемых прогрессивных нейронных сетях – объединении независимых систем глубинного обучения в единое целое для более эффективной работы с информацией. В опубликованной научной статье, разбирающей этот вопрос, Хадселл и ее команда исследователей рассказали о том, как их прогрессивная нейронная сеть смогла адаптироваться в игре Pong, условия в которой каждый раз в некоторой степени отличались (в одном случае были изменены цвета; в другом – перепутано управление), гораздо быстрее, чем «обычная» нейронная сеть, которой приходилось обучаться каждый раз заново.
Базовый принцип прогрессивной нейронной сети
Метод оказался весьма обещающим и в недавнем случае применялся для настройки роботизированных рук, ускорив процесс их обучения с недели всего до одного дня. К сожалению, и в этом методе есть свои ограничения. Хадселл отмечает, что в случае с прогрессивными нейронными сетями процесс обучения нельзя свести к простому добавлению новых задач в их память. Если продолжать объединять такие системы вместе, то рано или поздно вы придете к «слишком сложной модели, отследить которую будет невозможно». В этом случае речь пойдет уже о другом уровне. Об уровне, при котором различные задачи в основном будут выполняться аналогичным образом. Создать ИИ, способный разрабатывать дизайн стульев, и создать ИИ уровня человеческого интеллекта, способного писать поэмы и решать дифференциальные уравнения, – это совсем не одно и то же.
ИИ можно будет назвать ИИ, если мы сможем показать, как он работает
Еще одной сложнейшей преградой является понимание того, как искусственный интеллект будет приходить к своим выводам при решении задач. Нейронные сети, как правило, непроницаемы для наблюдателя. Несмотря на то, что мы знаем, как они собраны и как по ним проходит информация, те решения, которые они принимают, обычно остаются вне объяснений.
Отличным примером этой проблемы служит эксперимент Политехнического университета Виргинии. Исследователи создали для нейронной сети систему слежения, которая записывает, с каких пикселей цифрового изображения компьютер начинает свой анализ. Исследователи показали нейронной сети изображения спальни и задали ей вопрос: «Что висит на окнах?». Машина, вместо того чтобы сразу посмотреть на окна, начала анализировать изображения, начиная с пола. В поле ее зрения попала кровать и машина дала ответ: «на окнах висят шторы». Ответ оказался правильный, но только потому, что система была «научена» работе с ограниченным объемом данных. На основе показанной картинки нейронная сеть сделала вывод, что если на фото изображена спальня, то на окнах, вероятнее всего, должны быть шторы. Поэтому, когда в поле ее зрения попала деталь, которая обычно присутствует в любой спальне (в данном случае кровать), она не стала анализировать изображение дальше. Она, возможно, даже не видела эту кровать, она видела шторы. Логично, но очень уж поверхностно и притянуто. Кроме того, во многих спальнях нет штор!
Технология отслеживания является лишь одним из инструментов, которые могут помочь нам понять, что побуждает машину к принятию того или иного решения, однако есть более подходящие методы, которые позволят добавить больше логики и глубокого анализа системам машинного обучения. Профессор когнитивной робототехники Имперского колледжа Лондона Мюррей Шанахан считает, что наиболее лучшим вариантом решения проблемы является пересмотр старомодной парадигмы ИИ – символического ИИ, или GOFAI (Good Old-Fashioned Artificial Intelligence, «старого доброго искусственного интеллекта»). Его парадигма сводится к тому, что абсолютно любую задачу можно разбить на базовые логические элементы, где каждое слово является лишь сложным набором простых символов. Путем комбинирования этих символов — в действиях, событиях, объектах и так далее, — можно синтезировать мышление. Только подумайте, что такие наработки велись еще в те времена, когда компьютеры представляли собой гигантские коробы размером с комнату, работающие на магнитной пленке (работы начались в середине 50-х и велись до конца 80-х годов прошлого века).
Предложение Шанахана заключается в комбинировании символических описаний GOFAI и технологий глубинного обучения. Это позволит не просто скармливать подобным системам новую информацию и ждать, пока они выведут на основе этой информации определенные шаблоны поведения и решений задач, подход Шанахана призван наделить подобные системы отправными точками к пониманию мира. Это, по его мнению, не только решит проблему прозрачности ИИ, но также и проблему передаваемого обучения, описанную Хадселлом.
«Вполне можно сказать, что Breakout очень похожа на Pong, потому что в обоих случаях используются «платформы» и «мячи», однако с точки зрения человеческого восприятия и логики – это две совершенно разные игры. И делать параллели между ними фактически невозможно. Это как пытаться соединить структуру атома и структуру всей Солнечной системы».
Шанахан и его коллеги из Имперского колледжа Лондона в настоящий момент работают над созданием нового метода машинного обучения (который они называют глубоким символическим стимулированным обучением) и уже успели опубликовать результаты некоторых небольших экспериментов. Метод по-прежнему находится в своем зачаточном состоянии, и поэтому сложно пока говорить о том, будет ли он масштабироваться для более крупных систем, работающих с различными типами данных. Тем не менее шансы на то, что этот метод перерастет в нечто большее, все же имеются. В конце концов, глубинное обучение всегда являлся самой нудной и скучной частью сферы разработок ИИ до тех пор, пока исследователи не нашли способ быстрого доступа к данным и не обзавелись огромной вычислительной мощностью. Вполне возможно, пришло время вернуться к старым парадигмам ИИ и попробовать их в новой среде.