Измерение абстрактных рассуждений в нейронных сетях. Видео.

0
676
Нейронная сеть с абстрактным мышлением
Тест на IQ

Модели на основе нейронной сети продолжают добиваться впечатляющих результатов по давним проблемам машинного обучения, а установление их способности рассуждать об абстрактных концепциях оказалось трудным. Основываясь на предыдущих усилиях по решению этой важной особенности систем обучения общего назначения, в статье компании DeepMind излагается подход к измерению абстрактных рассуждений в обучающих машинах и раскрывается некоторые важные сведения о природе самого обобщения.

Чтобы понять, почему абстрактное рассуждение имеет решающее значение для общего интеллекта, рассмотрите знаменитый вывод Архимеда «Эврика!»: Заметив, что объем объекта эквивалентен объему воды, который перемещается объектом, он понимает объем на концептуальном уровне и поэтому мог рассуждать об объеме других объектов неправильной формы.

Мы хотели бы, чтобы ИИ имел аналогичные возможности. Хотя нынешние системы могут побеждать чемпионов мира в сложных стратегических играх, они часто борются с другими, по-видимому, простыми задачами, особенно когда абстрактная концепция должна быть обнаружена и повторно применена в новой обстановке. Например, если специально обучено только считать треугольники, то даже наши лучшие системы ИИ все еще могут не подсчитывать квадраты или любой другой ранее незарегистрированный объект.

Поэтому для построения более совершенных, более интеллектуальных систем важно понять, как нейронные сети в настоящее время способны обрабатывать абстрактные концепции и где они все еще нуждаются в улучшении. Чтобы начать делать это, мы приняли во внимание методы, используемые для измерения абстрактных рассуждений в тестах IQ человека.

Стандартные человеческие тесты IQ часто требуют, чтобы испытуемые интерпретировали простые визуальные сцены, применяя принципы, которые они узнали благодаря повседневному опыту. Например, человек, возможно, уже узнал о «прогрессиях» (понятие о том, что некоторые атрибуты могут увеличиваться), наблюдая за ростом растений или зданий, изучая добавление в классе математики или отслеживая баланс банковского депозита по мере начисления процентов. Затем они могут применить это понятие в головоломках, чтобы сделать вывод, что количество фигур, их размеры или даже интенсивность их цвета будут увеличиваться вдоль последовательности.

У нас еще нет средств, чтобы подвергать агентов машинного обучения аналогичному потоку «повседневных переживаний», то есть мы не можем легко измерить их способность передавать знания из реального мира в визуальные аналитические тесты. Тем не менее, мы можем создать экспериментальную настройку, которая по-прежнему позволяет использовать человеческие визуальные аналитические тесты. Вместо того, чтобы изучать передачу знаний от повседневной жизни до проблем с визуальными рассуждениями (как в человеческом тестировании), мы вместо этого изучали передачу знаний из одного контролируемого множества проблем визуального мышления другому.

Для этого мы создали генератор для создания матричных задач, включающий набор абстрактных факторов, включая такие отношения, как «прогрессия» и атрибуты «цвет» и «размер». Хотя генератор вопросов использует небольшой набор основных факторов, он тем не менее может создать огромное количество уникальных вопросов.

Затем мы ограничили коэффициенты или комбинации, доступные генератору, для создания различных наборов проблем для обучения и тестирования наших моделей, чтобы оценить, насколько наши модели могут обобщаться на тестовые наборы. Например, мы создали обучающий набор головоломок, в котором отношение прогрессии встречается только при применении к цвету линий и набор тестов, когда он применяется к размеру фигур. Если модель хорошо работает в этом наборе тестов, она будет служить доказательством способности выписывать и применять абстрактное понятие прогрессии даже в тех ситуациях, в которых она никогда ранее не наблюдала прогрессию.

Перспективные доказательства абстрактных рассуждений

В типичном режиме обобщения, примененном в оценках машинного обучения, где данные об обучении и тестировании отбираются из одного и того же основного распределения, все тестируемые нами сети демонстрировали хорошую ошибку обобщения, а некоторые достигают впечатляющей абсолютной производительности чуть выше 75%. Лучшая сеть явно вычисляла отношения между различными панелями изображений и оценивала пригодность каждого потенциального ответа параллельно. Мы называем эту архитектуру Wild Relation Network (WReN).

Когда требуется рассуждать, используя значения атрибутов «интерполированные» между ранее увиденными значениями атрибутов, а также при применении известных абстрактных отношений в незнакомых комбинациях модели очень хорошо обобщаются. Однако в режиме экстраполяции одна и та же сеть намного хуже, причем значения атрибутов в наборе тестов не лежат в том же диапазоне, что и во время обучения. Пример этого происходит для головоломок, которые содержат объекты с темным цветом во время обучения и светлые объекты во время тестирования. Производительность обобщения также была хуже, когда модель была обучена применять ранее увиденное отношение, такое как прогрессия по количеству фигур, к новому атрибуту, например размеру.

Наконец, мы наблюдали улучшенные характеристики обобщения, когда модель была обучена предсказать не только правильный ответ, но и «причину» ответа (т. е. Конкретные отношения и атрибуты, которые следует рассматривать для решения головоломки). Интересно отметить, что в нейтральной выборке точность модели сильно коррелировала с ее способностью вывести правильную связь, лежащую в основе матрицы: когда объяснение было правильным, модель выберет правильный ответ в 87% случаев, но когда его объяснение ошибочно эта производительность снизилась до 32%. Это говорит о том, что модели, которые добились более высокой производительности, когда они правильно вывели абстрактные концепции, лежащие в основе задачи.

Более тонкий подход к обобщению

Часто основное внимание уделялось сильным и слабым сторонам подходов, основанных на нейронных сетях, к проблемам машинного обучения, часто основанным на их способности или неспособности обобщить. Наши результаты показывают, что было бы бесполезно делать универсальные выводы об обобщении: нейронные сети, которые мы тестировали, хорошо выполнялись в некоторых режимах обобщения и очень плохо в других. Их успех определялся рядом факторов, включая архитектуру используемой модели и была ли эта модель подготовлена ​​для предоставления интерпретируемой «причины» для выбора ответа. Почти во всех случаях системы выполнялись плохо, когда требовалось экстраполяцию на входные данные, выходящие за рамки их опыта, или для обработки совершенно незнакомых атрибутов; создавая четкую направленность для будущей работы в этой важной области исследований.

Источник: DeepMind