Система машинного обучения обрабатывает звуки наравне с человеком

Tags: AI, ИИ, machine learning

Используя систему машинного обучения, известную как глубокая нейронная сеть, исследователи Массачусетского технологического института создали первую модель, которая может воспроизвести выполнение человеком слуховых задач, таких как определение музыкального жанра.

Эта модель, состоящая из множества слоев блоков обработки информации, способных обучаться на огромных объемах данных для выполнения конкретных задач, использовалась исследователями для того, чтобы пролить свет на то, как мозг человека способен выполнять одни и те же задачи.

«То, что эти модели дают нам в первую очередь  - это машинные системы, способные выполнять важные для людей сенсорные задачи и делать это на человеческом уровне», - говорит Джош Макдермотт, ассистент кафедры неврологии в Отделе мозга и когнитивных наук в Массачусетском технологическом институте и старший автор исследования.

«Исторически этот тип сенсорной обработки был трудно понять, отчасти потому, что у нас не было по-настоящему понятной теоретической основы и хорошего способа разработки моделей возможных вариантов развития событий».

Исследование, появившееся в выпуске Neuron от 19 апреля, также свидетельствует о том, что слуховая кора человека расположена  иерархически, подобно зрительной коре. В этом типе расположения сенсорная информация проходит через последовательные этапы обработки, причем основная информация обрабатывается ранее, а более продвинутые функции, такие как определение значения слова, извлекается на более поздних этапах.

Выпускники Массачусетского технологического института Александр Келл и помощник доцента Стэнфордского университета Даниэль Яминс являются ведущими авторами статьи. Другие авторы - бывший ученик Массачусетского технологического института Эрика Шук и бывший постдоктор Массачусетского технологического института Сэм Норман-Хеннер.

Моделирование мозга

Когда глубокие нейронные сети были впервые разработаны в 1980-х годах, нейробиологи надеялись, что они могут быть использованы для моделирования человеческого мозга. Однако компьютеры той эпохи не были достаточно мощными, чтобы создавать модели, достаточно большие для выполнения задач в реальных условиях, таких как распознавание предметов или речи.

За последние пять лет достижения в области вычислительной мощности и технологии нейронных сетей позволили использовать нейронные сети для выполнения сложных реальных задач, и они стали стандартным подходом во многих инженерных приложениях. Параллельно некоторые нейробиологи пересмотрели возможность использования этих систем для моделирования человеческого мозга.

«Это была прекрасная возможность для неврологии, поскольку мы можем создавать системы, способные выполнять те же действия, что и люди, а затем мы можем опросить модели и сравнить их с работой мозга», - говорит Келл.

Исследователи MIT подготовили свою нейронную сеть для выполнения двух слуховых задач:  одну с участием речи, а другую - с участием музыки. Для речевой задачи исследователи дали модели тысячи двухсекундных записей речи человека.  Задача состояла в том, чтобы определить слово в середине клипа. Для музыкальной задачи модель попросили определить жанр двухсекундного клипа музыки. Каждый клип также включал фоновый шум, чтобы сделать задачу более реалистичной (и более сложной).

После многих тысяч примеров модель научилась выполнять задачу в точности, как слушатель-человек.

«Идея заключается в том, что с течением времени модель становится все лучше и лучше в выполнении задачи», - говорит Келл. Мы надеемся, что она учит нечто общее, то есть если вы даете модели послушать новый звук, который не был ей ранее услышан, она хорошо справится с этой задачей».

Модель также имела тенденцию допускать ошибки в тех же клипах, в которых чаще всего ошибались и люди.

Процессорные блоки, которые составляют нейронную сеть, могут быть объединены различными способами, образуя различные архитектуры, влияющие на производительность модели.

Команда MIT обнаружила, что лучшей моделью для этих двух задач является разделение обработки на два этапа. Первый набор этапов был разделен между задачами, но после этого он разделился на два направления для дальнейшего анализа - одно направление для речевой задачи и одно для музыкальной жанровой задачи.

Признаки иерархии

Затем исследователи использовали свою модель для изучения давнего вопроса о структуре слуховой коры: организована ли она иерархически.

В иерархической системе серия областей мозга выполняет различные типы вычислений по сенсорной информации, когда она протекает через систему. Было хорошо известно, что зрительная кора головного мозга имеет этот тип организации. Ранние области, известные как первичная зрительная кора, реагируют на простые функции, такие как цвет или ориентация. Более поздние позволяют выполнять более сложные задачи, такие как распознавание объектов.

Однако было трудно проверить, существует ли этот тип организации в слуховой коре, отчасти потому, что не было хороших моделей, способных реплицировать слуховое поведение человека.

«Мы думали, что если бы мы могли построить модель, которая могла бы воспроизводить некоторые из тех действий, что осуществляет человек, мы могли бы затем сравнить разные этапы модели с различными частями мозга и получить некоторые доказательства того, могут ли эти части мозга быть организованы иерархически », - говорит Макдермотт.

Исследователи обнаружили в своей модели, что базовые характеристики звука, такие как частота, легче извлекать на ранних стадиях. Поскольку информация обрабатывается и перемещается дальше по сети, становится сложнее извлекать частоту, но легче извлекать информацию более высокого уровня, такую как слова.

Чтобы определить, могут ли этапы модели воспроизвести то, как слуховая кора мозга человека обрабатывает звуковую информацию, исследователи использовали функциональную магнитно-резонансную томографию (fMRI) для измерения различных областей слуховой коры, поскольку мозг обрабатывает звуки реального мира. Затем они сравнивали ответы мозга с ответами в модели, которая обрабатывала те же звуки.

Они обнаружили, что средние этапы модели лучше всего соответствуют активности в первичной слуховой коре, а более поздние этапы лучше всего соответствуют активности за ее пределами. Это свидетельствует о том, что слуховая кора может быть организована иерархически, подобно зрительной коре, говорят ученые.

«То, что мы видим очень четко, - это различие между первичной слуховой корой и всем остальным, - говорит Макдермотт.

Авторы теперь планируют разрабатывать модели, которые могут выполнять другие типы слуховых задач, такие как определение местоположения, из которого пришел конкретный звук, для изучения того, могут ли эти задачи выполняться теми же способами, что и в этой модели, или же они требуют других способов, которые затем могут быть изучены в мозге.

No Comments

Add a Comment