Исследования машинного обучения в акустике могут открыть мультимодальную метавселенную

    0
    16


    Исследователи из Массачусетского технологического института и лаборатории искусственного интеллекта IBM Watson создали модель машинного обучения, чтобы предсказать, что слушатель услышит в различных местах трехмерного пространства.

    Исследователи сначала использовали модель машинного обучения, чтобы понять, как любой звук в комнате будет распространяться в пространстве, создавая трехмерную картину комнаты так же, как люди используют звук для понимания своего окружения.

    В статье, написанной в соавторстве с Йилуном Ду, аспирантом Массачусетского технологического института на факультете электротехники и компьютерных наук (EECS), исследователи показывают, как методы, подобные визуальному 3D-моделированию, могут быть применены к акустике.

    Но они также боролись с элементами, в которых расходятся звук и свет. Например, изменение местоположения слушателя в комнате может создать совершенно другое впечатление от звука из-за препятствий, формы комнаты и характера звука, что затрудняет прогнозирование результата.

    Чтобы преодолеть эту проблему, исследователи встроили в свои модели особенности акустики. Во-первых, источник звука и слушатель могут поменяться местами без изменения того, что слышит слушатель, при прочих равных условиях. Звук также особенно зависит от местных особенностей, таких как препятствия на пути слушателя или звука.

    «Большинство исследователей до сих пор фокусировались только на моделировании зрения. Но, как люди, у нас мультимодальное восприятие. Важно не только зрение, но и звук. Я думаю, что эта работа открывает захватывающее направление исследований по лучшему использованию звука для моделирования мира, — сказал Ду.

    Используя этот подход, полученная модель нейронного акустического поля (NAF) смогла случайным образом выбрать точки на этой сетке, чтобы изучить особенности в определенных местах. Например, близость к дверному проему сильно влияет на то, что слышит этот слушатель, по сравнению с другими геометрическими элементами, находящимися дальше на другой стороне комнаты.

    Затем модель смогла предсказать, что слушатель может услышать от определенного акустического стимула, основываясь на их относительном расположении в комнате.

    «Моделируя акустическое распространение в сцене как линейную неизменную во времени систему, NAF учатся непрерывно сопоставлять все пары местоположений излучателя и слушателя с функцией нейронного импульсного отклика, которую затем можно применять к произвольным звукам», — говорится в документе. [PDF]. «Мы демонстрируем, что непрерывный характер NAF позволяет нам отображать пространственную акустику для слушателя в произвольном месте и может предсказывать распространение звука в новых местах».

    Чуанг Ган, главный научный сотрудник лаборатории искусственного интеллекта Watson AI Lab MIT-IBM, который также работал над проектом, сказал: «Эта новая техника может открыть новые возможности для создания мультимодального иммерсивного опыта в приложении метавселенной».

    Мы не все понимаем Рег читатели будут в восторге от приведенного выше варианта использования. ®

    Предыдущая статьяКак включить зарядку чистой энергии в iOS 16 на своем iPhone
    Следующая статьяCall Of Duty: Modern Warfare 2 — Советы по сетевой игре
    Виктор Попанов
    Эксперт тестовой лаборатории. Первый джойстик держал в руках в возрасте 3 лет. Первый компьютер, на котором „работал” был с процессором Intel i386DX-266. Тестирует оборудование для издания ITBusiness. Будь то анализ новейших гаджетов или устранение сложных неполадок, этот автор всегда готов к выполнению поставленной задачи. Его страсть к технологиям и приверженность качеству делают его бесценным помощником в любой команде.