Озадачены набором Lego? Новая структура машинного обучения может интерпретировать эти инструкции для вас.
Исследователи из Стэнфордского университета, Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института и Лаборатории искусственного интеллекта Autodesk совместно разработали новую платформу, основанную на обучении, которая может интерпретировать 2D-инструкции для создания 3D-объектов.
Сеть Manual-to-Executable-Plan, или MEPNet, была протестирована на созданных компьютером наборах Lego, реальных инструкциях по набору Lego и Minecraftпланы построения вокселей, и исследователи заявили, что они превзошли существующие методы по всем направлениям.
Новая идея MEPNet
Искусственному интеллекту нелегко интерпретировать 2D-инструкции. Исследователи говорят, что визуальные инструкции, которые, как и наборы Lego, полностью состоят из изображений, связаны с парой ключевых проблем: определение соответствия между 2D- и 3D-объектами и работа с большим количеством базовых частей, таких как Lego.
По словам исследователей, базовые кубики Lego часто собираются в сложные формы, прежде чем их добавляют к основному корпусу модели. Это «усложняет для машин интерпретацию руководств по Lego: требуется делать выводы о трехмерных позах невидимых объектов, состоящих из видимых примитивов», — говорят исследователи.
По словам исследователей, существующие методы преобразования ручных шагов в машиноисполняемые планы в основном состоят из двух форм: основанные на поиске методы, которые просты и точны, но требуют больших вычислительных ресурсов; и модели, основанные на обучении, которые работают быстро, но не очень хорошо справляются с невидимыми трехмерными формами.
Исследователи заявили, что MEPNet сочетает в себе и то, и другое.
Исследователи пишут, что, начиная с 3D-модели компонентов, текущего состояния набора Lego и 2D-изображений вручную, MEPNet «предсказывает набор 2D-ключевых точек и масок для каждого компонента».
Как только это будет сделано, ключевые точки 2D «обратно проецируются в 3D путем поиска возможных связей между базовой формой и новыми компонентами». Комбинация «поддерживает эффективность моделей, основанных на обучении, и лучше обобщает невидимые 3D-компоненты», — пишет команда.
Но может ли он собрать мой комод из Икеи?
В документе исследователи заявили, что их целью является создание машин, которые помогают людям собирать сложные объекты, и они включают в свой список приложений мебель, кубики Lego и воксельные миры.
Мы спросили исследователей, стоящих за MEPNet, о дополнительных возможностях использования их новой структуры, но пока не получили ответа. В то же время было бы разумно предположить, что MEPNet может построить книжную полку — по крайней мере, виртуально — при наличии необходимой библиотеки компонентов и инструкций.
Все, что нужно сделать человеку, — это интерпретировать трехмерные изображения MEPNet, что, как мы надеемся, будет проще, чем инструкции по сборке мебели в разобранном виде.
Те, кто хочет протестировать MEPNet и знаком с Pytorch, могут найти его код на Github. ®