Премия ACM в области вычислительной техники этого года присуждается специалисту по машинному обучению, чья работа, даже если вы о нем не слышали, наверняка вам знакома.
Питер Эббил, профессор Калифорнийского университета в Беркли и соучредитель робототехнической компании Covariant, был награжден премией и вознаграждением в размере 250 000 долларов, которое дается тем, кто занимается машинным обучением, «чей исследовательский вклад имеет фундаментальное влияние и широкое значение».
Аббил — профессор информатики и электротехники, чья работа уже получила некоторое признание. Наряду с этой новой наградой он был назван лучшим молодым новатором в возрасте до 25 лет по версии MIT Technology Review и получил приз за лучшую докторскую диссертацию США в области робототехники и автоматизации.

Лауреат премии ACM 2021 года в области вычислительной техники Питер Аббил
ACM сказал, что Аббил был первопроходцем в области ученичества и обучения с подкреплением, и рассказал о разработанном им роботе для складывания одежды, который лучше умел манипулировать деформируемыми объектами. Он также внес свой вклад в разработку машин, которые могли завязывать швы и определять траектории объектов.
Кроме того, Эббил внес свой вклад в разработку оптимизации политик доверительного региона, однократного имитации обучения, рандомизации предметной области, воспроизведения ретроспективного опыта, обобщенной оценки преимуществ и алгоритма обучения с подкреплением, известного как критика мягкого актера.
Covariant, компания Аббиля, также добилась прорыва, в том числе в 2020 году, когда она разработала роботизированную руку, способную сортировать оборудование быстрее, чем люди.
ACM сказал, что одним из самых важных вкладов Аббила в мир машинного обучения была его работа с глубоким обучением с подкреплением, которое сочетает обучение с подкреплением с глубокими нейронными сетями. «Хотя программы раннего обучения с подкреплением были эффективны, они могли выполнять только простые задачи… глубокое обучение с подкреплением может решать гораздо более сложные проблемы, чем компьютерные программы, разработанные только с помощью обучения с подкреплением», — сказал ACM.
Глубокое обучение с подкреплением позволяет ИИ учиться быстрее с меньшими предварительными знаниями, поскольку он может более эффективно учиться на абстрактных, неструктурированных данных. Этот подход использовался в громких приложениях, таких как обучение побеждать людей в го, шахматах и покере, а также в других, связанных с улучшением уведомлений в социальных сетях и обучением самоуправляемых автомобилей.
Некоторые считают глубокое обучение с подкреплением парадигмой машинного обучения и непрактичным процессом, неспособным точно воспроизвести реальность.
Google Инженер-программист Алекс Ирпан писал в 2018 году, что глубокое RL страдает характерной для него потребностью в очень большом объеме данных для получения результатов, чего у него может не быть в реальных приложениях. ®