Meta заявляет, что создала модель свертывания белков нового поколения

    0
    17


    Исследователи искусственного интеллекта из Meta говорят, что они разработали крупнейшую на сегодняшний день модель свертывания белков, которая способна предсказать структуру более 600 миллионов белков.

    Во вторник команда выпустила основанную на трансформаторе модель ESM-2 с 15 миллиардами параметров и базу данных предсказаний структуры белка, получившую название Метагеномный атлас ESM. Эта база данных включает формы белков, которые еще не наблюдались учеными.

    Белки представляют собой сложные биологические молекулы, содержащие до 20 типов аминокислот, и выполняют все виды биологических функций в организмах. Важно то, что они складываются в сложные трехмерные структуры, форма которых жизненно важна для их работы; знание их формы помогает ученым понять, как они функционируют, и, исходя из этого, помогает им найти способы имитировать, изменить или противостоять этому поведению.

    К сожалению, вы не можете просто взять формулу аминокислоты и сразу же определить конечную структуру. Вы можете проводить симуляции или эксперименты, чтобы понять это, но это отнимает много времени. В наши дни вы можете дать должным образом обученному программному обеспечению машинного обучения химический состав белка, и модель будет быстро и точно, условно говоря, предсказывать структуру.

    Действительно, DeepMind продемонстрировала это со своей моделью AlphaFold, которая в 2020 году выиграла проводимый раз в два года международный конкурс CASP по вычислению фолдинга белков. Имея входную строку аминокислот, AlphaFold и другое программное обеспечение для машинного обучения могут генерировать соответствующую трехмерную структуру.

    С тех пор исследователи из лондонской компании DeepMind улучшили свою систему, чтобы предсказать структуру более 200 миллионов белков, известных науке. Последняя система ESM от Meta пошла дальше, предсказав еще сотни миллионов после обучения на миллионах белковых последовательностей.

    Препринт команды Meta — Lin et al — с объяснением конструкции ESM-2 можно найти здесь. Интересно, что, по словам исследователей, система на самом деле представляет собой большую языковую модель, созданную для «изучения эволюционных паттернов и создания точных предсказаний структуры от начала до конца непосредственно из последовательности белка». AlphaFold, например, не является языковой моделью и использует другой подход.

    Как отмечают исследователи в своей статье, эти большие языковые модели можно использовать не только для обработки человеческих языков: «Современные языковые модели, содержащие от десятков до сотен миллиардов параметров, развивают такие способности, как быстрый языковой перевод, логические рассуждения и математические способности. решение проблем, все без явного надзора.

    «Эти наблюдения повышают вероятность того, что языковые модели, обученные последовательностям белков, могут демонстрировать параллельную форму возникновения».

    Результатом стал ESM-2, который, несмотря на языковую модель, был обучен предсказывать физическую форму белка по текстовой строке, представляющей его аминокислоты.

    ESM-2 — самая крупная модель в своем роде, и, по-видимому, она предсказывает структуры быстрее, чем аналогичные системы; по словам Meta, это до 60 раз быстрее, чем предыдущие современные системы, такие как AlphaFold или Rosetta, которые могут занять более десяти минут для создания вывода.

    Модель смогла создать метагеномный атлас ESM, предсказав более 600 миллионов структур из базы данных белков MGnify90 всего за две недели работы на 2000 графических процессорах. На одном графическом процессоре Nvidia V100 для имитации белка, состоящего из 384 аминокислот, требуется всего 14,2 секунды. Из статьи следует, что Meta заявила, что ее система в основном, но не полностью, соответствует AlphaFold по точности, хотя ее скорость является ключевым моментом, позволяющим ей предсказывать больше белков.

    «С современными вычислительными инструментами прогнозирование структуры сотен миллионов белковых последовательностей в практических временных рамках может занять годы, даже с использованием ресурсов крупного исследовательского учреждения. Чтобы делать прогнозы в масштабе метагеномики, прорыв в скорости прогнозирования имеет решающее значение», — сказал владелец Facebook.

    Meta надеется, что ESM-2 и Метагеномный атлас ESM помогут продвинуть науку, помогая ученым, изучающим историю эволюции или борющимся с болезнями и изменением климата. «Чтобы еще больше расширить эту работу, мы изучаем, как языковые модели можно использовать для разработки новых белков и содействия решению проблем в области здравоохранения, болезней и окружающей среды», — заключил бизнес. ®

    Предыдущая статьяClear Mode в TikTok: что это такое и как его использовать
    Следующая статьяCall Of Duty: Modern Warfare 2 — как разблокировать все камуфляжи мастерства
    Виктор Попанов
    Эксперт тестовой лаборатории. Первый джойстик держал в руках в возрасте 3 лет. Первый компьютер, на котором „работал” был с процессором Intel i386DX-266. Тестирует оборудование для издания ITBusiness. Будь то анализ новейших гаджетов или устранение сложных неполадок, этот автор всегда готов к выполнению поставленной задачи. Его страсть к технологиям и приверженность качеству делают его бесценным помощником в любой команде.