Французская фармацевтическая фирма Servier заявляет, что ее результативность в поиске целевых малых молекул выросла на порядок после того, как она перевела вспомогательную науку о данных на графовую базу данных от Neo4j.
Фармацевтическая компания, входящая в средний сегмент отрасли с годовым доходом в 4,9 миллиарда евро, работает над переносом своей карты знаний из реляционных систем в графовую базу данных в рамках усилий по ускорению разработки лекарств.
Тьерри Дорваль, руководитель отдела обработки данных и управления данными, объяснил, что целью было создать библиотеку малых молекул, определяемых в химии как менее 1000 атомных единиц массы и меньших, чем белки и нуклеиновые кислоты, на основе взаимодействия с базой данных графов. Связь может быть обусловлена, например, фенотипическим сходством (связанным с генетическими взаимодействиями) или сходством транскриптома (связанным с транскриптами РНК). «Благодаря структуре, основанной на узлах и ребрах, графовая база данных может брать однородную информацию из ряда ранее существовавших данных в Servier и находить нужные молекулы быстрее, чем предыдущие подходы», — рассказал он нам.
Жереми Гриньяр, специалист по данным и исследованиям компании Servier, сказал, что прежде чем использовать подход графовой базы данных, кампания по скринингу может изучить 1 миллион малых молекул, расположенных случайным образом. Это привело к тому, что процент попаданий (молекулы-кандидаты, считающиеся «активными» по отношению к мишени) составил менее 1 процента. Но с использованием графа знаний, основанного на Neo4j, проект проверил менее 1000 малых молекул и получил процент совпадений более 15 процентов.
Дорваль сказал, что результат соответствует ключевым показателям эффективности, которые использовались для обоснования проекта с точки зрения времени вывода на рынок разработки лекарств, что является важнейшим отличием в фармацевтической промышленности.
«Это приносит пользу бизнесу, улучшая характеристики во время кампании по отбору. Но, кроме того, соединение было выбрано рациональным образом, поэтому, когда вы доберетесь до него, вы поймете, почему было выбрано именно ваше хит. информацию и знания для проекта о том, что сработало, а что не сработало», — сказал он.
Пример малых молекул — это всего лишь одно приложение, построенное на графе знаний Servier.
Вокруг графовых баз данных разгорелись дебаты. В то время как сторонники утверждают, что они помогают понять взаимосвязь между вещами, будь то химические соединения или аккаунты в социальных сетях, критики утверждают, что преимущества, которые, по-видимому, предлагают графовые системы, могут быть созданы в реляционных системах, которые имеют более длительную историю – и, возможно, более зрелые и простые в управлении, чем их графовые аналоги.
Гриньяр отметил, что компания Servier построила свой граф знаний, используя конвейеры данных из нескольких реляционных баз данных, уже работающих в бизнесе.
«С реляционными таблицами это просто беспорядок, потому что сегодня мы проектируем базы данных, и через месяц у нас могут появиться новые запросы и новые вопросы. Улучшить дизайн модели данных — это просто беспорядок, используя таблицы, подобные реляционным базам данных, но используя графа это довольно просто, потому что вы можете просто добавить один узел или одно свойство в узел, не оказывая никакого влияния на остальную часть графа», — сказал он.
Дорваль сказал, что именно гибкость и скорость графической системы привлекли бизнес. «Многим приложениям не нужно переходить на граф, но в нашем случае речь шла о гибкости и разреженности данных. Речь шла о создании длинных путей вдоль связей. Конечно, вы можете сделать это с помощью другого подхода, но [the graph is] настолько мощный и быстрый, что использовать его было несложно», — сказал он.
В прошлом месяце Neo4j заявила, что увеличила количество аналитических запросов почти в 100 раз как при транзакционной, так и при аналитической обработке в одной базе данных благодаря новому подходу к параллельному выполнению и сбору измененных данных. ®