Предсказание взаимодействий лекарств и мишеней: новый подход на основе байесовских моделей

Автор: Денис Аветисян


Исследователи предлагают инновационный метод предсказания взаимодействия лекарственных препаратов с биологическими мишенями, основанный на глубоких байесовских моделях и позволяющий оценивать надежность прогнозов.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"
Модель DTI-GP, объединяющая две нейронные сети для извлечения представлений молекул и последовательностей, в сочетании с гауссовским процессом классификации, позволяет вычислять вероятностные прогнозы, демонстрируя подход к моделированию, где представление данных и вероятностный анализ взаимосвязаны.
Модель DTI-GP, объединяющая две нейронные сети для извлечения представлений молекул и последовательностей, в сочетании с гауссовским процессом классификации, позволяет вычислять вероятностные прогнозы, демонстрируя подход к моделированию, где представление данных и вероятностный анализ взаимосвязаны.

В статье представлен DTI-GP — подход, использующий гауссовские процессы для повышения точности и оценки неопределенности при предсказании взаимодействий лекарств и мишеней.

Точное прогнозирование взаимодействий лекарственных препаратов и мишеней затруднено из-за неопределенности и необходимости оценки достоверности предсказаний. В данной работе представлена архитектура DTI-GP: Bayesian operations for drug-target interactions using deep kernel Gaussian processes, использующая байесовские гауссовские процессы и глубокое обучение для повышения точности и надежности предсказаний. Предложенный подход позволяет не только эффективно прогнозировать взаимодействия, но и количественно оценивать неопределенность, обеспечивая возможность отбора наиболее перспективных кандидатов. Может ли DTI-GP стать ключевым инструментом в ускорении процесса разработки новых лекарственных препаратов и повышении эффективности скрининга?


Пророчество Взаимодействий: Вызовы Точного Предсказания

Выявление взаимодействий лекарственных препаратов с мишенями (DTIs) является основополагающим этапом в разработке новых лекарств, однако традиционные методы часто сталкиваются с проблемами точности и масштабируемости. Неспособность эффективно анализировать огромные объемы биологических данных и учитывать сложные взаимосвязи между препаратами и белками-мишенями приводит к высокой доле ложноположительных и ложноотрицательных результатов. Это, в свою очередь, увеличивает стоимость и продолжительность разработки лекарств, поскольку требует проведения дополнительных, часто дорогостоящих, экспериментов для подтверждения предсказанных взаимодействий. Повышение точности и эффективности предсказания DTIs имеет решающее значение для ускорения процесса открытия новых лекарств и снижения затрат на исследования.

Существующие методы предсказания взаимодействий лекарство-мишень зачастую опираются на попарное сравнение, что ограничивает их способность учитывать сложную взаимосвязь биологических компонентов. В реальных биологических системах лекарственные препараты не взаимодействуют с отдельными белками изолированно; напротив, они участвуют в разветвленных сетях, где влияние одного белка может быть опосредовано другими. Попарные подходы не способны адекватно смоделировать эти сложные взаимосвязи, игнорируя кооперативные эффекты, каскадные сигнальные пути и регуляторные петли. Это приводит к снижению точности предсказаний и увеличению числа ложноположительных результатов, затрудняя идентификацию истинных мишеней и разработку эффективных лекарственных средств. Необходимость учета этих сложных взаимодействий требует разработки новых методов, способных моделировать биологические системы как интегрированные сети, а не просто как набор отдельных пар.

Для эффективного поиска новых лекарственных препаратов требуется надежная и вероятностная основа для прогнозирования взаимодействия лекарств и мишеней. Биологические системы по своей природе характеризуются значительной неопределенностью, обусловленной сложными взаимосвязями и индивидуальными особенностями организмов. Разработка такой основы позволяет не просто предсказывать вероятность взаимодействия, но и оценивать достоверность этих предсказаний, что критически важно для приоритизации наиболее перспективных кандидатов на дальнейшие исследования. Такой подход позволяет учитывать множество факторов, влияющих на взаимодействие, и избегать ложноположительных результатов, значительно ускоряя процесс разработки новых лекарственных средств и снижая связанные с ним риски и затраты. Использование вероятностных моделей позволяет количественно оценить степень уверенности в каждом предсказании, что предоставляет исследователям ценную информацию для принятия обоснованных решений.

Предложенные эвристики на основе оценок и собственных векторов превосходят DeepDTA, SparseChem и DTI-GP-MAP при малых размерах набора данных, хотя наблюдается некоторая неустойчивость результатов при очень малых размерах набора.
Предложенные эвристики на основе оценок и собственных векторов превосходят DeepDTA, SparseChem и DTI-GP-MAP при малых размерах набора данных, хотя наблюдается некоторая неустойчивость результатов при очень малых размерах набора.

Байесовский Взгляд на Взаимодействие: Моделирование Неопределенности

Представленная модель предсказания взаимодействия лекарств и мишеней (DTI) построена на байесовском подходе, что позволяет оценивать неопределенность прогнозов. В отличие от детерминированных моделей, байесовский подход рассматривает параметры модели как случайные величины, описываемые априорным распределением. После наблюдения данных, априорное распределение обновляется до апостериорного, которое и используется для предсказания. Ключевым преимуществом является возможность получения не только точечной оценки взаимодействия, но и вероятностного распределения, отражающего степень уверенности в прогнозе. Это выражается в виде доверительных интервалов или вероятностных карт, предоставляющих информацию о возможных ошибках и позволяющих проводить более обоснованные решения в процессе разработки лекарств. Оценка неопределенности особенно важна для идентификации потенциально опасных взаимодействий и оптимизации стратегий скрининга.

Модель использует Гауссовские процессы (ГП) для моделирования сложных взаимосвязей между лекарственными препаратами и мишенями, представляя собой гибкую и мощную структуру. ГП — это непараметрический метод, который определяет распределение вероятностей над функциями, позволяя моделировать нелинейные зависимости без предварительного задания фиксированной формы функции. В контексте предсказания взаимодействия лекарство-мишень (DTI), ГП позволяют оценить вероятность взаимодействия на основе наблюдаемых данных о структуре лекарств и мишеней, используя ядровую функцию для определения схожести между ними. Ключевым преимуществом является возможность количественной оценки неопределенности прогнозов, что важно для оценки надежности предсказаний и принятия обоснованных решений. f(x) \sim GP(m(x), k(x, x')), где m(x) — среднее значение, а k(x, x') — ковариационная функция, определяющая гладкость и поведение функции.

Комбинирование Гауссовских процессов (ГП) с глубоким обучением ядра позволяет эффективно моделировать нелинейные взаимодействия между лекарственными препаратами и мишенями, что приводит к повышению точности предсказаний взаимодействия лекарство-мишень (DTI). Глубокое обучение ядра используется для автоматического извлечения и оптимизации функций ядра, которые определяют сложность и выразительность ГП. В отличие от традиционных, фиксированных ядер, использование глубоких нейронных сетей для формирования ядра позволяет адаптироваться к сложным паттернам данных и учитывать высокоразмерные взаимодействия. В результате, модель демонстрирует улучшенную способность к обобщению и более точные предсказания DTI по сравнению с моделями, использующими стандартные ядра или другие методы машинного обучения. Улучшение точности особенно заметно при работе с комплексными биологическими системами, где нелинейные эффекты играют существенную роль.

В условиях глобальной оценки модель, основанная на гауссовских процессах, превосходит DeepDTA, особенно в области, важной для раннего обнаружения и отбора лучших <span class="katex-eq" data-katex-display="false">K</span> кандидатов.
В условиях глобальной оценки модель, основанная на гауссовских процессах, превосходит DeepDTA, особенно в области, важной для раннего обнаружения и отбора лучших K кандидатов.

Экспериментальное Подтверждение: Строгая Валидация Модели

Модель DTI-GP использует в качестве входных признаков отпечатки ECFP (Extended Connectivity Fingerprints) и векторные представления CPCProt (ChemProt Protein embeddings). Отпечатки ECFP кодируют структурную информацию о малых молекулах, представляя их в виде бинарных векторов, отражающих наличие или отсутствие определенных подструктур. CPCProt, в свою очередь, предоставляет компактное представление белков-мишеней, полученное с использованием методов глубокого обучения на текстовых описаниях белковых взаимодействий. Комбинация этих двух типов признаков позволяет модели DTI-GP эффективно учитывать как структурные характеристики лигандов, так и свойства белков-мишеней, что способствует более точному прогнозированию взаимодействия между ними.

Для обеспечения реалистичной оценки способности модели к обобщению на новые соединения, мы использовали разделение данных на обучающую и тестовую выборки, основанное на молекулярных каркасах (scaffold-based split). Этот подход предполагает кластеризацию молекул по схожести их каркасных структур, после чего молекулы из разных кластеров распределяются по обучающей и тестовой выборкам. Это гарантирует, что тестовая выборка содержит соединения, структурно отличные от тех, что использовались при обучении, что позволяет более адекватно оценить способность модели предсказывать активность для принципиально новых молекул, а не просто интерполировать данные, наблюдаемые в обучающей выборке.

Модель DTI-GP продемонстрировала высокие результаты на наборе данных KIBA, превзойдя базовые модели DeepDTA и SparseChem. Особенно заметно превосходство в задачах отбора топ-K кандидатов при малых размерах наборов (<500 соединений). В этих условиях, модель демонстрирует более высокую точность выявления активных молекул по сравнению с аналогами, что критически важно для эффективного скрининга и оптимизации лекарственных кандидатов. Результаты валидации подтверждают способность модели к обобщению и прогнозированию взаимодействия лекарственных средств с белками-мишенями с высокой достоверностью.

В области малых размеров набора данных методы Score, Eigen и BayesMean значительно превосходят DeepDTA, SparseChem и MAP-версию модели по показателям ложноположительных результатов.
В области малых размеров набора данных методы Score, Eigen и BayesMean значительно превосходят DeepDTA, SparseChem и MAP-версию модели по показателям ложноположительных результатов.

Приоритизация Кандидатов: Вероятностные Оценки и Байесовский Подход

Модель DTI-GP предоставляет не только точечные прогнозы взаимодействия между лекарством и мишенью, но и вероятностные оценки вероятности такого взаимодействия, что имеет решающее значение для обоснованного принятия решений. В отличие от простых предсказаний «взаимодействие есть/нет», вероятностная оценка позволяет исследователям оценить степень уверенности в каждом предсказании. Это особенно важно при работе с большими наборами данных, где не все предсказания одинаково надежны. Предоставляя информацию о вероятности, модель позволяет ранжировать потенциальные взаимодействия, выделяя наиболее перспективные кандидаты для дальнейшего изучения и сокращая количество дорогостоящих и трудоемких экспериментов. Такой подход значительно повышает эффективность процесса разработки лекарств, позволяя сосредоточиться на наиболее вероятных успехах и оптимизировать ресурсы.

Для эффективного отбора наиболее перспективных пар «лекарство-мишень» применяется метод, основанный на построении байесовской матрицы приоритетов. Этот подход позволяет ранжировать потенциальные взаимодействия, используя вероятностные оценки, полученные моделью DTI-GP. Вместо простого выбора пары с наивысшей вероятностью, матрица приоритетов учитывает неопределенность прогнозов, предоставляя более надежную основу для принятия решений. Выбирая топ-K взаимодействий на основе этой матрицы, исследователи могут целенаправленно фокусироваться на наиболее вероятных кандидатах, значительно сокращая затраты на экспериментальную проверку и ускоряя процесс открытия новых лекарственных средств. Такой метод особенно эффективен при работе с ограниченными наборами кандидатов, обеспечивая значительное улучшение показателей обогащения.

Данный подход позволяет исследователям концентрироваться на наиболее перспективных взаимодействиях между лекарственными препаратами и мишенями, что существенно снижает затраты на экспериментальную проверку и ускоряет процесс разработки новых лекарств. Особенно заметно повышение эффективности отбора при работе с небольшими наборами кандидатов, когда точное выявление наиболее вероятных взаимодействий имеет решающее значение. Вместо того чтобы тратить ресурсы на проверку множества маловероятных комбинаций, исследователи могут целенаправленно изучать те пары, которые с наибольшей вероятностью приведут к желаемому терапевтическому эффекту, оптимизируя тем самым временные и финансовые затраты.

Гистограммы вероятностей предсказанных классов, полученные с использованием лучших K наборов (<span class="katex-eq" data-katex-display="false">K=150</span>) на основе методов Score и MAP, демонстрируют распределение уверенности модели в различных классах.
Гистограммы вероятностей предсказанных классов, полученные с использованием лучших K наборов (K=150) на основе методов Score и MAP, демонстрируют распределение уверенности модели в различных классах.

Перспективы Развития: Калибровка, Многозадачность и Расширение Применений

Для повышения достоверности оценок неопределенности в модели DTI-GP предлагается использование метода Монте-Карло Дропаута. Данный подход, заключающийся в случайном отключении нейронов во время обучения и предсказания, позволяет получить распределение вероятностей для каждого предсказания, а не только одно точечное значение. Это, в свою очередь, значительно улучшает калибровку модели — то есть, соответствие между предсказанной уверенностью и фактической точностью. В результате, исследователи получают более надежные оценки, что критически важно для принятия обоснованных решений, особенно в контексте разработки лекарств, где некорректные предсказания могут иметь серьезные последствия. Повышенная калибровка позволяет более адекватно оценивать риски и возможности, связанные с потенциальными лекарственными препаратами.

Исследования показывают, что расширение данной структуры посредством многозадачного обучения способно значительно повысить её эффективность. Идея заключается в одновременном обучении модели решению нескольких связанных биологических задач, что позволяет ей извлекать больше полезной информации из имеющихся данных. Вместо того чтобы обучать отдельную модель для каждой задачи, многозадачное обучение позволяет модели обмениваться знаниями и обобщать полученный опыт, что приводит к улучшению производительности и точности прогнозов. Например, модель, обученная одновременно предсказывать активность генов и структуру белков, может использовать информацию, полученную из одной задачи, для улучшения результатов в другой, тем самым раскрывая более глубокие связи между различными биологическими процессами и повышая надежность предсказаний.

Предложенный подход, изначально разработанный для оптимизации процесса открытия новых лекарственных препаратов, демонстрирует значительный потенциал в более широком спектре биомедицинских задач. В частности, он открывает возможности для выявления потенциальных вариантов перепрофилирования существующих лекарств — то есть, нахождения новых терапевтических применений для уже одобренных препаратов, что существенно сокращает сроки и затраты на разработку. Помимо этого, данная методология позволяет глубже понять сложные механизмы развития заболеваний, выявляя ключевые биологические процессы и молекулярные мишени, вовлеченные в патогенез. Использование точных оценок неопределенности, предоставляемых моделью, способствует более обоснованным и эффективным исследованиям в области фундаментальной биологии и трансляционной медицины.

Анализ надежности предложенной модели показывает, что как байесовская, так и MAP оценки склонны к излишней уверенности в области высоких вероятностей.
Анализ надежности предложенной модели показывает, что как байесовская, так и MAP оценки склонны к излишней уверенности в области высоких вероятностей.

Исследование, представленное в статье, демонстрирует, что предсказание взаимодействия лекарств и мишеней — процесс не линейный, а скорее эволюционирующий, подобно сложной экосистеме. Авторы стремятся не просто определить, взаимодействуют ли препарат и мишень, но и оценить вероятность этого взаимодействия, учитывая присущую процессу неопределённость. Грейс Хоппер метко подметила: «Лучший способ предсказать будущее — создать его». В данном контексте, создание надежной модели предсказания DTI-GP — это попытка активно формировать будущее раннего этапа разработки лекарств, а не пассивно наблюдать за его течением. Учет неопределенности, как ключевой аспект предложенного подхода, позволяет избежать ложной уверенности в результатах и подготовиться к неожиданным сценариям, что соответствует философии системного мышления, где стабильность — лишь временная иллюзия.

Что дальше?

Представленный подход, стремясь к вероятностному предсказанию взаимодействий лекарств и мишеней, лишь подчеркивает фундаментальную проблему: масштабируемость — это всего лишь слово, которым мы оправдываем сложность. Любая архитектура, оптимизированная для текущих объемов данных и вычислительных возможностей, неизбежно потеряет гибкость перед лицом новых, непредсказуемых структур и объемов информации. Гауссовские процессы, несмотря на свою элегантность, не являются панацеей, а лишь одним из инструментов в постоянно расширяющемся арсенале.

Настоящий прогресс лежит не в создании идеальных алгоритмов, — этот миф нужен лишь для того, чтобы мы не сошли с ума, — а в принятии неполноты и неопределенности как неотъемлемой части процесса открытия лекарств. Необходимо сместить фокус с точечных предсказаний на построение экосистем моделей, способных адаптироваться и эволюционировать вместе с данными. Подход, основанный на разделении по каркасам, — это шаг в правильном направлении, но требует дальнейшего развития в сторону более гибких и самообучающихся систем.

В конечном итоге, задача заключается не в предсказании всех возможных взаимодействий, а в создании системы, способной эффективно обрабатывать и интерпретировать шум, выделяя сигналы, которые могут привести к новым открытиям. Всё оптимизированное однажды потеряет гибкость, и понимание этого — ключ к устойчивому прогрессу в области разработки лекарств.


Оригинал статьи: https://arxiv.org/pdf/2512.24810.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-03 03:49