А как кодировать малые молекулы?

Биомолекула

Главное отличие малых молекул от белков, РНК и ДНК — отсутствие регулярной структуры (ибо это, в отличие от упомянутой троицы, не биополимеры). Они не состоят из повторяющихся блоков, соединенных в длинную последовательность: структура малых молекул более разнообразна, хотя размер и поскромнее. Поэтому язык малых молекул не похож на белковый — но он существует, и к нему тоже можно применять подходы обработки естественного языка (NLP). Самый простой и известный способ представить малые молекулы в виде текста — SMILES.

Язык SMILES на примере муравьиной кислоты. Каждому типу атомов сопоставляют букву (углерод — C, кислород — O, водород — H), каждому типу связи — небуквенный символ (одинарная ковалентная связь: «—», двойная: «=», тройная: «#»); есть и другие правила. В результате молекуле будет соответствовать текст [H]-O-C(-[H])(=O). На рисунке изображен последовательный процесс образования этого текста.

Язык SMILES позволяет компактно закодировать молекулы, и с его помощью тоже можно обучать нейросетевые модели. Так, например, например, компания AstraZeneca выпустила несколько моделей для дизайна малых молекул по их свойствам. Изначально SMILES создавался с прицелом на чтение человеком, а не компьютером, и довольно быстро оказалось, что моделям машинного обучения его грамматику выучить сложно. Поэтому ученые и сейчас разрабатывают новые языки записи малых молекул, удобные и для человека, и для машины.

В статье, посвященной языковым моделям в биологии, мы попросили дать небольшой комментарий по применению больших языковых моделей в хемоинформатике Елену Тутубалину, специализирующуюся на применении ИИ к автоматическому анализу биомедицинских данных — прочесть его вы можете по ссылке.

А как кодировать малые молекулы?

Report Page