А как кодировать малые молекулы?
БиомолекулаГлавное отличие малых молекул от белков, РНК и ДНК — отсутствие регулярной структуры (ибо это, в отличие от упомянутой троицы, не биополимеры). Они не состоят из повторяющихся блоков, соединенных в длинную последовательность: структура малых молекул более разнообразна, хотя размер и поскромнее. Поэтому язык малых молекул не похож на белковый — но он существует, и к нему тоже можно применять подходы обработки естественного языка (NLP). Самый простой и известный способ представить малые молекулы в виде текста — SMILES.
Язык SMILES позволяет компактно закодировать молекулы, и с его помощью тоже можно обучать нейросетевые модели. Так, например, например, компания AstraZeneca выпустила несколько моделей для дизайна малых молекул по их свойствам. Изначально SMILES создавался с прицелом на чтение человеком, а не компьютером, и довольно быстро оказалось, что моделям машинного обучения его грамматику выучить сложно. Поэтому ученые и сейчас разрабатывают новые языки записи малых молекул, удобные и для человека, и для машины.
В статье, посвященной языковым моделям в биологии, мы попросили дать небольшой комментарий по применению больших языковых моделей в хемоинформатике Елену Тутубалину, специализирующуюся на применении ИИ к автоматическому анализу биомедицинских данных — прочесть его вы можете по ссылке.