ZYPHRA AI

Семейство моделей называется Zamba, они доступны из России, умеют общаться на русском языке, в том числе с голосовым вводом. Их можно бесплатно попробовать здесь, нужно только создать аккаунт. В октябре 2024 года вышла модель Zamba2-7B, которая при небольших размерах показывает высокую точность.

Zamba – это гибридная модель, которая совмещает в себе Трансформер и архитектуру Mamba. С трансформерами мы уже хорошо знакомы, давайте обсудим, кто такая Mamba.

Эта архитектура была предложена в статье «Mamba: Linear-Time Sequence Modeling with Selective State Spaces», которая вышла в 2023 году. Авторы указывают на то, что главный недостаток трансформеров – их низкая вычислительная эффективность (они массивные, их долго обучать, они требуют серьезных мощностей для использования). При этом все прочие архитектуры, которые пытались решить проблему эффективности, не так точны. Ключевая особенность трансформеров – внимание, оно дает массу преимуществ.

У меня был пост на vc о моделях пространства состояний, я советую его прочитать, чтобы лучше понимать дальнейшие разъяснения.

Mamba – это селективная модель пространства состояний, то есть, модель пространства состояний с некоторыми доработками. Селективный механизм в некотором роде выполняет функцию механизма внимания у трансформеров: он определяет, какие данные из полученных на вход имеют наибольшее значение. Это необходимо для наилучшего понимания текста (и это причина, по которой трансформеры пока никто не заменил: без механизма внимания или подобного ему работа с текстом не приносит достаточно хороших результатов).

Кроме того, Mamba оптимизирована для эффективного использования вычислительных мощностей компьютера. Часть вычислений может проводиться параллельно, и за счет всех усовершенствований Mamba обрабатывает информацию в пять раз быстрее, чем соразмерный ей трансформер.

В статье «Zamba: A Compact 7B SSM Hybrid Model» описана уже, собственно, Zamba. В ее основе лежит Mamba, только к ней добавили блок внимания из Трансформера. Подробнее про Трансформеры и про то, как работает внимание, я писала здесь, тоже будет полезно прочитать для лучшего понимания.

Данный подход вдохновлен структурой мозга, точнее, связью между гиппокампом и корой головного мозга. Гиппокамп (в числе прочего) отвечает за хранение воспоминаний, и все слои и регионы коры, отвечающие за свои определенные функции*, обращаются к гиппокампу как единому хранилищу памяти. Так и здесь: в структуре модели несколько блоков внимания, но все они содержат одинаковые параметры, так что все Mamba-слои, по сути, обращаются к одному блоку (Shared на схеме). Этот блок включает в себя механизм внимания и многослойный перцептрон (MLP).

Mamba-блоки связаны между собой остаточными (residual) связями, про которые я в этом посте писала подробнее. Если коротко, происходит вот что: на вход подается информация (в частности, текст), она проходит через шесть Mamba-слоев (число слоев может быть любым, но здесь из шесть), затем через матрицы внимания и многослойный перцептрон, затем передается в линейный слой, затем снова в Mamba-слои. И одновременно во вторую группу Mamba-слоев передается в неизменном виде информация, которая вышла из первой группы. Если посмотреть на схему внимательно, там четыре таких перехода, когда к обработанной информации присоединяется необработанная. Это делается для того, чтобы в процессе обработки наши данные не обратились в нули – тогда обучение окажется бессмысленным. Маленький блок «cat» указывает на то, что матрицы с информацией просто объединяются в одну, а не складываются.

Модель обучали на открытых наборах данных, и она показала неплохие результаты по сравнению с сопоставимыми по размеру трансформерами.

Это очень интересная работа, которая, вероятно получит дальнейшее развитие. Трансформеры лидируют сегодня во многих областях, однако нехватка чипов, значительный углеродный след от обучения ИИ и необходимость помещать передовые технологи на пользовательские устройства небольшой мощности будут толкать разработчиков к тому, чтобы искать более легкие и эффективные архитектуры.

*В строгом научном смысле эта формулировка не совсем корректна: функции распределены по всему мозгу, а не сосредоточены в его отдельных участках. Однако в отдельных участках сконцентрировано больше нейронов, которые отвечают за определенные функции, чем где-либо еще, поэтому принято говорить «речевой центр», «область, отвечающая за зрение» и пр.

ZYPHRA AI

Report Page