ПОСЛЕЗАВТРА
В США предложили новый способ работы языковых моделей

По мере роста возможностей больших языковых моделей (LLM), таких как ChatGPT, растут и их аппетиты к вычислительным ресурсам. При этом на вычислительную нагрузку оказывает большое влияние необходимость проведения многократных операций по умножению матриц (MatMul), при которых данные комбинируются с весами в нейронной сети для получения наиболее подходящего ответа на запрос пользователя. Сегодня производительности даже огромных кластеров GPU уже не хватает для все растущих аппаратных требований языковых моделей.
Возможное решение предложили программисты Калифорнийского университета, заставив языковую модель работать без операций по умножению матриц. Для этого пришлось применить новый подход к взвешиванию данных, заменив 16-битные значения с плавающей запятой на метод, использующий всего три значения (-1, 0, 1). Попутно был разработан и новый метод квантования (сжатия языковой модели), что также помогло повысить скорость работы нейронной сети. Как результат облегченная модель с меньшим количеством весов требует меньшие вычислительные мощности и энергопотребление, чем зачастую грешат традиционные системы ИИ. Предварительные тесты производительности новой системы показали, что она ничем не уступает самым современным языковым моделям, используемым сегодня. Результаты своей работы исследователи опубликовали на портале arXiv.