Жизнь с LLM в 2025

Эта и другие статьи про различные технологии ИИ выходят в рамках телеграм канала @neural_info.

Введение

С конца 2022 года мы наблюдаем настоящую революцию в сфере искусственного интеллекта. Запуск ChatGPT от OpenAI стал поворотным моментом, который дал старт стремительному развитию технологий на основе больших языковых моделей (LLM).

За это время технологический ландшафт кардинально изменился. Ведущие технологические компании включились в гонку разработки собственных языковых моделей, а рынок пополнился как проприетарными решениями, так и моделями с открытым исходным кодом.

Развитие LLM также привело к появлению инновационных технологических подходов, например:

Retrieval-Augmented Generation (RAG) позволила объединить возможности языковых моделей с доступом к внешним базам знаний;
Vision Language Models (VLM) научились понимать и обрабатывать визуальную информацию наряду с текстом;
Агентные системы открыли новые возможности для автоматизации сложных задач.

Эта технологическая эволюция продолжает набирать обороты, создавая все новые возможности для применения искусственного интеллекта в различных сферах.

Стремительное снижение стоимости использования больших языковых моделей открывает новые возможности для пользователей. Если раньше работа с LLM требовала существенных финансовых вложений, то сейчас эти технологии становятся доступными практически каждому.

Падение цен сделало возможным широкое применение LLM в повседневных задачах - от написания текстов и анализа данных до помощи в учебе и работе. Эта тенденция способствует тому, что искусственный интеллект становится не просто технологическим новшеством, а реальным помощником в жизни обычных людей.

В этой статье я поделюсь личным опытом использования языковых моделей и чат-ботов в своей повседневной жизни. Хочу подчеркнуть, что это мой субъективный взгляд и практические наблюдения, а не полное руководство по LLM.

Чат-боты

В своей ежедневной работе я активно использую два чат-бота без платной подписки: ChatGPT и Claude. Основная задача, для которой я их применяю - это написание кода легкой и средней сложности, а также написание повторяющихся между проектами частей.

Кроме помощи в программировании, я иногда обращаюсь к чат-ботам за разъяснениями различных аспектов ИИ - будь то общие подходы или детали конкретных архитектур. Однако для глубокого понимания технических нюансов я все же предпочитаю обращаться к статьям, где информация изложена более точно и структурировано.

Оба ассистента предлагают нативные приложения для MacOS, что для меня является существенным преимуществом. Приложение ChatGPT появилось первым и предлагает более богатый функционал. К тому же, его интерфейс кажется мне визуально привлекательнее. Однако для написания кода я отдаю предпочтение Claude - субъективно он генерирует более качественный код, а его интерфейс с разделением на пояснительную часть слева и окно с кодом справа очень удобен для работы.

Если говорить о сильных сторонах Claude, то он:

Генерирует более качественный код;
Лучше понимает контекст (в т.ч. из загружаемых документов);
Предлагает удобный интерфейс с отдельным окном для вывода.

При этом есть и определенные ограничения:

Функционал приложения уступает ChatGPT, в котором есть память контекста, настройка системных промптов, голосовой ввод, интеграция поисковой функциональности и интеграция с устройствами Apple (включая прямое взаимодействие через Siri);
Судя по моему опыту, ежедневный лимит использования достигается сильно быстрее, чем у ChatGPT.

Если вы находитесь в поиске одного качественного чат-бота и не нуждаетесь в дополнительных функциях приложения, я бы рекомендовал остановить свой выбор на Claude. Для тех, кто планирует регулярно использовать ассистента в своей работе, имеет смысл рассмотреть платную подписку - она избавит вас от ограничений бесплатной версии и позволит работать без постоянного упирания в лимиты.

Если вам более интересны open-source решения, недавно была выпущена новая модель Deepseek V3 с архитектурой MOE и 671B параметров. Попробовать ее можно через их чат-бот. Также команда Qwen совсем недавно открыла доступ к своему чат-боту, где доступны как различные open-source модели, так и закрытая модель Qwen2.5-Plus.

Кодовые ассистенты

В этой секции обсудим специализированные инструменты для написания кода, которые я пробовал или о которых слышал.

Cursor: IDE, специально разработанная для написания кода с помощью LLM через API / по подписке. Визуально напоминает VSCode, поэтому, если вы привыкли к нему, Cursor, скорее всего, вам понравится. Однако для полноценной работы потребуется платная подписка;
Gigacode: бесплатный кодовый ассистент от Сбера, который работает как расширение для IDE. Обладает достаточно высокой скоростью работы и предоставляет отдельный чат внутри среды разработки. Однако, по личным ощущениям, не всегда хорошо понимает контекст и справляется с генерацией больших фрагментов кода, но для написания небольших функций вполне подходит;
Aider Chat: кодовый ассистент, работающий в терминале, который требует подключения API различных LLM. Сам протестировать его не смог из-за ошибки, связанной с использованием proxy, но от коллег слышал много положительных отзывов. Особенно отмечают его эффективность в связке с API Deepseek Coder, данное решение получается одновременно достаточно недорогим и качественным;
GitHub Copilot: расширение для IDE, недавно обновился, появилась бесплатная версия. Имеет нативную интеграцию с VSCode, что делает его отличным выбором для тех, кто любит использовать эту IDE. К сожалению, мне лично попробовать его не удалось из-за необходимости сменить billing address, который у меня был зарегистрирован в России, а эта функция для России заблокирована :) Возможно, проблему можно решить через техподдержку, но я решил не углубляться.

Мне не очень нравятся кодовые ассистенты, встроенные в IDE. Из-за постоянных предложений дополнить код интерфейс становится перегруженным, особенно когда я пишу функции вручную, чат в отдельном окне тоже мне не зашел. Поэтому я предпочитаю использовать ChatGPT или Claude. Вероятно, для меня лучше подошел бы Aider Chat, но пока что не спешу разбираться с его ошибками, возможно, займусь этим в будущем.

VLM

Отдельно хочу выделить VLM - модели, которые активно развиваются и позволяют объединять различные модальности (например, текст и изображения), чтобы использовать их в LLM для генерации текста на основе мультимодальных входных данных.

Лично я использую VLM в основном для разметки данных. Часто возникает ситуация, когда для решения задачи требуется определенный тип данных, которых у вас нет. В таких случаях использование VLM становится оправданным решением. Это обычно дешевле и быстрее, чем передавать данные на ручную разметку. Однако стоит учитывать, что результат может быть менее качественным, а распределение данных - смещенным в сторону конкретной VLM, используемой для разметки.

Для инференса VLM я использую библиотеку vllm. Она имеет простую конфигурацию и поддерживает запуск на нескольких видеокартах, что удобно для масштабирования. Главный минус - не все модели поддерживаются vllm. Существуют и другие библиотеки для инференса, такие как ollama и llama.cpp, но я их не пробовал.

Для наиболее консистентной генерации можно использовать библиотеку outlines. Она позволяет задать схему ответов для модели, что помогает контролировать структуру и содержание ответов VLM.

RuFashion-2M - полностью синтетический датасет, собранный мной с помощью gpt4o-mini по изображениям различных fashion датасетов.

Выводы

Большие языковые модели стали важной составляющей повседневной жизни, их можно использовать для написания кода, изучения различных тем, разметки данных и т.д. В будущем мы, вероятно, будем находить для них все больше применений в различных сферах. Поэтому если вы еще не начали использовать эти технологии, я настоятельно рекомендую познакомиться с ними поближе.

Жизнь с LLM в 2025

Введение

Чат-боты

Кодовые ассистенты

VLM

Выводы

Report Page