Andrej Karpathy on X: "LLM Knowledge Bases

📖 Источник: x.com

LLM-базы знаний: личный подход Андрея Карпатого

Андрей Карпатый делится методологией использования больших языковых моделей для создания персональных баз знаний. По его словам, значительная часть потребления токенов сместилась от работы с кодом к манипуляции со знаниями — статьями, документами, изображениями.

Архитектура системы

Система строится на трёх компонентах:

Raw-директория — хранилище исходных материалов: статьи, научные публикации, репозитории, датасеты, изображения
Скомпилированная wiki — набор .md файлов в структурированной директории
Интерфейс — Obsidian как IDE-фронтенд для просмотра данных, wiki и визуализаций

Перевод веб-статей в .md осуществляется через расширение Obsidian Web Clipper. Параллельно Карпатый использует горячую клавишу для скачивания связанных изображений локально — чтобы LLM имела к ним доступ.

Компиляция и структурирование

LLM автоматически «компилирует» wiki из raw-данных:

Генерирует саммари всех документов
Создаёт обратные ссылки (backlinks) между файлами
Категоризирует данные по концептам
Пишет связные статьи и соединяет их ссылками

Ключевой принцип: автор практически не редактирует wiki вручную. Весь контент создаётся и поддерживается LLM.

Q&A и масштабирование

При достижении определённого объёма (например, ~100 статей и ~400K слов) возможности резко возрастают:

Можно задавать сложные вопросы агенту
LLM самостоятельно «исследует» ответы, читая релевантные документы
Карпатый ожидал необходимости сложного RAG, но выяснил, что LLM хорошо справляется с автосозданием индексных файлов и саммари

Форматы вывода

Результаты не ограничиваются текстом в терминале. LLM генерирует:

Markdown-файлы для wiki
Презентации в формате Marp
matplotlib-изображения
Потенциально любые визуальные форматы

Выводы часто «подшиваются» обратно в wiki, усиливая базу для будущих запросов. Так каждый запрос накапливается в системе.

Линтинг и очистка

Карпатый запускает LLM-проверки «здоровья» wiki:

Поиск противоречивых данных
Заполнение пробелов (с поиском в вебе)
Выявление связей для новых статей
Повышение целостности данных

Модель также предлагает новые вопросы для исследования.

Перспективы и риски

Направления развития:

Дополнительные CLI-инструменты (например, простая поисковая система поверх wiki)
Синтетическая генерация данных + fine-tuning — перенос знаний из wiki в веса модели вместо контекстного окна

Риски и ограничения:

Текущая реализация — «хаки» из скриптов, а не готовый продукт
Эффективность при масштабировании за пределы ~400K слов не проверена
Зависимость от конкретных инструментов (Obsidian, Marp)

Карпатый отмечает потребность в полноценном продукте вместо коллекции скриптов — потенциально огромная ниша для новых инструментов.

📢 Информация предоставлена телеграм-каналом: Data&AI Insights

🤖 Data&AI Insights - Ваш источник инсайтов о данных и ИИ