Andrej Karpathy on X: "LLM Knowledge Bases
Data&AI Insights📖 Источник: x.com
LLM-базы знаний: личный подход Андрея Карпатого
Андрей Карпатый делится методологией использования больших языковых моделей для создания персональных баз знаний. По его словам, значительная часть потребления токенов сместилась от работы с кодом к манипуляции со знаниями — статьями, документами, изображениями.
Архитектура системы
Система строится на трёх компонентах:
- Raw-директория — хранилище исходных материалов: статьи, научные публикации, репозитории, датасеты, изображения
- Скомпилированная wiki — набор .md файлов в структурированной директории
- Интерфейс — Obsidian как IDE-фронтенд для просмотра данных, wiki и визуализаций
Перевод веб-статей в .md осуществляется через расширение Obsidian Web Clipper. Параллельно Карпатый использует горячую клавишу для скачивания связанных изображений локально — чтобы LLM имела к ним доступ.
Компиляция и структурирование
LLM автоматически «компилирует» wiki из raw-данных:
- Генерирует саммари всех документов
- Создаёт обратные ссылки (backlinks) между файлами
- Категоризирует данные по концептам
- Пишет связные статьи и соединяет их ссылками
Ключевой принцип: автор практически не редактирует wiki вручную. Весь контент создаётся и поддерживается LLM.
Q&A и масштабирование
При достижении определённого объёма (например, ~100 статей и ~400K слов) возможности резко возрастают:
- Можно задавать сложные вопросы агенту
- LLM самостоятельно «исследует» ответы, читая релевантные документы
- Карпатый ожидал необходимости сложного RAG, но выяснил, что LLM хорошо справляется с автосозданием индексных файлов и саммари
Форматы вывода
Результаты не ограничиваются текстом в терминале. LLM генерирует:
- Markdown-файлы для wiki
- Презентации в формате Marp
- matplotlib-изображения
- Потенциально любые визуальные форматы
Выводы часто «подшиваются» обратно в wiki, усиливая базу для будущих запросов. Так каждый запрос накапливается в системе.
Линтинг и очистка
Карпатый запускает LLM-проверки «здоровья» wiki:
- Поиск противоречивых данных
- Заполнение пробелов (с поиском в вебе)
- Выявление связей для новых статей
- Повышение целостности данных
Модель также предлагает новые вопросы для исследования.
Перспективы и риски
Направления развития:
- Дополнительные CLI-инструменты (например, простая поисковая система поверх wiki)
- Синтетическая генерация данных + fine-tuning — перенос знаний из wiki в веса модели вместо контекстного окна
Риски и ограничения:
- Текущая реализация — «хаки» из скриптов, а не готовый продукт
- Эффективность при масштабировании за пределы ~400K слов не проверена
- Зависимость от конкретных инструментов (Obsidian, Marp)
Карпатый отмечает потребность в полноценном продукте вместо коллекции скриптов — потенциально огромная ниша для новых инструментов.
📢 Информация предоставлена телеграм-каналом: Data&AI Insights
🤖 Data&AI Insights - Ваш источник инсайтов о данных и ИИ