Andrej Karpathy on X: "LLM Knowledge Bases

Andrej Karpathy on X: "LLM Knowledge Bases

Data&AI Insights

📖 Источник: x.com

LLM-базы знаний: личный подход Андрея Карпатого

Андрей Карпатый делится методологией использования больших языковых моделей для создания персональных баз знаний. По его словам, значительная часть потребления токенов сместилась от работы с кодом к манипуляции со знаниями — статьями, документами, изображениями.


Архитектура системы

Система строится на трёх компонентах:

  1. Raw-директория — хранилище исходных материалов: статьи, научные публикации, репозитории, датасеты, изображения
  2. Скомпилированная wiki — набор .md файлов в структурированной директории
  3. Интерфейс — Obsidian как IDE-фронтенд для просмотра данных, wiki и визуализаций

Перевод веб-статей в .md осуществляется через расширение Obsidian Web Clipper. Параллельно Карпатый использует горячую клавишу для скачивания связанных изображений локально — чтобы LLM имела к ним доступ.


Компиляция и структурирование

LLM автоматически «компилирует» wiki из raw-данных:

  • Генерирует саммари всех документов
  • Создаёт обратные ссылки (backlinks) между файлами
  • Категоризирует данные по концептам
  • Пишет связные статьи и соединяет их ссылками

Ключевой принцип: автор практически не редактирует wiki вручную. Весь контент создаётся и поддерживается LLM.


Q&A и масштабирование

При достижении определённого объёма (например, ~100 статей и ~400K слов) возможности резко возрастают:

  • Можно задавать сложные вопросы агенту
  • LLM самостоятельно «исследует» ответы, читая релевантные документы
  • Карпатый ожидал необходимости сложного RAG, но выяснил, что LLM хорошо справляется с автосозданием индексных файлов и саммари

Форматы вывода

Результаты не ограничиваются текстом в терминале. LLM генерирует:

  • Markdown-файлы для wiki
  • Презентации в формате Marp
  • matplotlib-изображения
  • Потенциально любые визуальные форматы

Выводы часто «подшиваются» обратно в wiki, усиливая базу для будущих запросов. Так каждый запрос накапливается в системе.


Линтинг и очистка

Карпатый запускает LLM-проверки «здоровья» wiki:

  • Поиск противоречивых данных
  • Заполнение пробелов (с поиском в вебе)
  • Выявление связей для новых статей
  • Повышение целостности данных

Модель также предлагает новые вопросы для исследования.


Перспективы и риски

Направления развития:

  • Дополнительные CLI-инструменты (например, простая поисковая система поверх wiki)
  • Синтетическая генерация данных + fine-tuning — перенос знаний из wiki в веса модели вместо контекстного окна

Риски и ограничения:

  • Текущая реализация — «хаки» из скриптов, а не готовый продукт
  • Эффективность при масштабировании за пределы ~400K слов не проверена
  • Зависимость от конкретных инструментов (Obsidian, Marp)

Карпатый отмечает потребность в полноценном продукте вместо коллекции скриптов — потенциально огромная ниша для новых инструментов.


📢 Информация предоставлена телеграм-каналом: Data&AI Insights

🤖 Data&AI Insights - Ваш источник инсайтов о данных и ИИ

Report Page