Статья для моей жены

Николай Гусев

Жена прочитала две предыдущие статьи про AI-агентов и сказала: «очень интересно, хорошо написано, но ничего непонятно». Справедливо.

Эта статья — для неё. Без допущения «читатель в IT». С человеческими примерами. Но без скатывания в «нейросеть — это как мозг, только компьютерный».

С чего всё началось: цепи Маркова

Представьте игру: я говорю слово, вы — следующее, я — следующее. «Кошка → спит → на → диване → и → видит → сны». Получилась цепочка. Каждое следующее слово зависит только от предыдущего.

В 1906 году русский математик Андрей Марков формализовал эту идею. Его цепи Маркова — математический способ сказать: «зная текущее состояние, можно предсказать следующее с какой-то вероятностью».

В середине 2000-х на цепях Маркова уже работал предиктивный ввод в телефонах. Вы набираете «при», телефон предлагает «вет», «мер», «ят». Он не знает, что вы хотите сказать. Он просто посчитал: после «при» в миллионах сообщений чаще всего идёт «вет». Это не мышление. Это статистика.

Современные LLM делают то же самое, но не со словами, а с токенами (кусочками слов), и не с одной предыдущей единицей, а с огромным контекстом — десятками тысяч токенов сразу.

Аналогия с человеческой памятью

Когда вы слышите фразу «я открыл холодильник и...», ваш мозг уже предсказывает продолжение. «Достал молоко», «увидел пустую полку», «понял, что забыл купить яйца». Вы не ждёте конца предложения — вы его уже додумали.

LLM работает похоже. Получает фрагмент текста и предсказывает, какой токен должен идти следующим. Только вместо жизненного опыта у неё — статистика по триллионам предложений из интернета, книг и диалогов.

Разница принципиальная: вы предсказываете на основе понимания ситуации. Модель — на основе статистической закономерности. Результат может выглядеть одинаково. Механизмы — разные.

Как из статистики родились нейросети

Однослойная цепь Маркова может запомнить только «после А идёт Б». Чтобы улавливать сложные зависимости, нужны слои. Много слоёв.

Нейросеть — это много слоёв, где каждый слой преобразует входные данные, выделяя всё более абстрактные признаки:

▪ Первый слой: буквы и сочетания букв

▪ Второй: слоги и короткие слова

▪ Третий: грамматические конструкции

▪ Четвёртый: смысловые паттерны («в вопросах про причины обычно идёт ответ»)

Чем глубже сеть — тем более абстрактные зависимости она может уловить. Отсюда название: Deep Learning — глубокое обучение.

Внимание — ключевое изобретение

В 2017 году вышла работа «Attention Is All You Need» — одна из самых влиятельных статей в истории computer science. Авторы из Google предложили механизм attention — «внимание».

Идея: когда модель обрабатывает слово в предложении, она смотрит не только на соседние слова, а на все слова сразу, и решает, какие из них важны для понимания этого конкретного слова.

В фразе «она открыла банку и положила ложку» — слово «банку» важно для понимания «ложку» (речь про еду, а не про строительство). Модель это улавливает через attention. Механизм «внимания» взвешивает важность каждого слова относительно каждого.

Архитектура, построенная вокруг attention, называется трансформер. Все современные LLM — GPT, Claude, Gemini, DeepSeek — это трансформеры. Просто огромные: от миллиардов до триллионов параметров.

Почему «триллион параметров» — это не «триллион нейронов»

Тут частая путаница. Параметр нейросети — это число, которое настраивается в процессе обучения. Коэффициент, который решает: «насколько сильно этот сигнал влияет на следующий слой».

В человеческом мозге примерно 86 миллиардов нейронов, и каждый соединён с тысячами других. Это несоизмеримые величины. Сравнивать параметры LLM с нейронами — как сравнивать количество букв в книге с количеством мыслей читателя.

LLM не «думает как человек», даже если у неё триллион параметров. Она просто очень хорошо предсказывает следующий токен на огромной статистике.

Откуда берётся иллюзия понимания

Если LLM просто предсказывает следующее слово — почему её ответы выглядят осмысленными?

Потому что она училась на текстах, написанных людьми, которые понимали, о чём пишут. Когда модель предсказывает «яблоко» после «фрукт, который упало на голову Ньютону» — она не знает про Ньютона и гравитацию. Она знает, что в 10 тысячах книг после упоминания «упало на голову Ньютону» идёт слово «яблоко».

Модель воспроизводит паттерны человеческого знания, не обладая этим знанием. Как попугай, который выучил «Кушать подано» к месту — но не потому что он понял, что обед готов, а потому что запомнил контекст.

Отсюда же и уверенность в неверных ответах: если паттерн «после вопроса про X надо сказать Y» сильный — модель скажет Y, даже если Y неверно. У неё нет механизма сказать: «погоди, я не уверена, дай проверю».

А как же Chain-of-Thought?

CoT — это когда мы просим модель не просто дать ответ, а расписать шаги. Для человека это выглядит как «модель рассуждает вслух».

Но исследования 2023 года (Turpin, Sharma, Lanham) показали: модель может сначала предсказать ответ, а потом сгенерировать цепочку рассуждений, которая этот ответ объясняет. CoT — не трассировка мыслительного процесса, а нарратив, пост-хок рационализация.

Это как если бы вас спросили «почему вы выбрали этот салат в меню?», и вы сначала ответили «цезарь», а потом придумали причину: «потому что там курица, а я хотел белка». Причина может быть верна, а может быть придумана задним числом — вы и сами не всегда отличаете.

Что в сухом остатке

LLM — не разум. Не сознание. Не «мозг в компьютере».

Это статистический предсказатель текста, обученный на огромном корпусе человеческих текстов. Она не понимает смысл, не имеет убеждений, не знает границу между «знаю» и «догадываюсь».

Но она настолько хорошо воспроизводит паттерны человеческого языка, что создаёт устойчивую иллюзию понимания. И эта иллюзия — самое опасное.

Именно поэтому к AGI или к сильному искусственному интеллекту это всё не имеет отношения. Пока.

🌐 hermes-agent.ru — проект, в процессе которого это всё выясняется