Как это работает на практике (и почему это вообще возможно)

Пояснение 1 к ТГ-посту "ИИ можно вырастить как ребенка — в реальном хаосе мира"

Несколько упрощая, можно объяснить это простыми словами примерно так.

1) Выравниваем «поле».

Сырые лайки и репосты нечестно сравнивать: у «звёзд» (инфлюенсеров, да и вообще у любой медийной персоны) их по умолчанию больше. Поэтому сначала считаем не «сколько собрал пост», а «насколько он лучше (или хуже) обычного для этого автора». Пример: если у «звезды» обычно 1 000 лайков, а у новичка 20, то пост звезды, начиная с 1100 лайков, и пост новичка с 40+ лайков — считаем оба «выше своей нормы». Так сигнал становится сравнимым.

2) Ищем «самого похожего двойника».

У нового текста нет будущего — мы не знаем, как он «зайдёт». Выход: ищем в прошлом самый близкий по смыслу пост (например, о той же ссылке/теме) и берём его результат как ориентир. Причём ориентируемся на лучшего из похожих: «делай как самый удачный из на тебя похожих». Это позволяет учиться даже там, где прямых тематических аналогов нет.

3) Ставим «ограждения», чтобы модель не хитрила.

Как только даёшь метрику, её начинают «взламывать» — модель может уйти в однообразные безопасные ответы или пустой кликбейт (закон Гудхарта и здесь не спит). Поэтому в обучение вшивают простые страховки:

не поощрять повтор одного и того же текста;
слегка «привязывать» стиль к исходному (чтобы не унесло в спам);
время от времени «встряхивать» задачи, чтобы модель не залипала на одном трюке.
Идея проста: повышаем качество, но не даём скатиться в дешёвые трюки.

4) Собираем всё вместе в прототипе.

Авторы сделали «Walter» —небольшого и умного автора коротких постов. Его учили на данных соцсети: считали нормированный успех постов (репосты ценнее, затем ответы, затем лайки), искали «смысловых двойников», брали у них лучший результат как подсказку и крутили обучение с «ограждениями». На выходе — тексты стали живее и меньше пустых хештегов.

5) Почему это вообще работает.

В такой системе есть хорошие «измерители смысла» — эмбеддинги: они позволяют надёжно находить похожие тексты.
Даже шумные поведенческие сигналы (лайки, дочитывания, репосты) всё же коррелируют с полезностью для людей — если их правильно нормировать.
«Страховки» в обучении держат систему в адекватном коридоре.
И главное: всё это уже можно запускать на обычном «железе» — не нужны дата-центры, значит подобные циклы обучения становятся доступными большим и маленьким командам.

Суммируя всё это в одном предложении: берём реальные, пусть и шумные, реакции людей; приводим их к честной шкале; переносим опыт с лучших похожих случаев; и учим модель с простыми, но жёсткими «поручнями», чтобы она не читерила.

Как это работает на практике (и почему это вообще возможно)

Report Page