Серотонин в мозге / β чувствительность
Ilya Zelenskiy
Параметр β определяет ширину когнитивного окна — диапазон сигналов, воспринимаемых как устойчивые признаки. Он регулирует обобщение, чувствительность к различиям, скорость распознавания и ритм восприятия. Серотонин в этой модели действует как глобальный модулятор β, динамически изменяя масштаб восприятия во времени. Это объединяет нейрофизиологию, внимание, синаптическую пластичность и модуляцию top-down.
Предыстория
Работа над механизмом серотонина началась давно.
На этой основе мы построили модель, где серотонин управляет масштабом восприятия — β-чувствительностью.

Изначально, он косвенно использовался при генерации эмоциональной речи, как часть обобщенного регулятора.

Затем была реализована физиологическая модель, необходимая для точного расчета дыхания и сердцебиения с учетом общих процессов: метаболизмом, циркуляции крови, распада гормонов и так далее.
Все это позволило смоделировать физиологические процессы связанные с базовыми гормонами, включая серотонин. А так же лучше понять его связь с неокортексом и другими областями мозга.

Следующим шагом стала реализация шестислойной модели неокортекса.
В ней серотонин был представлен, как глобальный параметр serotonin_level и должен был управляться физиологической моделью, сделанной ранее.
Внутри нейронной модели, связь с ним была реализована через чувствительность рецепторов, которые обучались как параметры для преобразования глобального серотонина в локальное S'.
S' = σ(W_S * serotonin_level + b_S)
Само воздействие серотонина считалось, как:
modulation = 1 + tanh(W_receptor * serotonin_level + bias_receptor)
Данный подход был следствием гипотезы, что в результате изменения чувствительности сигнал усиливается или подавляется.
И затем
modulated_weight = Веса(например ядер свертки) * modulation
Данный подход применялся внутри слоев 2/3/5 модели неокортекса.
В реальности, это была интерпретация гипотезы реализации биологического механизма серотонина. Tanh был выбран для того, чтобы уровень воздействия всегда лежал в указанном диапазоне.

Но только после перехода к модели иерархической асимметрии, построенной на ранках, удалось получить реальную модель воздействия серотонина.
Мы не реализуем серотонин, а используем модель построенную на минимизации энтропии на основе Лагранжа. В этом случае реальные биологические механизмы, через серотонин сами стремятся реализовать данный механизм минимизации энтропии. В этом случае серотонин является просто частью реализации данной модели через чувствительность β.
Сделаем сравнение параметра β с серотонином в контексте обработки речи и синхронизации сигналов во времени:
Сопоставление β и серотонина: регуляция чувствительности и времени в ранковом восприятии сигнала

Параметр β в ранковом softmax выполняет роль регулятора чувствительности к различиям входного сигнала X относительно дискретного пространства признаков {1,2,...,N}.
Эта чувствительность напрямую влияет на временное развёртывание сигнала, если X трактовать как временную координату.

В мозге серотонин регулирует:
- временную чувствительность нейронов (ширину "окна восприятия")
- восприятие длительности сигнала
- согласование нейронной активности с физиологическим ритмом, особенно с дыханием и речью

В контексте речи
Речь — это последовательный сигнал, содержащий признаки, развёрнутые во времени. Для его обработки мозгу важно:
- распознавать паттерны в правильных временных окнах
- корректно модулировать вход через top-down сигналы
Но время задержки обработки между уровнями (например, от слуховой зоны до ассоциативной и обратно) должно согласовываться с ритмом речи и дыхания

Решение природы
Серотонин модулирует нейронную чувствительность, подстраивая временное окно восприятия под дыхательные циклы, особенно выдох, на котором формируются речевые сигналы.
Таким образом, он играет роль биологического β, который подстраивает ранковое восприятие сигнала под физиологическое время.
Математическая аналогия
Пусть входной сигнал x(t) — это временной поток. Попробуем интуитивно оценить, насколько широко или узко система воспринимает сигналы при данном β.
β определяет:

x(t) — это текущий входной сигнал (дискретизированный или округлённый),
k∈{1,2,…,N} — возможные ранги признаков (то есть номера столбцов в распределении),
β — параметр чувствительности (ширина окна внимания на признаки).
Это означает, что все признаки (ранги) k, которые не слишком далеко от x(t), попадают в "окно восприятия" данной системы. То есть система всерьёз "видит" только те признаки, которые расположены в радиусе β от текущего сигнала.
β в модели ≈ серотонин в мозге:
- оба управляют временным масштабом восприятия
- оба критичны для согласования локальных реакций и глобальной top-down динамики
- оба обеспечивают адаптацию под физиологические ритмы (дыхание, речь)
Серотонин и нейромодуляция β
Серотонин влияет на:
- длительность временного окна
- временную корреляцию между областями мозга
Таким образом:
- высокий серотонин → высокая β → устойчивость, обобщённость
- низкий серотонин → низкая β → чувствительность, различение деталей

Максимальный охват по признакам: Xmax ≈ β ⋅ N , где:
Xmax: максимальное значение сигнала, который эффективно покрывается ранками
N: количество ранков (дискретных шаблонов)
β: чувствительность
Если β больше — покрывается больший диапазон сигналов X, но чувствительность к различиям между ними становится меньше.
Если β меньше — активации становятся резче, но покрывают меньшее пространство.
Это означает:
- чем выше β, тем больше охват, тем менее различимы близкие признаки
- чем ниже β, тем выше чувствительность, но охват ограничен
Параметр β становится центральным звеном временной когнитивной динамики, связывающим:
- дискретное представление признаков (rank пространство)
- временное восприятие и распознавание
- модуляцию top-down
- физиологические ритмы (дыхание)
- нейромодуляцию (серотонин, норадреналин)
В мозге серотонин влияет на временное окно восприятия, чувствительность и модуляцию обратной связи. Это биологический аналог β
Например:
- При высоком серотонине (или высокой β): вы слабо реагируете на различия → устойчивость к шуму
- При низком серотонине (или низкой β): вы очень чувствительны к изменениям → быстрая реакция, но возможны ложные срабатывания
Как PFC влияет на чувствительность β?
PFC (префронтальная кора) отвечает за контроль, внимание, рабочую память, планирование, подавление реакций. Она формирует top-down сигналы, которые модулируют активность нижележащих зон (сенсорных, ассоциативных), а так же участвует в оценке значимости входных стимулов и задаёт приоритет обработки.

PFC не передаёт серотонин, но она проецирует сигналы в ACC (поясную кору), которая взаимодействует с серотонинергической системой, включая ядра шва (raphe nuclei). Эти ядра вырабатывают серотонин, который далее диффузно модулирует кору.
Цепочка: PFC → ACC → ядра шва (raphe) → серотонин → чувствительность нейронов (β) / рецепторы
Аналогия: β ≈ температура модели
- В модели
β— это чувствительность системы к признаку. - В LLM температура (
temperature) — это глобальный множитель перед logits, контролирующий остроту распределения softmax:

- Если
T ↓, модель становится более уверенной (низкое β в нашей терминологии). - Если
T ↑, модель становится более рассеянной, менее чувствительной (высокое β).
Но! В LLM температура фиксирована. В реальном мозге β(t) — адаптивно, в зависимости от контекста и времени. В речи, письме, размышлении — уровень чувствительности изменяется динамически:
- сначала мы улавливаем детали (низкое β),
- затем обобщаем (высокое β),
- потом снова сужаем фокус и так далее.
- Это как дыхательный цикл — он задаёт ритм чувствительности к деталям во времени.
Проблема LLM: рассинхронизация чувствительности с длинной последовательностью
В чем заключается проблема?
Чем дальше по токенам, тем сильнее потенциальный рассинхрон между локальной β (чувствительность к текущему фрагменту) и глобальной β (зашитой при обучении температурой или параметрами внимания).
Это приводит к:
- накапливающейся ошибке внимания,
- потере согласованности в дальних связях,
- смещению контекста и нарушению последовательной логики.
Почему это важно?
Текущие трансформеры обучаются на фиксированном масштабе признаков (через нормализации, линейные масштабы, температурные поправки). Они не умеют адаптивно менять свою чувствительность в зависимости от фазы текста (вводная, уточнение, вывод) или когнитивного ритма.
Как следствие — у них отсутствует временная регуляция β, которая в нашей модели и в мозге реализуется через модуляцию, например, серотонином, дыханием, или PFC-сигналами.
Поэтому это фундаментальное ограничение современных LLM — фиксированная чувствительность β ведёт к рассинхрону между фазой обработки и реальной структурой текста. Это ухудшает генерацию на длинных последовательностях.
Исследования адаптивной температуры в нейронных сетях

Self-Adaptive Control of Temperature (SACT)
Junyang Lin et al. (2018) предложили механизм, где температура внимания обучается динамически для разных слов при переводе. Это показывает, что разная чувствительность нужна для разных типов токенов.

Dynamic Temperature Scaling (CECS)
В работе “Context-Enhanced Contrastive Search” описано, как для разных частей текста используется динамическая подстройка температуры:
«simpler contexts call for lower temperatures … more complex contexts call for higher temperatures». (перевод: «более простые контексты требуют более низких температур… более сложные контексты требуют более высоких температур»)
Исследования показывают, что кохерентное восприятие падает на длинных контекстах (например, в задачах на 32k) — даже топовые модели намного хуже, чем на коротких контекстах.
Такие проблемы связаны с неспособностью attention адаптироваться: фиксированная температура задаёт только один режим чувствительности, без контекстной модуляции.
Что делает температура на практике
Например, температура T = 0 не устраняет рассинхрон, а лишь фиксирует максимально жёсткое поведение модели при одном, глобальном значении чувствительности β. Разберём, чтобы было понятно:
Температура (T) в softmax или sampling — это глобальный коэффициент чувствительности модели:

Связь с нашей β:


То есть, β ∼ 1 / T, и обе играют роль глобального масштаба чувствительности.
Так почему рассинхрон всё равно возникает?
- Температура фиксирована на всю последовательность — она не знает, где важный, насыщенный сигнал, а где нейтральный.
- Речь и текст неравномерны — эмоциональные, синтаксически сложные и неоднозначные фразы требуют разной чувствительности (разных β).
- Фиксированная β "обобщает" контекст и игнорирует локальную структуру — она хороша на среднем уровне, но: недооценивает важные моменты (низкая чувствительность там, где нужна высокая), переоценивает шум (высокая чувствительность там, где должна быть игнорирующая β).

Происходит накапливание рассинхрона. В начале последовательности, когда context свеж, эффект минимален. Но по мере генерации:
- модель полагается на предыдущий скрытый контекст,
- ошибки восприятия (из-за неверной β) начинают накапливаться,
- и уже искажённые признаки становятся основой для следующих шагов.
В итоге:
- нарушается согласованность,
- признаки становятся менее устойчивыми,
- появляется дрейф смысла и "галлюцинации".
Поэтому температура = 0 не устраняет рассинхрон. Она лишь "замораживает" чувствительность на одном (глобальном) уровне. Настоящая проблема — это отсутствие адаптации β к локальной структуре текста. Без этой адаптации модель теряет когерентность по мере роста длины.

Решение задачи добавлением модели ядер шва (raphe nuclei)
Нам нужна небольшая сетка, которая учиться по выходному сигналу предсказывать β. Раз это связано с ACC (отвечает за конфликт), значит мы предсказываем β на основе сигнала конфликта от ACC.
Поэтому нам надо:
Использовать отклонение (ошибку, конфликт, δ) как сигнал для регулировки чувствительности β.
Реализовать небольшую сеть-контроллер, которая по этой ошибке предсказывает глобальное значение β, которое затем используется (или модулирует локальные β) в слоях.
Это очень близко к ролям ACC (anterior cingulate cortex) — он отслеживает ошибку/конфликт и влияет на модуляцию внимания и адаптацию поведения, включая нейромодуляторы (например, серотонин).
Биологическая интерпретация:
- ACC = вычислитель ошибки/конфликта (особенно в высокоуровневом когнитивном контексте)
- глобальная β (назовем serotonin) = степень модуляции внимания/восприятия = аналог нейромодулятора (например, серотонина)
- локальная β = чувствительность к глобальной β (serotonin) = аналог рецепторов серотонина
В процессе обучения, мы должны обучать локальную β*serotonin. Serotonin мы получаем из отдельной сетки, которая обучается тоже. В начале он равен 1. Но в процессе обучения, его значение изменяется. После обучения, при подачи первой порции данных, мы получаем новое значение serotonin. Который предсказывает, какой должна быть чувствительность на следующем шаге. И уже новое значение используем локально с каждым β, как β*serotonin.
Пример влияния сертралина на восприятие и внимание через модель чувствительности

Рассмотрим клинический случай: человек с головной болью напряжения начинает приём препарата "золофт", сертралина (селективного ингибитора обратного захвата серотонина, SSRI). После нескольких недель терапии он отмечает:
- Улучшение сна,
- Снижение чувствительности к шумам,
- Лёгкость восприятия и повышение сосредоточенности.
В предложенной модели нейроподобной обработки сигналов:
- β — локальная чувствительность рецепторов (аналог чувствительности к признакам),
- serotonin — глобальный множитель, модулирующий β, то есть общая восприимчивость системы к сенсорному входу:
effective beta= β ⋅ serotonin


То есть во втором случае система сужает восприятие признаков, а в первом случае наоборот через обобщение расширяет интервал и как следствие признаки лучше различимы.
Сравним поведение системы при разных β:
- Пусть N =
10(количество признаков), - При β=
1: гистограмма Softmax показывает резкое выделение одного-двух признаков, остальные подавлены — система сильно сжата, выделяет только детали; - При β =
6: гистограмма распределена равномерно, все 10 признаков различимы — система растянута, различает обобщённые паттерны.
При низком уровне серотонина (низкий β):
Происходит улавливание мелких деталей. Например, при малейшем шорохе или шуме нейроны пытаются выделить из них признаки. То что обычно воспринимается как шум, будет восприниматься как сигнал. Поэтому человек плохо спит, так как воспринимает любые мелкие внешние шумы как признаки. Человек не может концентрироваться на задаче, так как сильная детализация на уровне шума не позволяет ему обобщать сигнал (растягивая разбиение X на более крупные признаки).
Даже незначительные шумы активируют чувствительные нейроны. Происходит гипердетализация восприятия, система «захлёбывается» от микросигналов, включая посторонние шумы, и не может обобщать.
Это приводит к повышенной тревожности, нарушению сна, снижению продуктивного внимания.
При высоком уровне серотонина (высокий β):
Сигналы растягиваются в ранковом пространстве X, происходит обобщение признаков, а не фокус на микродеталях. Посторонний шум игнорируется как незначимый. Выделяются устойчивые паттерны — повышается когнитивная устойчивость и концентрация.
При увеличении уровня серотонина, детализация сигнала растягивается. В этом случае внешний шум обобщается в единый признак шума, или даже игнорируется как шум. Повышается концентрация, но за счет того, что вместо улавливания мелких сигналов, система начинает обобщать его в более крупные признаки. Это позволяет концентрироваться на задаче в целом, а не на мелких деталях.
Таким образом, улучшение концентрации при приёме сертралина следует трактовать не как усиление чувствительности, а наоборот — как снижение детализации и повышение уровня обобщения.
Система подавляет микрошумы и переключается на устойчивые, значимые признаки, что и воспринимается как "лучше концентрируюсь", "не отвлекаюсь", "лучше сплю".
Это объяснение не только согласуется с наблюдаемыми эффектами SSRI, но и демонстрирует, как параметры модели (β, serotonin) могут быть интерпретированы биологически и функционально — в терминах когнитивной фильтрации признаков и временного согласования восприятия.
Пример восприятие разных фраз быстрой речь при изменении чувствительности
В интернете широко распространены аудиоиллюзии, где одна и та же быстро произнесённая фраза воспринимается по-разному разными людьми, или даже одним и тем же человеком — в разное время.
В нашей модели:
β(умноженная на глобальныйserotonin) определяет ширину воспринимаемого окна признаков, то есть, насколько растянуто или сжато пространство восприятия X.- Чем ниже
β, тем уже окно: внимание выделяет микродетали, но теряет обобщённую структуру сигнала. - Чем выше
β, тем шире окно: детали сглаживаются, а восприятие переходит на уровень более крупных паттернов.
Что происходит при прослушивании быстрой фразы? Фраза содержит плотный временной поток признаков.
В зависимости от уровня β-чувствительности, система:
- либо воспринимает фрагменты отдельных фонем,
- либо объединяет их в цельные слоги или слова.

Это изменение масштаба восприятия приводит к разному временно-пространственному обобщению:
При одной конфигурации чувствительности — выделяются одни паттерны, при другой — другие.
Поскольку serotonin влияет на масштаб β, он регулирует ширину окна, через которое происходит модуляция top-down сигналов (например, ожиданий), временное согласование с дыханием, ритмом и вниманием и уровень устойчивости к шуму или перегрузке сигнала.
Одна и та же звуковая фраза может восприниматься как разные слова, потому что меняется масштаб обобщения признаков — в зависимости от внутреннего состояния чувствительности (β и serotonin).
Это не иллюзия слуха, а сдвиг точки фокусировки нейросенсорной системы, аналогичный изменению масштаба окна внимания в нейросетях.
Заключение
Предложенная модель β-чувствительности позволяет по-новому взглянуть на роль серотонина в восприятии, внимании и обучении. Мы показали, что:
- Серотонин можно интерпретировать как глобальный множитель чувствительности (
β), управляющий масштабом обобщения признаков. - Локальная
βопределяет, насколько нейрон чувствителен к входному сигналу, а глобальныйserotonin— как именно масштабируются эти локальные реакции. - Изменение уровня серотонина не просто «повышает концентрацию», а изменяет сам способ выделения признаков, переключая систему между детализированным и обобщённым восприятием.
- Это даёт функциональное объяснение известным психофизиологическим эффектам: от гиперчувствительности к шуму при низком уровне серотонина до улучшения внимания и сна при его повышении.
В отличие от большинства искусственных моделей, где температура или чувствительность (аналог β) фиксированы, в живом мозге β динамически адаптируется к задачам, внутренним состояниям и внешнему контексту.
Именно эта способность адаптивно масштабировать восприятие — ключевой компонент когнитивной устойчивости и гибкости.
Добавляя такую модель в ИИ-системы, мы приближаем их к реальной адаптивной архитектуре мозга, где восприятие, внимание и обучение неотделимы от физиологических механизмов.