Моделирование вторичной зрительной зоны (V2)

Моделирование вторичной зрительной зоны (V2)

Алексей Тарасов @Atar

Sparse Hash

Цель эксперимента

Проверяется следующая распространённая гипотеза.

Изображение с сетчатки топологически проецируется в первичную зрительную зону, где микроколонками разбивается на локальные элементарные объекты типа линий разных наклонов. Кодированное таким образом изображение далее проецируется во вторичную зону, где микроколонки распознают форму объекта.

Ставится следующая задача: сможет ли юнит (ака микроколонка) во вторичной зоне при самообучении сформировать кластеры, кодирующие разные формы?

Упрощённый пример, - ASCII графика, где объект может быть закодирован в виде символов. Например, изображение цифры ноль, состоящее из локальных изображений единиц. В данном случае, такие локальные символы есть имитация линий разных наклонов. Можно сказать, что локальные паттерны составляют текстуру фигуры.

Пример такой картинки:

Изображение цифры ноль, составленное из единиц.


Конфигурация нейросхем

Сенсорное поле 784 x 784 пикселя. Первичная зона состоит из 28 x 28 юнитов, разбивающих поле на участки 28 x 28 пикселей. Рецептивные поля нейронов из разных юнитов не пересекаются. Каждый юнит выдаёт 50-битный код распознанного им образа.

Соответственно исходная размерность понижается первичной зоной с 614656 до 39200.

Во вторичной зоне в этом эксперименте используется только один юнит. Рецептивные поля его нейронов, в отличие от аналогичных полей первой зоны, гигантские, - покрывают половину входного пространства.

Все остальные характеристики нейронов обеих зон соответствуют таким из прошлого эксперимента с зоной V1.

Датасет

Был взят MNIST и каждое изображение кодировалось следующим образом. Там, где пиксель был зажжён, в входной вектор (для V2) добавлялся код от юнита с первичной зоны. Погашенный же пиксель заменялся на случайный код - шум.

Вверху исходное изображение нуля. Ниже оно же, кодированное зоной V1. Вместо 50-битного кода для наглядности показан 10-битный код. Третье изображение - добавлен шум от пустых областей, в таком виде оно поступает на зону V2. Нижнее изображение - тоже самое, но кодированное инверсно, то есть везде шум, кроме области с фигурой.

Результат

Результат не отличается от предыдущего эксперимента. В прошлом эксперименте юниты первичной зоны в однократном прогоне на 50000 семплов из 60 "зародышей" кластеров, полностью формировали 50 законченных специализированных кластеров. Юниты вторичной зоны при тех же условиях формируют 40 кластеров. Это незначительная просадка эффективности (20%), при том, что размеры рецептивных зон нейронов во вторичной зоне увеличились в 50 раз, что, насколько мне известно, соответствует наблюдениям в коре.

И второе, мне уже встречалась информация, что шум важен для мозга, и в этом эксперименте шум играет важную роль. Без него кластеры формируются в два раза хуже. И наличие шума позволяет распознавать "тени" фигур, - инверсные образы.