Классификации и ранговые распределения

Классификации и ранговые распределения

sergey shishkin

КОЛИЧЕСТВЕННЫЕ ХАРАКТЕРИСТИКИ РАЗБИЕНИЙ

Как только в рамках таксономии зафиксирован таксон и его разбиение на таксоны, так сразу получает смысл вопрос о распределении этих таксонов по объему (т. е. по численности или по другой естественной для них количественной характернстике). Рассмотрим ситуацию, когда можно определить числа заполнения этих таксонов, например, целыми фиксированными числами. Индекс называется тогда рангом таксона, а последовательность чисел заполнения - ранговым распределением.

Довольно естественными представляются попытки объяснить возникающие численные закономерности тем, что есть некий «источник» объектов, образующих таксон, который «порождает» эти объекты с вероятностями, пропорциональными числам заполнения. Иначе говоря, вероятность того, что «источник породит» объект, принадлежащий таксону, пропорциональна числу.

В работе Ю. К. Орлова [39] впервые было замечено, что такие схемы не проходят не потому, что мы не умеем смоделировать источник, а по принципиальным соображениям. Оказывается, что теоретическая закономерность ранговых распределений хорошо выполняется только для таких таксонов, где есть основания говорить об их целостной структуре.

Так, распределение Ципфа хорошо выполняется для целостных текстов и гораздо хуже для больших конгломератов текстов. (Вероятностная модель с «источником» давала бы результаты тем лучше, чем больше выборка) .

Возникает мысль о системной природе ранговых распределений. Более того, само наличие хорошей закономерности в ранговом распределении позволяет обнаружить естественность (целостность) исследуемого таксона. Так, на основе распределения рефератов по разным журналам была выяснена возможность проверить, насколько данная область науки или техники обладает присущей ей целостностью или она является случайным объединением разнородных областей.

Далее мы покажем, что известные закономерности ранговых распределений являются следствием некоего общесистемного принципа максимума диссимметрии. Этот чисто математический вывод дает некоторое основание полагать, что закономерности ранговых распределений действительно имеют системный характер. Там, где они наблюдаются эмпирически, есть смысл искать и другие проявления системности. Наоборот, в ситуации, где наличие системности очевидно для исследователя, а ранговое расnределение отклоняется от теоретической (системной) закономерности, необходимо искать факторы, нарушающие эту закономерность.

Так, в географии ранговое распределение «портится» на самых больших городах. Это позволило целенаправленно искать Факторы перенаселения.

Стоит подробнее остановиться на важной лингвистической интерпретации нашей задачи. Пусть имеется некоторый текст Т длиной в N слов. Множество мест в этом тексте можно рассматривать как таксон, а каждое слово определяет подтаксон, состоящий из тех мест текста, где стоят различные формы этого слова. Численности таксонов - это частоты встречаемости соответствующих слов в тексте. Для этих частот хорошо известна закономерность, называемая законом Ципфа и состоящая в том, что частота слова примерно обратно пропорциональна рангу, т. е. номеру этого слова, если номера идут в порядке убывания частот. Кроме того (и это очень существенно), для целостных текстов закономерность ранговых распределений кроме указанной обратной пропорциональности частот и ранга включает условие, по которому последние значения частот равны единице [6].

Иначе говоря, в хорошем тексте самое редкое слово не может встретиться пять или десять раз, но обязательно встретится только один раз. И так будет не с одним, а с довольно большим количеством последних по рангу слов. Заметим, что в учебных текстах составители стремятся к тому, чтобы каждое слово встретилось достаточное для освоения количество раз, но добиться этого практически невозможно. Это свойство текстов тесно связано еще с одним: количество различных слов в тексте связано четкой зависимостью с количеством мест в этом тексте, т. е. число классов разбиения оказывается зависящим от численности разбиваемого множества. Эта несколько неожиданная закономерность вытекает из общесистемных принципов.

Разумная интерпретация рангового распределения получается, если мы учитываем соотношение таксономии и мерономии. Предположим, что общее количество мест в таксоне зафиксировано. Каждый из подтаксонов выделяется из таксона определенным состоянием меронов архетипа, приводящим к архетипу подтаксона. Если предположить, что все состояния меронов равноправны, то ни один из архетипов не обладает преимуществом перед другим. В этом случае естественно ожидать, что численность всех таксонов примерно одинаковы либо под влиянием внешних случайных причин распределены вокруг среднего значения по нормальному закону.

Уже тот факт, что численности таксонов не оправдывают эти ожидания, должен заставить усомниться в гипотезе равноправности состояний меронов. Эта гипотеза - типичная инерция физикалистского мышления, когда не только ищут в неживой природе инварианты каких-то преобразований, но и ограничиваются этим. Если на фазовом пространстве, описывающем состояние физической системы, действует некоторая группа преобразований, сохраняющих физические свойства системы, то описание системы существенно упрощается. Состояния, получаемые одно из другого действием этих преобразований получают статус равноправных и в системе мы получаем законы сохранения, связанные с инвариантностью ее относительно данной группы.

Частным случаем такой инвариантности является однородность и изотропность пространства и времени, из которых вытекают законы сохранения энерrии, импульса и момента количества движения.

В живых системах мы тоже ищем преобразования, устанавливающие соответствие ее различных состояний. Эти состояния оказываются гомологичными, но гомология в живом отнюдь не равнозначна равноправию состояний. В живых системах существенную роль играют такие категории, как статус компонента системы, маркированность некоторого значения признака, отмеченность тех или иных решений в противопоставлении решениям, сохраняющим статус кво. Скажем, наличие рогов или бивней или отсутствие зубов, или врожденная слепота у животного маркированны, т. е. являются отклонением от нормы.

Развивая эти соображения, мы придем к идее, что среди подтаксонов таксона должен быть один, архетип которого соответствует нормальным (основным) состояниям всех меронов архетипа, а архетипы остальных подтаксонов имеют то или иное количество маркированных состояний меронов.

Архетип таксона является нормой для таксона или архетипом в том смысле, как это понимал И. В. Гете, говоря об архетипе растений.

Дело в том, что архетип таксона в нашем понимании есть архетип настолько обобщенный, что он присущ всем подтаксонам. Архетип подтаксона этим свойством уже не обладает, зато он служит эталоном для всех архетипов подтаксонов, получающихся из него изменением нормальных состояний каких-то меронов на маркированные.

Переходя к вопросу о численности подтаксонов, мы могли бы попытаться связать численность подтаксона с количеством меронов в маркированных состояниях. Это количество меронов в маркированных состояниях можно попробовать интерпретировать как «сложность» или «энергию» соответствующего архетипа. Тогда можно было бы к данной ситуации применить известные выводы закона Ципфа из термодинамических соображений [6]. Однако этот вывод не дает таких существенных фактов, характерных для ранговых распределений по Ципфу, как наличие связи между числом таксонов в разбиении и их суммарным заполнением, а также единичная численность значительного числа самых мелких таксонов [6].

Из опыта известно [6, 39], что при заданной суммарной численности таксона количество разбивающих его таксонов отнюдь не произвольно. Но эту эмпирическую закономерность не удается интерпретировать в термодинамической модели. Кроме того, определение количества меронов вызывает методологические сомнения из-за сильной диссимметрии. Отдельные мероны могут быть неравноправны, и при подсчете количества пришлось бы как-то приписывать веса.  

ПРИНЦИП МИНИМУМА СИММЕТРИИ

Вместо этого мы саму диссимметрию состояний постулируем в виде некоторого общесистемного принципа, который назовем принципом минимума симметрии [4, 5]. Как будет видно из дальнейшего, этот принцип диссимметрии объясняет основные наблюдаемые закономерности ранговых распределений. Эта идея тесно связана с другом идей Ю. А. Урманцева о симметрийных факторах, лежащих в основе системности [59]. Чтобы эксплицировать этот принцип и вывести из него нужные следствия, введем численную меру симметричности, которую можно выразить чrислом автоморфизмов - преобразований, сохраняющих каждый из классов разбиения, т. е. переводящих таксоны самих в себя. Число таких автоморфизмов легко вычислить. Оно равно произведению факториалов чисел перестановок, сохраняющих каждый таксон. Если мы станем минимизировать эту меру симметричности (максимизировать диссимметрию разбиения), то придем к тривиальному и малоинтересному результату равенства всех частот единице.

Все дело в том, что надо одновременно с разбиением рассматривать так называемое «коразбиение» и минимизировать одновременно величину, характеризующую меру симметричности «коразбиения». Понятие «коразбиение» играет большую роль в анализе диссимметрии систем и ранговых распределений. Можно показать, что все коразбиения к данному разбиению устроены одинаково. Точный смысл сказанного эксплицируется в следующих четырех утверждениях.

Утверждение 1. Все коразбиения к данному разбиению одинаково устроены.

Утверждение 2. Коразбиение к коразбиению есть исходное разбиение.

Утвержденuе 3. Число коразбиений к данному разбиению равно мере симметричности этого разбиения.

Утверждение 4. Число классов коразбиения совпадает с численностью максимального класса исходного разбиения.

Наоборот, максимальный класс коразбиения имеет численность, равную количеству классов исходного разбиения. (Классы, коразбиения будем упорядочивать в порядке возрастания их численности.)

Легко получить доказательство сформулированных четырех утверждений.

Утверждение 5. Таксоны одинаковой численности пересекаются с одними и теми же классами коразбиения, а таксон большей численности всегда имеет пересекающийся с ним класс коразбиения, который не пересекается с одним таксоном меньшей численности.

Утверждение 6. Число классов коразбиения численности равно разности.

Коразбиение можно интерпретировать как разбиение по внешним гомологичным рядам, которые образуются представителями разных таксонов. Такие ряды участвуют, например, в формулировке известного закона Н. И. Вавилова о параллельной изменчивости. Более формальная интерпретация коразбиения состоит в следующем.

Каждый из архетипов таксонов, образующих исходное разбиение, получается из архетипа таксона выбором состояний некоторых меронов. Эти состояния суть мероны архетипов. Состояния этих меронов в свою очередь определяют младшие таксоны, из которых составлены таксоны. Если можно установить гомологии между состояниями меронов для разных, то можно объединить в общий класс младшие таксоны из разных подтаксонов. Вот эти-то классы и образуют классы коразбиения к разбиению, если, конечно, эти классы удается построить так, чтобы они содержали не более чем по одному подтаксону из каждого таксона.

С помощью коразбиения мы получаем возможность сформулировать экстремальный принцип, позволяющий выделить среди возможных разбиений одно отмеченное - удовлетворяющее тем условиям, которые наблюдаютоя в реальных системах. Тем самым появление распределений Ципфа получает теоретическое объяснение.

Сформулируем принцип минимума симметрии как требование обращения в минимум произведения мер симметричности разбиения и коразбиения. Удобнее всего потребовать обращения в минимум параметрической фукции при очевидном условии постоянной суммы частот. Обратим внимание на то обстоятельство, что число классов разбиения не фиксируется заранее, а находится из условия минимальности.

ПОИСК ЭКСТРЕМАЛЬНОГО РАСПРЕДЕЛЕНИЯ

Исследуются свойств распределения, обращающего в минимум параметрической фукцию. Минимизируется логарифм. Используется формула Стирлинга. Нормировки. Таким образом, выведенная зависимость устанавливает известную приближенную связь между численностью таксона и его рангом, т. е. выражает закон Ципфа. Введенный принцип минимума симметрии качественно приводит к закономерности Ципфа.

Более точные результаты можно получить, рассматривая задачу в дискретной форме. Можно найти оптимальное распределение. Результат, соответствующий наблюдаемой реальности (вхождение слов в текст ровно по одному разу), не удается получить из вероятностных моделей. Он имеет системную природу. Ципфовская закономерность есть следствие принципа минимума симметрии (максимума диссимметрии системы).

Простые общесистемные принципы приводят к количественным закономерностям, обнаруживаемым в реально наблюдаемых системах. И, наоборот, наличие таких закономерностей в эмпирии дает основания для поиска более глубинных системных свойств.

Системный подход здесь позволил не только обосновать известные в эмпирии закономерности, но и обнаружить в них нечто большее - то, что до этого считалось случайным обстоятельством: обращение в единицу численности самих мелких таксонов и связь между числом таксонов в разбиении и суммарным заполнением разбиваемого таксона (связь между числом всех слов в тексте и числом различных слов в том же тексте).

При таком обоснований закономерности ранговых распределений из чисто эмпирических - приобретают статус критериальных, т. е. дают операциональный метод диагносцирования целостности, метод эмпирической проверки наличия системности.

В этом уже не только методологическое, но и гносеологическое значение ранговых распределений, что является некоторым оправданием усилий, затраченных на математические выкладки. Они дали нам возможность убедиться в том, что свойство системности не есть онтологическая декларация. Его можно проверить в достаточно аккуратном количественном эксnерименте и ассимилировать научным познанием, обогатив тем самым методологию научного познания сложных системных объектов.

Установленные свойства ранговых распределений для естественных систем позволяют обнаружить одну из принципиальных трудностей их изучения. Для технических систем характерны распределения экспоненциального типа, позволяющие в «малой» статистической выборке обнаружить представителей «почти всех» таксонов.

Фактически оказывается, что суммарная численность таксонов, представители которых не попали в малую представительную выборку, составляет малую долю общей численность таксонов. На этом обстоятельстве основан успех статистических методов, использования простых моделей и т. п.

При исследовании биологических или социальных объектов мы лишаемся указанного выше основания изучать их в редуцированном представлении. Положение оказывается в точности противоположным. При самой удачной (а не просто случайной) выборке представителей n таксонов из общего количества k таксонов оставшиеся k-n таксонов составят суммарную численность k ln (k n), что составляет следующую долю общей численности или k ln k. Эта величина заметно мала лишь при значениях n одного порядка с k.

Полученное соотношение репрезентирует следующий гносеологический принцип: адекватное представление естественной системы возможно лишь через систему, сравнимую с ней по сложности. Ранговые распределения в данном случае оказываются удачным репрезентатором общих трудностей познания естественных систем. В них видны гносеологические трудности понятия «почти» применительно к естественным классам объектов. 

https://telegra.ph/CHASTOTNOST-I-OPTIMIZACIYA-06-13

Report Page