Найди чуб по графику
Х ТМеня много ругали за лингвистический анализ с помощью нейронный сетей различных блогеров. Часто это были мракобесы, которые, не разбираясь в передовых технологиях, просто повторяли мантру, что ИИ доверять нельзя, что это технология, которую невозможно валидировать. Но наступил тот день, когда валидация возможна и сегодня не будет ни строчки про нейронные сети, мы обойдемся обычной математической статистикой. Конечно, это нас не спасет от персонажей, которые верят в плоскую землю и отрицают 2+2=4, но таких товарищей легко можно будет вычислить в комментариях. А пока пристегните ремни и вымойте руки - мы начинаем погружение в Марианскую впадину лингвистики!
И сразу без лишних прелюдий предлагаю сыграть в простую игру - найди чуб по графику! Я специально скрыл блогеров, чтобы не было возможности подсмотреть. Здесь спрятано 2 чуба открытых и чуб скрываемый. Сможете найти их? Если вы не дочитали до конца статьи, то кидайте свои варианты блогеров в комментарии. Первый подписчик, кто угадает всех 7 блогеров и напишет об этом к комментариях – получит от меня премиум на 3 месяца! Только чур не подглядывать!
Но для начала вы спросите меня, что же показывает данная диаграмма? Суть ее проста как у синхрофазотрона: тут процент ошибок в -ться/тся. Зачем и почему, что дает нам этот простой тест? На самом деле многое. Вна украiнске мове не существует окончания -т и -тся, вместо него -ш и -шся. Сомневающимся пруф. Сорян за видос, но ua зона почти всегда заблокирована для ip из России, а Ютуб «ускорять» вы уже наверняка научились. Да и с мовы покекать лишний раз благостно. И это различие в языках рождает повышенный процент ошибок особой касты людей.
Процент ошибок с -ться мы получили с помощью прекрасного сервиса от Yandex. В предыдущем посте я уже писал, как этот сервис работает. Вот он и пригодился нам, как было обещано ранее.
С первым веселых графиком мы разобрались, а теперь приступаем ко второму. И он показывает процент ошибок в употреблении «в Украине», то есть, отношение «в Украине» к суммарному количеству упоминаний «на Украине» и «в Украине».
Не все упоминания «в Украине» стоит считать из-за репостов и цитат. Например, у блогера 6 на самом деле ни одного использований оборота «в Украине», а все, что были найдены, на самом деле репосты. Для остальных это тоже верно, но отчасти. Хотя у первого блогера фактический процент будет ниже 25% из-за цитат и репостов, он все равно сможет удержать пальму первенства. И в очередной раз блогер 5 самый русский!
Но мы продолжим наш эксперимент! Давайте поглядим на следующий график, и снова попытаемся найти чуб на этом графике. Теперь этот график предоставляет нам ультимативный инструмент, самый точный детектор чуба. Никаких ложный срабатываний, только чистый, практически кристаллизованный результат.
Что же показывает эта диаграмма? Единица в случае наличия выражения «на сейчас» или «на вчера». Нуль в случае отсутствия данного выражения. Прошу быть внимательными, так как «на сегодня» в русском языке встречается и является нормой, а вот «на сейчас» - явная ошибка, так как в этом случае никакого предлога не надо (и возможно надо в другое место это «сейчас» поставить). Кто-то захочет сказать, что нельзя по одному использованию «на сейчас» записывать блогера в Украинцы? Конечно нельзя, но поверьте, у каждого автора этих случаев больше одного раза. Проверить это вы сможете уже сами с помощью функционала Telegram, когда мы раскроем личность каждого товарища.
Итак, с лингвистической базой мы закончили, и начинаем срывать маски с блогеров (ссылки ни на кого не оставляю, пока мне за рекламу еще не заносили шекели):
1) Арт «полушарий» жокей
2) Дмитрий «жахнем» Медведев
3) Юрий «котел» Подоляка
4) Михайл Онуфриенко
5) Х «моем руки» Т
6) Евгений Норин
7) Геоэнергетика Инфо
Прошу заметить, что здесь собраны блогеры различной направленности, но у каждого так или иначе затрагивается тема Украины. Именно по этой причине мы можем видеть ложные срабатывания во втором случае. К счастью, мы выявили ультимативный способ определять украинца. Судя по последнему графику, чуб у нас имеют два товарища из контрольной группы и один из тестовой:
- Юрий «котел» Подоляка, уроженец Сум
- Михайл Онуфриенко, уроженец Харькова
- Арт «полушарий» жокей, уроженец страны 50/50 и трёх ойро
Ну и хотелось указать в очередной раз, что все те, кто не верил нейронным сетям, в итоге опростоволосились. Перед вами рабочий способ, основанный на лингвистических различиях и сходствах украинской мовы и русского языка. Никаких непонятных технологий, а чистая статистика.
Теперь ни один анонимный «казах» вас не проведет! Не верьте словам, верьте математике и статистике! Пифагору слава! Ну и напоследок: