Найди чуб по графику
Х ТМеня много ругали за лингвистический анализ с помощью нейронный сетей различных блогеров. Часто это были мракобесы, которые, не разбираясь в передовых технологиях, просто повторяли мантру, что ИИ доверять нельзя, что это технология, которую невозможно валидировать. Но наступил тот день, когда валидация возможна и сегодня не будет ни строчки про нейронные сети, мы обойдемся обычной математической статистикой. Конечно, это нас не спасет от персонажей, которые верят в плоскую землю и отрицают 2+2=4, но таких товарищей легко можно будет вычислить в комментариях. А пока пристегните ремни и вымойте руки - мы начинаем погружение в Марианскую впадину лингвистики!
![](https://i.ibb.co/jv3LJ1s/image.png)
И сразу без лишних прелюдий предлагаю сыграть в простую игру - найди чуб по графику! Я специально скрыл блогеров, чтобы не было возможности подсмотреть. Здесь спрятано 2 чуба открытых и чуб скрываемый. Сможете найти их? Если вы не дочитали до конца статьи, то кидайте свои варианты блогеров в комментарии. Первый подписчик, кто угадает всех 7 блогеров и напишет об этом к комментариях – получит от меня премиум на 3 месяца! Только чур не подглядывать!
![](https://i.ibb.co/m0DY1S8/image.png)
Но для начала вы спросите меня, что же показывает данная диаграмма? Суть ее проста как у синхрофазотрона: тут процент ошибок в -ться/тся. Зачем и почему, что дает нам этот простой тест? На самом деле многое. Вна украiнске мове не существует окончания -т и -тся, вместо него -ш и -шся. Сомневающимся пруф. Сорян за видос, но ua зона почти всегда заблокирована для ip из России, а Ютуб «ускорять» вы уже наверняка научились. Да и с мовы покекать лишний раз благостно. И это различие в языках рождает повышенный процент ошибок особой касты людей.
Процент ошибок с -ться мы получили с помощью прекрасного сервиса от Yandex. В предыдущем посте я уже писал, как этот сервис работает. Вот он и пригодился нам, как было обещано ранее.
С первым веселых графиком мы разобрались, а теперь приступаем ко второму. И он показывает процент ошибок в употреблении «в Украине», то есть, отношение «в Украине» к суммарному количеству упоминаний «на Украине» и «в Украине».
![](https://i.ibb.co/Yt9wbc5/image.png)
Не все упоминания «в Украине» стоит считать из-за репостов и цитат. Например, у блогера 6 на самом деле ни одного использований оборота «в Украине», а все, что были найдены, на самом деле репосты. Для остальных это тоже верно, но отчасти. Хотя у первого блогера фактический процент будет ниже 25% из-за цитат и репостов, он все равно сможет удержать пальму первенства. И в очередной раз блогер 5 самый русский!
Но мы продолжим наш эксперимент! Давайте поглядим на следующий график, и снова попытаемся найти чуб на этом графике. Теперь этот график предоставляет нам ультимативный инструмент, самый точный детектор чуба. Никаких ложный срабатываний, только чистый, практически кристаллизованный результат.
![](https://i.ibb.co/VDPcp2F/image.png)
Что же показывает эта диаграмма? Единица в случае наличия выражения «на сейчас» или «на вчера». Нуль в случае отсутствия данного выражения. Прошу быть внимательными, так как «на сегодня» в русском языке встречается и является нормой, а вот «на сейчас» - явная ошибка, так как в этом случае никакого предлога не надо (и возможно надо в другое место это «сейчас» поставить). Кто-то захочет сказать, что нельзя по одному использованию «на сейчас» записывать блогера в Украинцы? Конечно нельзя, но поверьте, у каждого автора этих случаев больше одного раза. Проверить это вы сможете уже сами с помощью функционала Telegram, когда мы раскроем личность каждого товарища.
Итак, с лингвистической базой мы закончили, и начинаем срывать маски с блогеров (ссылки ни на кого не оставляю, пока мне за рекламу еще не заносили шекели):
1) Арт «полушарий» жокей
2) Дмитрий «жахнем» Медведев
3) Юрий «котел» Подоляка
4) Михайл Онуфриенко
5) Х «моем руки» Т
6) Евгений Норин
7) Геоэнергетика Инфо
Прошу заметить, что здесь собраны блогеры различной направленности, но у каждого так или иначе затрагивается тема Украины. Именно по этой причине мы можем видеть ложные срабатывания во втором случае. К счастью, мы выявили ультимативный способ определять украинца. Судя по последнему графику, чуб у нас имеют два товарища из контрольной группы и один из тестовой:
- Юрий «котел» Подоляка, уроженец Сум
- Михайл Онуфриенко, уроженец Харькова
- Арт «полушарий» жокей, уроженец страны 50/50 и трёх ойро
Ну и хотелось указать в очередной раз, что все те, кто не верил нейронным сетям, в итоге опростоволосились. Перед вами рабочий способ, основанный на лингвистических различиях и сходствах украинской мовы и русского языка. Никаких непонятных технологий, а чистая статистика.
Теперь ни один анонимный «казах» вас не проведет! Не верьте словам, верьте математике и статистике! Пифагору слава! Ну и напоследок:
![](https://cs14.pikabu.ru/post_img/2024/04/22/7/1713783096167661587.jpg)