Что в смайлике тебе моем?

Что в смайлике тебе моем?

Системный Блокъ

Наблюдать за появлением нового языка в двадцать первом веке — редкая возможность, и у нас она есть! В октябре 2011 года Apple добавила emoji как международную клавиатуру. С тех пор цифровой язык развился настолько, что сейчас половина комментариев и хэштегов в Instagram содержат эмодзи. А если у смайликов есть своя клавиатура, значит это фактически новый искусственный язык, и применяя методы машинного обучения и обработки естественного языка, можно обнаружить его скрытую семантику. 🎉

📈Эмодзи в Instagram

В 2011-2013 emoji стала самой используемой клавиатурой, и уже через месяц после ее появления в iOS, 10% текста в Instagram составляли эмодзи. Рост употребления смайликов увеличился после того Android тоже получили нативную поддержку emoji в 2013.

Употребление эмодзи продолжало расти, и к 2015 году уже почти половина текста в Instagram содержала смайлики. Тенденция кажется очевидной, но все не так однозначно. Если посмотреть на график употребления emoji в разных странах, то мы увидим, что пользователи из Финляндии используют их более чем в 60% текста , а в Танзании эмодзи содержит только 10% текста.🗺️

Sorry, i don’t speak Emoji

Чтобы разрабатывать и изучать язык эмодзи, нужно научиться понимать их значение. В области обработки естественного языка для этого существует распределительная гипотеза: похожие слова могут быть интуитивно-заменяемы. Например, мы можем сказать, что собака и кошка — это похожие слова, потому что их можно использовать в таком предложении, как: «зоомагазин продает еду для _». Эта интуиция может быть применена и к смайликам. 📖

В режиме пропуска инструмент word2vec считывает текст и предсказывает контекст вокруг заданного слова или эмодзи:

Emoji и интернет-сленг

Узнав контекст употребления конкретного эмодзи, мы можем начать искать семантически похожие слова, вычисляя «угол» (косинусную близость) между emoji и другими словами. Оказывается, что многие популярные смайлики соответствуют раннему интернет-сленгу:

😂 (№1 по частоте использования ): lolol, lmao, lololol, lmaoo, lol, ahahah, ahahha, loll, ahaha, ahah

😍 (№2 ): beautifull, gorgeous, perfff, hottt, cuteeee, beautifullll, baeeeee, hotttt, babeee, sexyyyy, hawttt

❤️ (№3): xoxoxox, xoxo, oxox, babycakes, muahhhh, babe, loveyou, bunches, muahh, xoxox

👍(№ 9): awesome, good, #keepitup, #fingerscrossed, aswell, haha, #impressed, #yourock, lol, #greatjob, bud, #goodjob, #muchlove, #proudofyou, job, #goodluck

😭(№ 11): omgg, omf, lololol, whyyy, ughhh, ugh, lolol, wahhhh, oml, uhg, agh, xc, tooo

Изменение словарного запаса

Самые популярные эмодзи семантически очень близки к словам из интернет-сленга «lol/hehe» (😂), «xoxo» (❤️) и «omg» (😱), но могут ли они их полностью заменить?

Чтобы контролировать изменения в языке Instagram, ученые отобрали четыре репрезентативных группы: те, кто присоединился к Instagram в первую неделю июля 2012, января 2013, июля 2013 и января 2014. Каждая из групп содержит миллионы пользователей, и самые часто употребляемые ими слэнговые выражения: лол, xoxo, ОМГ, muah, babe, bae, ха-ха и хе-хе можно преобразовать в регулярное выражение:

(?:\b|#)((?:xo)+|omg+|muah+|babe+|bae+|lol+|(?:ha|he)+h?)(\b|.|!|\?)

На диаграмме ниже видно, что все группы демонстрируют схожую картину в росте употребления эмодзи (~ 45%) и снижении использования интернет-сленга (~ 5%) с одинаковым значением.

💙💚💛(Сердечко)💜💖💗💌

💙 ~= #goblue, #letsgoduke, #bleedblue, #ibleedblue, #worldautismawarenessday, #goduke, #beatduke, #autismspeaks, #autismawarenessday, #gobroncos, duke

💚 ~= #gogreen, loyals, #herballife, #happysaintpatricksday, 🍏, #stpats, 🍀, #jointhemovement, green, #hairskinnails, #happystpatricksday

💛 ~= 🌱 ,🍊 ,#springhassprung ,🔆 ,#springiscoming ,#springishere, #aprilshowers, #thinkspring, #hellospring, 🌻, #wildflower, #happyearthday

💜~= ✨, 🌀, 🔮, 🌟, 💄, 🎀, faldc, 💎, brassy, topaz, peachy ,purple, #thinkpink,☁, sparkle, 🌿, shimmer, sparkles, kaleidoscope, periwinkle, 🍄, greenish

💖 ~= gorl, 💮, cwd, s4s, aynmalik, spvm, ulee, 💧, 🈹, yulema, sfs, bvby, ɑnd, indirect, priv

💗 ~= ulitzer, 🎀, peachy, february’s, tulle, mackz, kendall’s, curvy, faldc, #dancewear, strapless, 👗, floral

💌 ~= 📫, ℹ, 📬, 📮, ✉, 📩, 💳, 💻, 📦, paypal, 📧, item, ⏬, 📱, inquire, orders, payment, 📄, 📋, 📲, deposit

Семантическая карта

Эмодзи становятся универсальным методом выражения эмоций. Чтобы увидеть отношения между ними, 100-мерное пространство, в котором находятся символы, можно при помощи алгоритма t-SNE превратить в двухмерное, где все эмодзи будут расположены по принципу смежности.

На карте появляются отдельные кластеры: «еда» (слева), «работа» (напротив, справа). «Обувь» (внизу справа) тесно связана с сумочками, в то время как купальники находятся ближе к воде и морским животным (вверху слева). Улитка оказывается рядом с «космосом» (вверху в центре), алкогольные напитки группируются вместе с боулингом (внизу слева). В центре мы видим толпу эмоций — «шок», «скука», «слезы», — среди которых почему-то оказывается «лягушка». Интересно, что, двигаясь вниз от центра, эмоции становятся добрее. Веселье ведет к счастью, счастье к любви, семье и свадьбе. (вывод: осторожнее с весельем).

Ксения Костомарова

Источник: Emojineering Part 1: Machine Learning for Emoji Trends


© «Системный Блокъ» — ваш дружелюбный Вергилий-проводник в девяти кругах Big Data.

Report Page