Tokenlash va Vektorlash

Tokenlash va Vektorlash

Turanian Crow

Bismillohir rahmonir rahim

Kirish

Hozirda Sun'iy Intelektlarning inson hayotidagi ahamiyati o'sib borishi bilan, unga bo'lgan qiziqish ham ortib boradi va bu tabiiy. Shu sababli insonlarga ular qanday ishlashi haqida imkon qilolganimizcha tushunturishga va yoritishga, shu bilan birga O'zbek tilida Sun'iy Intelektga doir ma`lumotlarni ko'paytirishga harakat qilyapmiz. Ushbu xabarnoma SI (Sun'iy Intelekt) siz yozdan xabarlarni qanday tushunadi degan savoling aynan so'z manolarini tushunish qismiga e`tibor qaratadi.

Xa'to va kamchiliklar uchun mazur tutgaysiz va harakatimizni qadirlaysiz degan umiddamiz.

Savralhadan payqaganingizdek e'tiboringiz va vaqtingizni Tabiiy Til Jarayonining Katta Til Modellari (en: NLP - Natural Language Processing, LLM - Large Language models) ichiga kiruvchi Tokenlash va Vektorlash haqida o'rganish uchun bag'ishlamoqchimiz. Ularning nima ekanligi, qanday ishlashi va nima uchun kerak ekanligi haqida bir qator ko'rib chiqmoqchimiz.

Tokenlash

Tokenlar hozirgi Katta Til Modellarining asosiy va yoki fundamental o'lchov birligidir. KTM (Katta Til Model)lar kiritilgan yozuv ko'rinishidagi xabarlarni birma bir tokenlarga bo'lib chiqadi. Xo'sh nima asosida bo'ladi? Qandaydur tizimi mavjudmi? Ha, mavjud. berilgan ma`lumotni tokenlarga bo'lishdan avval, tokenlar anniq bo'lshi kerak. Shu sababli, avvalo Tokenlovchi tanlanadi. Tokenlovchi yangi yaralishi yoki tayyor xizmatni ishlatishi mumkin. Ayni vaqtda tokenlovchini yaratish haqida qisqacha aytib o'tsak va buning uchun so'zlar asosida ishlovchi tizimni tanladik.

Tokenlovchini so'z-boylik lug'at deb tasavvur qilishingiz mumkin. Ushbu log'atda qanchalik so'zlar ko'p bo'lsa, lug'at shunchalik foydalanish diorasi katta va samarali. Avvalam bor shu lug'atni tuzib olish uchun bizga bir qancha gaplar kerak. Buning uchun kun.uz saytidan kichik maqoladan parcha oldik.

Qarorga ko‘ra, Turkiy davlatlar tashkilotiga a’zo davlatlar hukumatlari o‘rtasida raqamli iqtisodiyot sohasida hamkorlik to‘g‘risidagi bitim tasdiqlandi. Bitim 2024 yil 6 noyabr kuni Bishkek shahrida imzolangan.

Yuqorida ko'rsatilgan parcha bizga asosiy axborot rolini o'ynaydi. Endilikda qilinadigan ish ko'rsatilgan axborot orqali juda kichik miqyosda tokenizer yaralishini qisqacha ko'rish.

Biz tanlagan so'zlar asosida ishlovchi tokenlovchi har bir so'zlarni, sonlarni va aloxida belgilarni ajratib oladi. Yuqoridagi axborot bilan esa quyidagicha ishlaydi:

Qarorga | ko'ra | , | Turkiy | davlarlar | ...

Barcha so'z va belgilar olingach, xatolilarga sabab bo'luvchi va resurslarni uvol qilivchi ikkilangan ma`lumotlar olib tashlanadi. Buning uchun avval hammasi kichik harflar tizimiga o'tkazilib so'ng ikkilamchilari yo'q qilinadi. Natija esa birda endi takrorlanmagan o'ziga xos so'z va belgilar bor.

Endilikdagi talab shu belgi va so'zlarga o'ziga xos tartib raqam berib chiqish.

1 - qarorga
2 - ko'ra
3 - ,
4 - turkiy
5 - davlatlar
...

Oxirgi qadam esa Nazoratchi Tokenlar (en: Control Tokens). Nazorat tokenlari modellarga malum bir holat haqida signal berish uchun ishlatiladi. Mison uchun:

[INST] [/INST] yoki [TOOL_CALLS] [/TOOL_CALLS].

INST - qo'llanma berilayotganini ko'rsatish uchun.
TOOL_CALLS - jihozni ishlatish (malum bir xizmat ma`nosida ham kelishi mumkin.)

Yuqorida ko'rsatilgan holat juda sodda holatiga misol edi. Ammo hozirgi juda yuqori aniqlikdagi modellar uchun ancha murakkab va mukammal muqobillar chiqib ketgan. Ular orasida eng mashhurlari sifatida so'z bo'laklari (en: subword) va yoki baytlar bilan ishlovchi turlari mavjud.

Vektorlash (yoki Moslashtirish | en: Embedding)

Vektorlash Katta Til Modellari va Tabiiy Til Jarayonida aynan ma`noni tushunish uchun va ma`no bilan ishlash uchun so'zlarni raqamlar, aniqroq qilib aytganda matimatik Vektorlarga o'tkazish orqali ishlaydi. Xo'sh, nega yana vektorlar ishlatish kerak? Birinchi bo'lib qarab o'tgan uslub so'zlarni raqamlashtirish uchun edi, lekin sementik (en: Semantic) jihatdan (ma`no jihatdan deb aytish ham mumkin) so'zni ochib berish bu uning asosiy mohiyatini ochish demakdir. Shu sababli ham bu uchun aloxida vektorlash yaratildi. Nega aynan vektorlash? Chunki vektorlash orqali so'zga turli nuqtalarda baho berish mumkin, masalan: so'zning takrorlanishi, boshqa so'zlar bilan bog'lanishi va shu kabi yana juda ko'plab parametrlar.

So'zlarni ma`noviy raqamlarda moslashtirish ustida ham ko'plab mehnat va tadqiqotlar qilingan. Shu sababli ham turli xil talqinlari chiqgan.

Bu uslubning otasi sifatida TF-IDF (en:Term Frequency–Inverse Document Frequency) chiqarilgan edi.

TF-IDF aynan bir axborotda keltirilgan va juda ko'p takrorlangan so'zlarga e`tibor qaratadi. Masalan telefon haqidagi ma`lumotlarda "old kamera", "orqa kamera", "quvvatlanish vaqti" kabi ma`lumotlar boshqa ma`lumotlarga nisbatan juda ko'p ishlatiladi, demak umumiy mazmun shu so'zlarga ham doir deb hisoblash mumkin.

Keyinchalik 2013-yil Google kompaniyasi tomonidan ilk bor so'zlarni vektorlarga o'girish taqdim etildi (Word2Vec).

Aynan shu texnalogik rivojlanish hozirgi so'z va gaplarning mazmun mohoyatini o'chib berishda asosiy ro'lni o'ynadi.

Undan bir yil o'tgan Standford tomonidan GloVe (en: Global Vectors) taqdim etildi.

GloVe mohiyatan Word2Vec kabi ishlasada ishlay olish doirasi juda katta va bir qancha rivojlanishlar mavjud edi. GloVe hattoki kam takrorlanuvchi so'zlarning mazmuni unsida ham ancha yaxshi natijalar ko'satgan.

2016 yil Facebook kompaniyasi o'zising FaskText uslubini taqdim etdi.

Umuman olganda bu ham Word2Vec kabi ishlaydi. Farqli tarafi esa FaskText so'zlarga ancha chuqurroq tushadi va shu sababli ham boshqalarga nisbatan ancha kichik ma`lumotlar bilan ham bemalol ishlay olish imkoniga ega. Bu esa kam resurslar bilan katta natijaga erishish imkonini beradi.

Xulosa

Hozirda B2B va hatto B2C sektorlarda muammolarga yechim berayotgan va imkoniyatlar yaratayotgan Tabbiy Til Jarayoni va Katta Til Modellari asosida Tokenlash va Vektorlash jarayonlari mavjud. Umumiy holatda ular ko'zga tashlanmasada so'zlar va so'z ma`nolari bilan ishlashdagi natijalar aynan Tokenlash va Vektorlash tizimlarining samarasidir.

Havolalar

  1. christophergs
  2. mistral.ai
  3. kun.uz
  4. neptune.ai
  5. deepset.ai
  6. dl.acm.org

Report Page