JEPA

Mahdi

آقامون یان لکون می‌گه حداقل تا ۱۰سال آینده خبری از AGI نیست. و بر این باوره که اگر هم ساخته بشه، از دل LLM و معماری Transformer بیرون نمیاد.

خودش داره روی JEPA کار می‌کنه. این مدل می‌تونه درک انتراعی (Abstract) خوبی از بُعد فیزیکی و مفهومی پدیده‌ها داشته باشه.

حالا مشکل LLM چیه؟ /

بیاید قبلش یک مثال بزنیم. شما دروازه‌بان هستید و در همین حال توپی به سمت شما پرتاب شده. شما در کسری از ثانیه چند کار انجام می‌دهید:

۱. توپ را مشاهده می‌کنید.

۲. ‌در حافظه‌تان، می‌دانید که کجای دروازه هستید.

۳. استدلال می‌کنید که توپ به کدام سمت می‌آید.

۴. برنامه‌ریزی می‌کنید که /

توپ را بگیرید. تمامی این‌کارها به به‌طور خلاصه توسط‌ عملیات

- Vision

- Recall

- Reason

- Plan

در بخش‌های مختلف مغز انجام می‌شه. حالا مشکل LLM و استراتژی Next Token Prediction اینه که در Reasoning و Planning ضعیف عمل می‌کنه.

از همه مهم‌تر، درکی از فیزیک و قوانین اون نداره. یعنی /

Image

نمی‌تونه درک کنه جاذبه واقعاً یعنی چی؟ نمی‌تونه برهم‌کنش نیروها، گرانش، اصطکاک، فشار و… درک کنه.

برخی دانشمندان مثل نوام چامسکی و لیکان، معتقدند که این درک انتزاعی از روی زبان و متن ایجاد نمی‌شه.

مثال ساده‌ای هم داره، آیا پرواز پرنده که بطور ماهرانه و با پیروی از فیزیک انجام /

می‌شه، بر پایه زبان خاصیه؟ آیا این پرنده هنگام پرواز و تسلط بر نیروی جاذبه، در ذهن خود استدلال زبان‌‌محور انجام می‌ده؟

یا حتی خود انسان؛ وقتی از ما خواسته می‌شه ۲+۲ را محاسبه کنیم، آیا این محاسبات را وابسته به زبان خاصی (مثلاً فارسی) انجام می‌دیم؟

پس این مشخصه که استدلال واقعی /

مستقل از زبانه. حالا در مدل JEPA مخفف Joint Embedding Predictive Architecture، تلاش بر درک انتزاعی از مفاهیم جهانه، در این مدل که non-generative است، ویدئوها و تصاویری از واقعیت وجود داره که بخشی از آن‌ها مخدوش یا مبهم می‌شن و مدل باید اون بخش‌هارو بازسازی کنه. تفاوتش با مدل‌ها /

فعلی در قدرت یادگیری ویژگی‌های معنایی و انتزاعی تصاویر و ویدئوها در سطوح بالاتره (نه پیکسل به پیکسل). لیکان معتقده که نسخه V-JEPA می‌تونه با دیدن ویدئوها، به درک خوبی از فیزیک و قوانین آن دست پیدا کنه. در ادامه با کمک یکسری روش‌ها، می‌شه درک، استدلال و برنامه‌ریزی این مدل رو /

در قالب متن درآورد. توجه کنید که در این روش استدلال، برنامه‌ریزی و پاسخ از قبل بصورت آنی ایجاد می‌شه و بعد در قالب هر زبانی که بخواید ارائه می‌شه.

برعکس LLM که در هر مرحله، محتمل‌ترین واژه بعدی رو جستجو و ارائه می‌کنه و وابسته به زبانه.

این می‌تونه مسیر ما به AGI باشه.

لینک توئیت

منابع:

https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/

https://ai.meta.com/blog/yann-lecun-ai-model-i-jepa/

JEPA

Report Page