JEPA
Mahdiآقامون یان لکون میگه حداقل تا ۱۰سال آینده خبری از AGI نیست. و بر این باوره که اگر هم ساخته بشه، از دل LLM و معماری Transformer بیرون نمیاد.
خودش داره روی JEPA کار میکنه. این مدل میتونه درک انتراعی (Abstract) خوبی از بُعد فیزیکی و مفهومی پدیدهها داشته باشه.
حالا مشکل LLM چیه؟ /
بیاید قبلش یک مثال بزنیم. شما دروازهبان هستید و در همین حال توپی به سمت شما پرتاب شده. شما در کسری از ثانیه چند کار انجام میدهید:
۱. توپ را مشاهده میکنید.
۲. در حافظهتان، میدانید که کجای دروازه هستید.
۳. استدلال میکنید که توپ به کدام سمت میآید.
۴. برنامهریزی میکنید که /
توپ را بگیرید. تمامی اینکارها به بهطور خلاصه توسط عملیات
- Vision
- Recall
- Reason
- Plan
در بخشهای مختلف مغز انجام میشه. حالا مشکل LLM و استراتژی Next Token Prediction اینه که در Reasoning و Planning ضعیف عمل میکنه.
از همه مهمتر، درکی از فیزیک و قوانین اون نداره. یعنی /
Image
نمیتونه درک کنه جاذبه واقعاً یعنی چی؟ نمیتونه برهمکنش نیروها، گرانش، اصطکاک، فشار و… درک کنه.
برخی دانشمندان مثل نوام چامسکی و لیکان، معتقدند که این درک انتزاعی از روی زبان و متن ایجاد نمیشه.
مثال سادهای هم داره، آیا پرواز پرنده که بطور ماهرانه و با پیروی از فیزیک انجام /
میشه، بر پایه زبان خاصیه؟ آیا این پرنده هنگام پرواز و تسلط بر نیروی جاذبه، در ذهن خود استدلال زبانمحور انجام میده؟
یا حتی خود انسان؛ وقتی از ما خواسته میشه ۲+۲ را محاسبه کنیم، آیا این محاسبات را وابسته به زبان خاصی (مثلاً فارسی) انجام میدیم؟
پس این مشخصه که استدلال واقعی /
مستقل از زبانه. حالا در مدل JEPA مخفف Joint Embedding Predictive Architecture، تلاش بر درک انتزاعی از مفاهیم جهانه، در این مدل که non-generative است، ویدئوها و تصاویری از واقعیت وجود داره که بخشی از آنها مخدوش یا مبهم میشن و مدل باید اون بخشهارو بازسازی کنه. تفاوتش با مدلها /
فعلی در قدرت یادگیری ویژگیهای معنایی و انتزاعی تصاویر و ویدئوها در سطوح بالاتره (نه پیکسل به پیکسل). لیکان معتقده که نسخه V-JEPA میتونه با دیدن ویدئوها، به درک خوبی از فیزیک و قوانین آن دست پیدا کنه. در ادامه با کمک یکسری روشها، میشه درک، استدلال و برنامهریزی این مدل رو /
در قالب متن درآورد. توجه کنید که در این روش استدلال، برنامهریزی و پاسخ از قبل بصورت آنی ایجاد میشه و بعد در قالب هر زبانی که بخواید ارائه میشه.
برعکس LLM که در هر مرحله، محتملترین واژه بعدی رو جستجو و ارائه میکنه و وابسته به زبانه.
این میتونه مسیر ما به AGI باشه.
منابع:
https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/
https://ai.meta.com/blog/yann-lecun-ai-model-i-jepa/