🚀 The Ultimate Guide for Bias-Variance Trade-off

🚀 The Ultimate Guide for Bias-Variance Trade-off

Ardavan Modarres - linkedin.com/in/Ardavan-Modarres

📌 به‌‌ترین توضیح بصری برای مصالحه بایاس-واریانس (Bias-Variance Trade-off):

فرض کنید می‌خواهیم تابعی پیوسته را با استفاده از داده‌ها با استفاده از یادگیری ماشین فرا گرفته و تخمین بزنیم. می‌توان نشان داد که متوسط اختلاف بین تخمین و تابع اصلی که قصد تخمین آن را داریم را می‌توان به سه جمله بایاس، واریانس و نویز تفکیک کرد.

🔹 بایاس بیانگر اختلاف به‌ترین مدلی که می‌توانیم از داده‌ها یاد بگیریم با تابع اصلی که قصد تخمین آن را داریم می‌باشد. اگر مدل استفاده شده خیلی ساده باشد متوسط اختلاف تخمین از تابع هدف زیاد خواهد بود و در نتیجه تخمین ما بایاس زیادی خواهد داشت.

🔹 واریانس نشان دهنده حساسیت مدل به مجموعه انتخاب شده برای آموزش مدل یادگیری ماشین می‌باشد. واریانس زیاد در تخمین نشان دهنده وابستگی شدید مدل فرا گرفته شده به مجموعه داده استفاده شده برای آموزش و تعمیم‌پذیری بسیار ضعیف مدل می‌باشد. با یک مثال دقیق‌تر توضیح می‌دم.

🧩 فرض کنید می‌خواهیم تابع سینوس را در بازه‌ای مشخص با استفاده از داده‌هایی که از همین تابع ایجاد شده‌اند بدون دانستن اینکه داده‌ها از تابع سینوس ایجاد شده‌اند توسط یک مدل یاد بگیریم و برای این یادگیری فقط دو داده داریم. برای یادگیری تابع سینوس یک بار از مدل تابع ثابت و یک بار از مدل تابع خطی استفاده می‌کنیم. با هر بار تکرار فرایند یادگیری، به یک مدل بهینه می‌رسیم که با داده‌ای که در اختیار داریم به‌ترین تقریب از تابع تولید کننده داده‌ها (تابع سینوس) را برای ما ایجاد می‌کند. اگر این آزمایش را به تعداد دفعات زیادی با انتخاب تصادفی فقط ۲ داده که توسط تابع سینوس تولید شده‌اند تکرار کنیم به تعداد زیادی مدل بهینه می‌رسیم. با محاسبه میانگین این مدل‌های بهینه به Expected Hypothesis که نماینده‌ای از بهترین تخمین از تابع سینوس در فضای فرضیه انتخاب شده‌است می‌رسیم. لازم به ذکر است که Expected Hypothesis در سطر اول نمودار ارائه شده قابل مشاهده است. همچنین با داشتن Expected Hypothesis می‌توانیم واریانس مدل‌های بدست آمده حول میانگین‌ را نیز حساب کنیم. واریانس تخمین در سطر دوم نمودار قابل مشاهده‌ است.

🔍 همانطور که قابل حدس است تابع ثابت به دلیل سادگی بیش از حد نخواهد توانست تخمین خوبی از تابع سینوس باشد (تخمین بایاس زیادی خواهد داشت). اما مشاهده می‌شود که تخمین تابع سینوس با تابع ثابت واریانس کمی خواهد داشت. همچنین اگرچه تابع خطی درجات آزادی (شیب و عرض از مبدا) بیشتری نسبت به درجات آزادی تابع ثابت (عرض از مبدا) دارد و می‌تواند تخمین به‌تری از تابع سینوس ارائه کند اما با داده محدود مشاهده می‌شود که واریانس تخمین با تابع خطی بسیار بسیار بیشتر از واریانس تخمین با تابع ثابت است. با توجه به اینکه متوسط خطا به سه جمله بایاس، واریانس و نویز تجزیه شد و با توجه به اهمیت برقراری یک مصالحه خوب بین بایاس و واریانس برای دست‌یابی به یک تخمین خوب، مشخص می‌شود در صورت کمبود داده استفاده از مدل‌های پیچیده با درجات آزادی بیشتر منجر به تخمینی با واریانس زیاد، حساسیت شدید به مجموعه داده مورد استفاده برای آموزش مدل و تعمیم‌دهی بسیار ضعیف می‌شود. اثر افزایش تعداد داده‌های آموزش بر واریانس تخمین رو می‌تونید در این پست مشاهده کنید.


🤗🏆 امیدوارم این مطلب براتون مفید بوده باشه. در صورت تمایل می‌توانید در کانال ما عضو بشید و مطالب بیشتر رو دریافت کنید.

Follow us for daily doses of AI 👊😉.
@NeuralBlackMagic

Report Page