🚀 The Ultimate Guide for Bias-Variance Trade-off
Ardavan Modarres - linkedin.com/in/Ardavan-Modarres📌 بهترین توضیح بصری برای مصالحه بایاس-واریانس (Bias-Variance Trade-off):
فرض کنید میخواهیم تابعی پیوسته را با استفاده از دادهها با استفاده از یادگیری ماشین فرا گرفته و تخمین بزنیم. میتوان نشان داد که متوسط اختلاف بین تخمین و تابع اصلی که قصد تخمین آن را داریم را میتوان به سه جمله بایاس، واریانس و نویز تفکیک کرد.
🔹 بایاس بیانگر اختلاف بهترین مدلی که میتوانیم از دادهها یاد بگیریم با تابع اصلی که قصد تخمین آن را داریم میباشد. اگر مدل استفاده شده خیلی ساده باشد متوسط اختلاف تخمین از تابع هدف زیاد خواهد بود و در نتیجه تخمین ما بایاس زیادی خواهد داشت.
🔹 واریانس نشان دهنده حساسیت مدل به مجموعه انتخاب شده برای آموزش مدل یادگیری ماشین میباشد. واریانس زیاد در تخمین نشان دهنده وابستگی شدید مدل فرا گرفته شده به مجموعه داده استفاده شده برای آموزش و تعمیمپذیری بسیار ضعیف مدل میباشد. با یک مثال دقیقتر توضیح میدم.
🧩 فرض کنید میخواهیم تابع سینوس را در بازهای مشخص با استفاده از دادههایی که از همین تابع ایجاد شدهاند بدون دانستن اینکه دادهها از تابع سینوس ایجاد شدهاند توسط یک مدل یاد بگیریم و برای این یادگیری فقط دو داده داریم. برای یادگیری تابع سینوس یک بار از مدل تابع ثابت و یک بار از مدل تابع خطی استفاده میکنیم. با هر بار تکرار فرایند یادگیری، به یک مدل بهینه میرسیم که با دادهای که در اختیار داریم بهترین تقریب از تابع تولید کننده دادهها (تابع سینوس) را برای ما ایجاد میکند. اگر این آزمایش را به تعداد دفعات زیادی با انتخاب تصادفی فقط ۲ داده که توسط تابع سینوس تولید شدهاند تکرار کنیم به تعداد زیادی مدل بهینه میرسیم. با محاسبه میانگین این مدلهای بهینه به Expected Hypothesis که نمایندهای از بهترین تخمین از تابع سینوس در فضای فرضیه انتخاب شدهاست میرسیم. لازم به ذکر است که Expected Hypothesis در سطر اول نمودار ارائه شده قابل مشاهده است. همچنین با داشتن Expected Hypothesis میتوانیم واریانس مدلهای بدست آمده حول میانگین را نیز حساب کنیم. واریانس تخمین در سطر دوم نمودار قابل مشاهده است.
🔍 همانطور که قابل حدس است تابع ثابت به دلیل سادگی بیش از حد نخواهد توانست تخمین خوبی از تابع سینوس باشد (تخمین بایاس زیادی خواهد داشت). اما مشاهده میشود که تخمین تابع سینوس با تابع ثابت واریانس کمی خواهد داشت. همچنین اگرچه تابع خطی درجات آزادی (شیب و عرض از مبدا) بیشتری نسبت به درجات آزادی تابع ثابت (عرض از مبدا) دارد و میتواند تخمین بهتری از تابع سینوس ارائه کند اما با داده محدود مشاهده میشود که واریانس تخمین با تابع خطی بسیار بسیار بیشتر از واریانس تخمین با تابع ثابت است. با توجه به اینکه متوسط خطا به سه جمله بایاس، واریانس و نویز تجزیه شد و با توجه به اهمیت برقراری یک مصالحه خوب بین بایاس و واریانس برای دستیابی به یک تخمین خوب، مشخص میشود در صورت کمبود داده استفاده از مدلهای پیچیده با درجات آزادی بیشتر منجر به تخمینی با واریانس زیاد، حساسیت شدید به مجموعه داده مورد استفاده برای آموزش مدل و تعمیمدهی بسیار ضعیف میشود. اثر افزایش تعداد دادههای آموزش بر واریانس تخمین رو میتونید در این پست مشاهده کنید.
🤗🏆 امیدوارم این مطلب براتون مفید بوده باشه. در صورت تمایل میتوانید در کانال ما عضو بشید و مطالب بیشتر رو دریافت کنید.
Follow us for daily doses of AI 👊😉.
@NeuralBlackMagic