Garbage In Garbage Out!
Hanane Alijani🔍 اصطلاح معروف "Garbage in, garbage out" به این معناست که اگر کیفیت دادههای ورودی پایین باشه، اگر ناقص باشن و یا دارای سوگیری باشن، خروجی مدل هم بههمون نسبت بیارزش یا حتی خطرناک خواهد بود؛ حتی اگر از پیشرفتهترین مدلها استفاده کنیم!
💡چه مواردی در کیفیت داده تاثیرگذار هستن؟
۱. تعادل (Balance)
اگر در مجموعهداده ما فقط نمونههای خاصی بیشتر حضور داشته باشن (مثلاً۹۰٪ از دادهها متعلق به یک کلاس باشن)، مدل یاد میگیره که فقط همون کلاس رو پیشبینی کنه و بقیه رو نادیده بگیره.
۲. تنوع (Diversity)
دادهها باید بازتابی از دنیای واقعی باشن. مثلاً در مدل تشخیص چهره، اگر همه تصاویر از یک نژاد یا جنسیت باشن، نتیجه مدل نسبت به سایر گروهها مغرضانه خواهد بود.
۳. پاک بودن (Cleanliness)
دادههای دارای خطا، مقادیر گمشده، تکراری یا اشتباهات تایپی میتونن باعث آموزش نادرست مدل بشن.
۴. برچسبگذاری دقیق (Label quality)
در مدلهای نظارتشده، اگر برچسبها اشتباه باشن، مدل چیز نادرستی یاد میگیره. مثل یاد دادن اشتباه به یک دانشآموز.
🧠 یک مثال ساده:
فرض کنید میخوایم مدلی برای تشخیص اسپم در ایمیلها بسازیم.
اگر بیشتر دادههای ما مربوط به ایمیلهای تبلیغاتی از ۱۰ سال پیش باشه، این مدل بهدرد دنیای امروز نمیخوره چون زبان و الگوهای اسپم عوض شدن.
📌 نتیجهگیری:
مهم نیست مدل چقدر پیچیده باشه؛ اگر دادهی ورودی مشکلدار باشه، نتیجه هم قابلاعتماد نیست.
پس در هوش مصنوعی، قبل از فکر کردن به مدل، به کیفیت دادهها فکر کن!