Garbage In Garbage Out!

Garbage In Garbage Out!

Hanane Alijani

🔍 اصطلاح معروف "Garbage in, garbage out" به این معناست که اگر کیفیت داده‌های ورودی پایین باشه، اگر ناقص باشن و یا دارای سوگیری باشن، خروجی مدل هم به‌همون نسبت بی‌ارزش یا حتی خطرناک خواهد بود؛ حتی اگر از پیشرفته‌ترین مدل‌ها استفاده کنیم!

💡چه مواردی در کیفیت داده تاثیرگذار هستن؟

۱. تعادل (Balance)

اگر در مجموعه‌داده ما فقط نمونه‌های خاصی بیشتر حضور داشته باشن (مثلاً۹۰٪ از داده‌ها متعلق به یک کلاس باشن)، مدل یاد می‌گیره که فقط همون کلاس رو پیش‌بینی کنه و بقیه رو نادیده بگیره.

۲. تنوع (Diversity)

داده‌ها باید بازتابی از دنیای واقعی باشن. مثلاً در مدل تشخیص چهره، اگر همه تصاویر از یک نژاد یا جنسیت باشن، نتیجه مدل نسبت به سایر گروه‌ها مغرضانه خواهد بود.

۳. پاک بودن (Cleanliness)

داده‌های دارای خطا، مقادیر گمشده، تکراری یا اشتباهات تایپی می‌تونن باعث آموزش نادرست مدل بشن.

۴. برچسب‌گذاری دقیق (Label quality)

در مدل‌های نظارت‌شده، اگر برچسب‌ها اشتباه باشن، مدل چیز نادرستی یاد می‌گیره. مثل یاد دادن اشتباه به یک دانش‌آموز.

🧠 یک مثال ساده:

فرض کنید می‌خوایم مدلی برای تشخیص اسپم در ایمیل‌ها بسازیم.

اگر بیشتر داده‌های ما مربوط به ایمیل‌های تبلیغاتی از ۱۰ سال پیش باشه، این مدل به‌درد دنیای امروز نمی‌خوره چون زبان و الگوهای اسپم عوض شدن.

📌 نتیجه‌گیری:

مهم نیست مدل چقدر پیچیده باشه؛ اگر داده‌ی ورودی مشکل‌دار باشه، نتیجه هم قابل‌اعتماد نیست.

پس در هوش مصنوعی، قبل از فکر کردن به مدل، به کیفیت داده‌ها فکر کن!

Report Page