ما هو الإفراط في التكيّف؟
الإفراط في التكيّف هو خطأ في النمذجة في الإحصاءات يحدث عندما تكون وظيفة ما متوافقة بشكل مفرط مع مجموعة محدودة من نقاط البيانات. ونتيجة لذلك، يكون النموذج مفيدًا فقط عند الإشارة إلى مجموعة البيانات الأولية الخاصة به، وليس لأي مجموعات بيانات أخرى.
عادةً ما يأخذ الإفراط في ملاءمة النموذج شكل إنشاء نموذج معقد للغاية لشرح الخصائص الفريدة في البيانات قيد الدراسة. في الواقع، غالبًا ما تحتوي البيانات المدروسة على درجة معينة من الخطأ أو الضوضاء العشوائية. وبالتالي، فإن محاولة جعل النموذج يتوافق بشكل وثيق جدًا مع البيانات غير الدقيقة قليلاً يمكن أن يصيب النموذج بأخطاء كبيرة ويقلل من قوته التنبؤية.
النقاط الرئيسية
- الإفراط في التكيّف هو خطأ يحدث في نمذجة البيانات نتيجة لتوافق وظيفة معينة بشكل وثيق جدًا مع مجموعة صغيرة من نقاط البيانات.
- يواجه المحترفون الماليون خطر الإفراط في ملاءمة نموذج استنادًا إلى بيانات محدودة، مما يؤدي إلى نتائج معيبة.
- عندما يتم اختراق نموذج بسبب الإفراط في التكيّف، قد يفقد النموذج قيمته كأداة تنبؤية للاستثمار.
- يمكن أن يكون نموذج البيانات غير ملائم أيضًا، مما يعني أنه بسيط جدًا، مع عدد قليل جدًا من النقاط البيانية ليكون فعالًا.
- الإفراط في التكيّف هو مشكلة أكثر شيوعًا من نقص التكيّف وعادةً ما يحدث نتيجة محاولة تجنب الإفراط في التكيّف.
فهم الإفراط في التخصيص
على سبيل المثال، مشكلة شائعة هي استخدام الخوارزميات الحاسوبية للبحث في قواعد بيانات واسعة من بيانات السوق التاريخية من أجل العثور على أنماط. مع الدراسة الكافية، غالبًا ما يكون من الممكن تطوير نظريات معقدة تبدو وكأنها تتنبأ بالعوائد في سوق الأسهم بدقة كبيرة.
ومع ذلك، عند تطبيق هذه النظريات على بيانات خارج العينة، قد يتبين أنها مجرد إفراط في ملاءمة النموذج لما كان في الواقع مجرد أحداث عشوائية. في جميع الحالات، من المهم اختبار النموذج مقابل بيانات خارج العينة التي تم استخدامها لتطويره.
كيفية منع الإفراط في التكيّف
طرق منع الإفراط في التكيّف تشمل التحقق المتقاطع، حيث يتم تقسيم البيانات المستخدمة لتدريب النموذج إلى طيات أو أقسام ويتم تشغيل النموذج لكل طية. ثم يتم حساب متوسط تقدير الخطأ الإجمالي. تشمل الطرق الأخرى التجميع: حيث يتم دمج التنبؤات من نموذجين منفصلين على الأقل، وتوسيع البيانات، حيث يتم جعل مجموعة البيانات المتاحة تبدو متنوعة، وتبسيط البيانات، حيث يتم تبسيط النموذج لتجنب الإفراط في التكيّف.
يجب على المتخصصين الماليين دائمًا أن يكونوا على دراية بمخاطر الإفراط في ملاءمة النموذج أو عدم ملاءمته بناءً على بيانات محدودة. يجب أن يكون النموذج المثالي متوازنًا.
الإفراط في التخصيص في تعلم الآلة
الإفراط في التكيّف هو أيضًا عامل في تعلم الآلة. قد يظهر عندما يتم تعليم الآلة البحث عن بيانات محددة بطريقة معينة، ولكن عندما يتم تطبيق نفس العملية على مجموعة جديدة من البيانات، تكون النتائج غير صحيحة. يحدث هذا بسبب الأخطاء في النموذج الذي تم بناؤه، حيث يُظهر غالبًا تحيزًا منخفضًا وتباينًا عاليًا. قد يكون النموذج قد احتوى على ميزات زائدة أو متداخلة، مما يجعله معقدًا بلا داعٍ وبالتالي غير فعال.
الإفراط في التخصيص مقابل التقليل في التخصيص
قد يكون النموذج الذي يعاني من الإفراط في التخصيص معقدًا للغاية، مما يجعله غير فعال. ولكن يمكن أيضًا أن يكون النموذج غير مخصص بشكل كافٍ، مما يعني أنه بسيط جدًا، مع عدد قليل جدًا من الميزات وبيانات قليلة جدًا لبناء نموذج فعال. النموذج الذي يعاني من الإفراط في التخصيص لديه تحيز منخفض وتباين مرتفع، بينما النموذج غير المخصص بشكل كافٍ هو العكس - لديه تحيز مرتفع وتباين منخفض. يمكن أن يساعد إضافة المزيد من الميزات إلى نموذج بسيط جدًا في الحد من التحيز.
مثال على الإفراط في التخصيص
على سبيل المثال، إذا كانت إحدى الجامعات تشهد معدّل تسرب من الكلية أعلى مما ترغب، فإنها تقرر أنها تريد إنشاء نموذج للتنبؤ باحتمالية أن يكمل المتقدم دراسته حتى التخرج.
للقيام بذلك، تقوم الجامعة بتدريب نموذج باستخدام مجموعة بيانات مكونة من 5,000 متقدم ونتائجهم. ثم تقوم بتشغيل النموذج على مجموعة البيانات الأصلية - مجموعة المتقدمين البالغ عددهم 5,000 - ويتنبأ النموذج بالنتيجة بدقة تصل إلى 98%. ولكن لاختبار دقته، يقومون أيضًا بتشغيل النموذج على مجموعة بيانات ثانية - 5,000 متقدم إضافي. ومع ذلك، في هذه المرة، يكون النموذج دقيقًا بنسبة 50% فقط، حيث كان النموذج ملائمًا بشكل مفرط لمجموعة بيانات ضيقة، في هذه الحالة، التطبيقات الأولى البالغ عددها 5,000.