Investor's wiki

تجهيز

تجهيز

ما هو overfitting؟

Overfitting هو خطأ في النمذجة في الإحصائيات يحدث عندما تكون إحدى الوظائف متقاربة للغاية مع مجموعة محدودة من نقاط البيانات. نتيجة لذلك ، يكون النموذج مفيدًا في الإشارة فقط إلى مجموعة البيانات الأولية الخاصة به ، وليس إلى أي مجموعات بيانات أخرى.

عادةً ما يتخذ الشكل الإضافي للنموذج شكل صنع نموذج شديد التعقيد لشرح الخصائص المميزة في البيانات قيد الدراسة. في الواقع ، غالبًا ما تحتوي البيانات المدروسة على درجة معينة من الخطأ أو الضوضاء العشوائية بداخلها. وبالتالي ، فإن محاولة جعل النموذج يتوافق بشكل وثيق جدًا مع البيانات غير الدقيقة قليلاً يمكن أن يصيب النموذج بأخطاء كبيرة ويقلل من قدرته التنبؤية.

فهم overfitting

على سبيل المثال ، هناك مشكلة شائعة تتمثل في استخدام خوارزميات الكمبيوتر للبحث في قواعد بيانات واسعة النطاق لبيانات السوق التاريخية من أجل العثور على الأنماط. بالنظر إلى الدراسة الكافية ، غالبًا ما يكون من الممكن تطوير نظريات متقنة يبدو أنها تتنبأ بالعوائد في سوق الأوراق المالية بدقة شديدة.

ومع ذلك ، عند تطبيقها على البيانات خارج العينة ، قد تثبت هذه النظريات على الأرجح أنها مجرد فرط ملاءمة لنموذج لما كان في الواقع مجرد حوادث صدفة. في جميع الحالات ، من المهم اختبار نموذج مقابل البيانات الموجودة خارج العينة المستخدمة لتطويره.

كيفية منع فرط التجهيز

تتضمن طرق منع فرط الملاءمة التحقق المتقاطع ، حيث يتم تقطيع البيانات المستخدمة لتدريب النموذج إلى طيات أو أقسام ويتم تشغيل النموذج لكل طية. بعد ذلك ، يتم حساب متوسط تقدير الخطأ الإجمالي. تشمل الطرق الأخرى التجميع: يتم الجمع بين التنبؤات من نموذجين منفصلين على الأقل ، وزيادة البيانات ، حيث يتم جعل مجموعة البيانات المتاحة تبدو متنوعة ، وتبسيط البيانات ، حيث يتم تبسيط النموذج لتجنب الإفراط في التجهيز.

يجب أن يكون المهنيون الماليون دائمًا على دراية بمخاطر التجهيز الزائد أو عدم ملاءمة نموذج بناءً على بيانات محدودة. يجب أن يكون النموذج المثالي متوازنًا.

التجهيز في التعلم الآلي

يعد التجهيز الإضافي أيضًا عاملاً في التعلم الآلي. قد ينشأ عندما يتم تعليم الجهاز لمسح بيانات معينة بطريقة واحدة ، ولكن عندما يتم تطبيق نفس العملية على مجموعة جديدة من البيانات ، فإن النتائج غير صحيحة. هذا بسبب أخطاء في النموذج الذي تم إنشاؤه ، حيث من المحتمل أن يظهر تحيزًا منخفضًا وتباينًا مرتفعًا. قد يكون للنموذج ميزات زائدة عن الحاجة أو متداخلة ، مما يؤدي إلى تعقيده بلا داع وبالتالي غير فعال.

التجهيز مقابل المقاس المناسب

قد يكون النموذج الذي تم تجهيزه بشكل زائد معقدًا للغاية ، مما يجعله غير فعال. ولكن يمكن أيضًا أن يكون النموذج غير ملائم ، مما يعني أنه بسيط للغاية ، مع ميزات قليلة جدًا وبيانات قليلة جدًا لبناء نموذج فعال. يتميز نموذج overfit بانحياز منخفض وتباين مرتفع ، في حين أن نموذج underfit هو عكس ذلك - فهو يتميز بدرجة عالية من التحيز والتباين المنخفض. يمكن أن تساعد إضافة المزيد من الميزات إلى نموذج شديد البساطة في الحد من التحيز.

مثال التجهيز

على سبيل المثال ، الجامعة التي تشهد معدل تسرب من الكلية أعلى مما ترغب ، تقرر أنها تريد إنشاء نموذج للتنبؤ باحتمالية أن يتقدم مقدم الطلب طوال الطريق حتى التخرج.

للقيام بذلك ، تدرب الجامعة نموذجًا من مجموعة بيانات تضم 5000 متقدم ونتائجهم. ثم يقوم بتشغيل النموذج على مجموعة البيانات الأصلية - مجموعة من 5000 متقدم - ويتنبأ النموذج بالنتيجة بدقة 98٪. ولكن لاختبار دقتها ، قاموا أيضًا بتشغيل النموذج على مجموعة بيانات ثانية - 5000 متقدم آخر. ومع ذلك ، هذه المرة ، كان النموذج دقيقًا بنسبة 50 ٪ فقط ، حيث كان النموذج مناسبًا جدًا لمجموعة فرعية ضيقة من البيانات ، في هذه الحالة ، أول 5000 تطبيق.

يسلط الضوء

  • التخصيص الزائد هو خطأ يحدث في نمذجة البيانات كنتيجة لوظيفة معينة محاذاة بشكل وثيق للغاية مع الحد الأدنى من مجموعة نقاط البيانات.

  • عندما يتم اختراق النموذج عن طريق التجهيز الزائد ، فقد يفقد النموذج قيمته كأداة تنبؤية للاستثمار.

  • يمكن أيضًا أن يكون نموذج البيانات غير ملائم ، مما يعني أنه بسيط للغاية ، مع وجود عدد قليل جدًا من نقاط البيانات ليكون فعالاً.

  • يتعرض المهنيون الماليون لخطر تعديل نموذج يعتمد على بيانات محدودة وينتهي بهم الأمر بنتائج معيبة.

  • يعد فرط الملاءمة مشكلة أكثر شيوعًا من نقص الملاءمة ويحدث عادةً نتيجة لمحاولة تجنب فرط التجهيز.