Investor's wiki

Terlalu pasang

Terlalu pasang

Apa Itu Overfitting?

Pemasangan lampau ialah ralat pemodelan dalam statistik yang berlaku apabila fungsi dijajarkan terlalu rapat dengan set titik data yang terhad. Akibatnya, model ini berguna hanya merujuk kepada set data awalnya dan bukan kepada mana-mana set data lain.

Overfitting model secara amnya mengambil bentuk membuat model yang terlalu kompleks untuk menerangkan idiosinkrasi dalam data yang dikaji. Pada hakikatnya, data yang sering dikaji mempunyai beberapa tahap ralat atau bunyi rawak di dalamnya. Oleh itu, percubaan untuk membuat model mematuhi terlalu rapat kepada data yang sedikit tidak tepat boleh menjangkiti model dengan ralat yang besar dan mengurangkan kuasa ramalannya.

Memahami Overfitting

Sebagai contoh, masalah biasa ialah menggunakan algoritma komputer untuk mencari pangkalan data data pasaran sejarah yang luas untuk mencari corak. Memandangkan kajian yang mencukupi, selalunya mungkin untuk membangunkan teorem terperinci yang kelihatan meramalkan pulangan dalam pasaran saham dengan ketepatan yang hampir.

Walau bagaimanapun, apabila digunakan pada data di luar sampel, teorem sebegini berkemungkinan terbukti hanya sebagai overfitting model kepada apa yang sebenarnya hanya kejadian kebetulan. Dalam semua kes, adalah penting untuk menguji model terhadap data yang berada di luar sampel yang digunakan untuk membangunkannya.

Cara Mencegah Overfitting

Cara untuk mengelakkan overfitting termasuk pengesahan silang, di mana data yang digunakan untuk melatih model dicincang menjadi lipatan atau sekatan dan model dijalankan untuk setiap lipatan. Kemudian, anggaran ralat keseluruhan dipuratakan. Kaedah lain termasuk penggabungjalinan: ramalan digabungkan daripada sekurang-kurangnya dua model berasingan, penambahan data, di mana set data yang tersedia dibuat untuk kelihatan pelbagai, dan penyederhanaan data, di mana model diperkemas untuk mengelak daripada pemasangan berlebihan.

Profesional kewangan mesti sentiasa sedar tentang bahaya pemasangan berlebihan atau kekurangan model berdasarkan data terhad. Model yang ideal haruslah seimbang.

Pemasangan Terlebih dalam Pembelajaran Mesin

Pemasangan berlebihan juga merupakan faktor dalam pembelajaran mesin. Ia mungkin muncul apabila mesin telah diajar untuk mengimbas data tertentu dengan satu cara, tetapi apabila proses yang sama digunakan pada set data baharu, hasilnya tidak betul. Ini adalah kerana ralat dalam model yang dibina, kerana ia berkemungkinan menunjukkan bias yang rendah dan varians yang tinggi. Model itu mungkin mempunyai ciri yang berlebihan atau bertindih, menyebabkan ia menjadi tidak perlu rumit dan oleh itu tidak berkesan.

Pemasangan berlebihan lwn. Kurang sesuai

Model yang terlalu dipasang mungkin terlalu rumit, menjadikannya tidak berkesan. Tetapi model juga boleh kurang dipasang, bermakna ia terlalu mudah, dengan terlalu sedikit ciri dan terlalu sedikit data untuk membina model yang berkesan. Model overfit mempunyai bias rendah dan varians tinggi, manakala model underfit adalah sebaliknya—ia mempunyai bias tinggi dan varians rendah. Menambah lebih banyak ciri pada model yang terlalu ringkas boleh membantu mengehadkan berat sebelah.

Contoh Overfitting

Sebagai contoh, universiti yang melihat kadar keciciran kolej yang lebih tinggi daripada yang diingini memutuskan ia mahu mencipta model untuk meramalkan kemungkinan bahawa pemohon akan berjaya sehingga tamat pengajian.

Untuk melakukan ini, universiti melatih model daripada set data 5,000 pemohon dan keputusan mereka. Ia kemudian menjalankan model pada set data asal—kumpulan 5,000 pemohon—dan model meramalkan keputusan dengan ketepatan 98%. Tetapi untuk menguji ketepatannya, mereka juga menjalankan model pada set data kedua—5,000 lagi pemohon. Walau bagaimanapun, kali ini, model itu hanya 50% tepat, kerana model itu terlalu sesuai dengan subset data yang sempit, dalam kes ini, 5,000 aplikasi pertama.

##Sorotan

  • Pemasangan lampau ialah ralat yang berlaku dalam pemodelan data akibat daripada fungsi tertentu yang menjajarkan terlalu rapat dengan set titik data yang minimum.

  • Apabila model telah dikompromi oleh overfitting, model mungkin kehilangan nilainya sebagai alat ramalan untuk melabur.

  • Model data juga boleh kurang dipasang, bermakna ia terlalu mudah, dengan terlalu sedikit titik data untuk berkesan.

  • Profesional kewangan berisiko memasang model secara berlebihan berdasarkan data terhad dan berakhir dengan keputusan yang cacat.

  • Pemasangan lampau adalah masalah yang lebih kerap daripada pemasangan yang kurang kemas dan lazimnya berlaku akibat cubaan mengelak pemasangan berlebihan.