Pengelasan statistik

Pengelasan statistik merupakan satu prosedur statistik di mana butiran diletakkan ke dalam kumpulan berdasarkan maklumat kuantitatif mengenai ciri-ciri yang terdapat pada butiran-butiran tersebut (dirujuk sebagai sifat, pembolehubah, ciri dll.) dan berdasarkan set latihan sebelum itu.

Secara rasmi: masalah ini boleh dinyatakan seperti berikut: diberikan data latihan { ( x 1 , y 1 ) , , ( x n , y n ) } {\displaystyle \{(\mathbf {x_{1}} ,y_{1}),\dots ,(\mathbf {x_{n}} ,y_{n})\}} hasilkan satu pengelas h : X Y {\displaystyle h:{\mathcal {X}}\rightarrow {\mathcal {Y}}} yang memetakan objek x X {\displaystyle \mathbf {x} \in {\mathcal {X}}} kepada label pengelasannya y Y {\displaystyle y\in {\mathcal {Y}}} . Sebagai contoh, jika masalahnya ialah menuras spam, maka x i {\displaystyle \mathbf {x_{i}} } ialah sejenis gambaran e-mel dan y {\displaystyle y} adalah sama ada "Spam" atau "Bukan-Spam".

Algoritma pengelasan statistik biasanya digunakan dalam sistem pengecaman pola.

Teknik pengelasan statistik

Sementara terdapat banyak kaedah untuk pengelasan, semuanya menyelesaikan satu dari tiga masalah matematik berkaitan.

Pertama adalah mencari peta ruang ciri (feature space) (biasanya pelbagai dimensi ruang vektor (vector space) bagi set label. Ia bersamaan dengan membahagikan ruang ciri kepada kawasan, kemudian meletakkan label kepada setiap kawasan. Algoritma sedemikian (contoh, algoritma jiran terdekat) biasanya tidak menghasilkan keyakinan atau kebarangkalian kelas, melainkan pasca-pemprosesan digunakan. Set algoritma lain pula menggunakan pengelompokan tanpa pengawasan kepada ruang ciri, kemudian cuba melabel setiap kelompok atau kawasan.

Masalah kedua adalah untuk menganggap pengelasan sebagai masalah anggaran, di mana matlamat adalah untuk menganggar fungsi bagi bentuk

P ( c l a s s | x ) = f ( x ; θ ) {\displaystyle P({\rm {class}}|{\vec {x}})=f\left({\vec {x}};{\vec {\theta }}\right)}

di mana input vektor ciri adalah x {\displaystyle {\vec {x}}} , dan fungsi f biasanya diparameter oleh sebahagian parameter θ {\displaystyle {\vec {\theta }}} . Dalam pendekatan statistik Bayesan bagi masalah ini, berlainan dengan memilih satu vektor parameter θ {\displaystyle {\vec {\theta }}} , hasil dikamir bagi kesemua theta yang mungkin, dengan turutan berat bagi ketepatan berdasarkan data latihan D:

P ( c l a s s | x ) = f ( x ; θ ) P ( θ | D ) d θ {\displaystyle P({\rm {class}}|{\vec {x}})=\int f\left({\vec {x}};{\vec {\theta }}\right)P({\vec {\theta }}|D)d{\vec {\theta }}}

Masalah ketiga berkait dengan masalah kedua, tetapi masalahnya adalah bagi menganggar kebarangkalian bersyarat (conditional probability) P ( x | c l a s s ) {\displaystyle P({\vec {x}}|{\rm {class}})} dan kemudian menggunakan teorem Bayes untuk menghasilkan kemungkinan kelas sebagaimana dalam masalah kedua.

Contoh algorithm pengelasan termasuk:

  • Pengelasan linear
    • Beza layan linear Fisher (Fisher's linear discriminant)
    • Regresi logistik (logistic regression)
    • Pengelas Bayes naif (naive Bayes classifier)
    • Perceptron
  • Pengelas kuadratik
  • Jiran k-terdekat
  • Boosting
  • Pepohon keputusan (decision tree)
  • Jaringan neural
  • Jaringan Bayesan
  • Mesin vektor sokongan (support vector machine)
  • Model Markov tersembunyi (hidden Markov model)

Domain aplikasi

  • Penglihatan komputer (computer vision)
    • Pengimejan perubatan dan analisa imej perubatan (medical image analysis)
    • Pengecaman aksara optik (optical character recognition)
  • Pengecaman pertuturan (speech recognition)
  • Pengecaman tulisan tangan (handwriting recognition)
  • Geostatistik
  • Pengelasan dokumen
  • Pengenalan biometri
  • Enjin gelintar Internet
  • Skor kredit (Amerika Syarikat)

Lihat juga

  • Dapatan semula maklumat
  • Kecerdasan buatan
  • Logik kabur
  • Pembelajaran mesin
  • Perlombongan data
  • Statistik