データ数変化による認識率の変化

めずらしく AOP じゃない話題・・・


識別器(とかそれ系)のパフォーマンス(認識率 or 汎化能力)を確かめる上で、一つ気になる計り方の一つは、データ数が変化すると、どのくらいそのパフォーマンスも変化するのか、ということ。この分野(パターン認識)は詳しくない(ほとんど素人)ので、すでにちゃんと研究されているのかもしれないけど、すべての評価結果がそのような評価を含んではいないと思う。


たとえば、利用できるデータ(サンプル)数が、1000ぐらいあったとして、そのデータ数を、100ぐらいまで減らしたとしたら、各識別器において、どのようなパフォーマンスの変化があるのだろう? データ数が多いときに最もパフォーマンスが良い識別器は、データ数が少なくなったとしても、最もパフォーマンスが良いのだろうか? or 言い換えると、データ数の変化によって、識別器の順位は変化するか?


(直接は関係ないけど)インスピレーション元:

E. Alba, J. F. Chicano.
Training Neural Networks with GA Hybrid Algorithms.
In Deb, K. et al (Eds.) Genetic and Evolutionary Computation Conference -- GECCO-2004. Berlin: Springer Verlag. (2004)

DL: http://neo.lcc.uma.es/staff/francis/pdf/gecco04.pdf