データ数変化による認識率の変化 - asatoの技術的な内容の日記

めずらしく AOP じゃない話題・・・

識別器（とかそれ系）のパフォーマンス（認識率 or 汎化能力）を確かめる上で、一つ気になる計り方の一つは、データ数が変化すると、どのくらいそのパフォーマンスも変化するのか、ということ。この分野（パターン認識）は詳しくない（ほとんど素人）ので、すでにちゃんと研究されているのかもしれないけど、すべての評価結果がそのような評価を含んではいないと思う。

たとえば、利用できるデータ（サンプル）数が、1000ぐらいあったとして、そのデータ数を、100ぐらいまで減らしたとしたら、各識別器において、どのようなパフォーマンスの変化があるのだろう？データ数が多いときに最もパフォーマンスが良い識別器は、データ数が少なくなったとしても、最もパフォーマンスが良いのだろうか？ or 言い換えると、データ数の変化によって、識別器の順位は変化するか？

（直接は関係ないけど）インスピレーション元:

E. Alba, J. F. Chicano.
Training Neural Networks with GA Hybrid Algorithms.
In Deb, K. et al (Eds.) Genetic and Evolutionary Computation Conference -- GECCO-2004. Berlin: Springer Verlag. (2004)

DL: http://neo.lcc.uma.es/staff/francis/pdf/gecco04.pdf