データ数変化による認識率の変化
めずらしく AOP じゃない話題・・・
識別器(とかそれ系)のパフォーマンス(認識率 or 汎化能力)を確かめる上で、一つ気になる計り方の一つは、データ数が変化すると、どのくらいそのパフォーマンスも変化するのか、ということ。この分野(パターン認識)は詳しくない(ほとんど素人)ので、すでにちゃんと研究されているのかもしれないけど、すべての評価結果がそのような評価を含んではいないと思う。
たとえば、利用できるデータ(サンプル)数が、1000ぐらいあったとして、そのデータ数を、100ぐらいまで減らしたとしたら、各識別器において、どのようなパフォーマンスの変化があるのだろう? データ数が多いときに最もパフォーマンスが良い識別器は、データ数が少なくなったとしても、最もパフォーマンスが良いのだろうか? or 言い換えると、データ数の変化によって、識別器の順位は変化するか?
(直接は関係ないけど)インスピレーション元:
E. Alba, J. F. Chicano.
Training Neural Networks with GA Hybrid Algorithms.
In Deb, K. et al (Eds.) Genetic and Evolutionary Computation Conference -- GECCO-2004. Berlin: Springer Verlag. (2004)