機械学習アルゴリズムを比較するための統計的有意性検定

Tweet 共有

最終更新日:2019年8月8日

機械学習手法を比較して最終モデルを選択することは、応用機械学習でよく行われる操作です。

モデルは一般的に、k-foldクロスバリデーションなどのリサンプル方法を使用して評価し、そこから平均スキルスコアを算出して直接比較することが行われています。

統計的有意差検定はこの問題に対処するために設計され、スキル スコアのサンプルが同じ分布から引き出されたという仮定を与えられて観察される尤度を定量化する。 この仮定、または帰無仮説が棄却された場合、スキル スコアの差が統計的に有意であることを示唆します。

確実ではありませんが、統計的仮説検定は、モデル選択時の結果の解釈とプレゼンテーションの両方の信頼性を向上させることができます。

このチュートリアルでは、機械学習モデルを比較するための統計的仮説検定を選択することの重要性と課題を発見します。

  • 統計的仮説検定は機械学習モデルを比較し最終モデルを選択する際に役立つことがあります。
  • 統計的仮説検定の素朴な適用は、誤解を招く結果につながる可能性があります。
  • 統計的検定の正しい使用は困難で、McNemarの検定または修正ペア学生t検定付き5×2クロスバリデーションの使用についていくつかのコンセンサスが存在します。

ステップバイステップのチュートリアルとすべての例のPythonソースコードファイルを含む私の新しい本「Statistics for Machine Learning」でプロジェクトを始めましょう。

  • Update Oct/2018: McNemarの検定を使用する例へのリンクを追加しました。
機械学習アルゴリズムを比較するための統計的有意性検定

機械学習アルゴリズムを比較するための統計的有意性検定
Photo by Fotografías de Javier, some rights reserved.を追加しました。

チュートリアルの概要

このチュートリアルは、5つのパートに分かれています。

  1. モデル選択の問題
  2. 統計的仮説検定
  3. 仮説検定選択の問題
  4. いくつかの知見のまとめ
  5. 推奨事項

Need help with Statistics for Machine Learning?

今すぐ 7 日間の無料メール クラッシュ コース (サンプル コード付き) を受講する。

登録してクリックすると、コースの無料の PDF 電子書籍版も入手できます。

無料のミニコースをダウンロードする

The Problem of Model Selection

応用機械学習の大きな部分は、モデルの選択です。

これを最も単純な形で説明すると、

あるデータセットで 2 つの機械学習手法を評価する場合、どちらのモデルを選択するか。

最高のスキルを持つモデルを選択する。

つまり、未知のデータで予測を行う際の推定スキルが最も高いモデルである。 これは、分類と回帰の問題の場合、それぞれ最大精度または最小誤差であるかもしれません。

最高のスキルを持つモデルを選択する際の課題は、各モデルの推定スキルをどの程度信頼できるかを決定することです。 より一般的には、

2 つの機械学習モデル間のスキルの差は本物か、それとも統計的な偶然によるものか?

この疑問に取り組むために、統計的仮説検定を使用することが可能です。

統計的仮説検定

一般に、サンプルを比較するための統計的仮説検定は、サンプルが同じ分布を持っているという仮定のもとで、2つのデータサンプルを観察することがどれだけ可能性があるかを定量化します。

統計検定の仮定は帰無仮説と呼ばれ、帰無仮説を受け入れるか拒否するかを決めるために統計指標を計算し、それを解釈することができます。

推定スキルに基づいてモデルを選択する場合、2つのモデルの間に実際に、または統計的に有意な差があるかどうかに興味があります。

  • 検定の結果、帰無仮説を棄却する証拠が不十分であることを示唆する場合、モデルのスキルに観察された違いは、統計的偶然によるものである可能性が高いです。
  • テストの結果が帰無仮説を棄却する十分な証拠があることを示唆している場合、観測されたモデルスキルの差は、モデルの違いによるものである可能性が高い

テストの結果は確率的で、つまり結果を正しく解釈することも可能で、タイプIまたはタイプIIエラーで結果が間違っていることもあり得る。 簡単に言うと、偽陽性または偽陰性の発見です。

統計的有意差検定を使用して機械学習モデルを比較すると、今度は使用できる統計的検定の種類に影響を与えるいくつかの予想が課されます:たとえば、

  • Skill Estimate. モデルのスキルの特定の尺度を選択する必要があります。 これは分類精度(割合)または平均絶対誤差(要約統計量)であり、使用できるテストの種類を制限する。 統計量を計算するためには、スキルスコアのサンプルが必要である。 同じデータ、または異なるデータでモデルの学習とテストを繰り返すと、使用できるテストの種類に影響が出る。 スキルスコアの推定値のサンプルは、おそらくガウシアンかそうでないかの分布を持っている。 これにより、パラメトリック検定とノンパラメトリック検定のどちらが使えるかが決まる。 モデルのスキルは、スキルスコアの分布に応じて、平均値や中央値などの要約統計量を用いて記述され、比較されることが多い。 統計的検定の結果は、検定統計量とp値であることが多く、モデル間の差の信頼度や有意性を定量化するために、その両方を解釈し、結果のプレゼンテーションに使用することができます。 これにより、統計的仮説検定を使用しない場合よりも、モデル選択の一環としてより強い主張を行うことができます。

    モデル選択の一環として統計的仮説検定の使用が望ましいと思われる場合、特定のユースケースに適した検定をどのように選択しますか。

    仮説検定の選択の問題

    バランスのとれた2分類問題に対する分類器の評価と比較について、よく見られる例を見ていきましょう。

    分類精度を使用して分類法を評価し、10重クロスバリデーションを使用して各モデルを評価し、10個のモデルスキル推定値のサンプルにガウス分布を仮定し、サンプルの平均をモデルのスキルの要約として使用することが一般的です。

    この手順を使用して評価される各分類器を、10重クロスバリデーションによってデータセットのまったく同じ分割で評価するよう求めることができます。 これは,各分類器が同じ 10 個のテスト セットで評価されたので一致した,2 つの分類器間の一致したペアの測定値のサンプルを与えることになります.

    実際、これは分類器を比較する一般的な方法で、おそらく何百もの論文がこの方法論を使用しています。 k-foldクロスバリデーション手順の一部として、与えられたオブザベーションはトレーニング・データセットで(k-1)回使用されることになります。 これは、推定されたスキル スコアが独立ではなく、従属であることを意味し、その結果、テストでの t 統計量の計算が統計量と p 値の解釈とともに誤解を招くほど間違っていることになります。

    この観察は、使用されるリサンプリング方法、この場合は k-fold cross-validation と、選ばれた仮説検定、この場合はペアの Student の t 検定の期待の両方をよく理解することを要求します。 この背景がなければ、テストは適切に見え、結果が計算され解釈され、すべてがうまく見えるでしょう。

    残念ながら、応用機械学習におけるモデル選択のための適切な統計的仮説検定の選択は、最初に見たよりも困難です。 幸い、素朴なアプローチの欠点を指摘し、修正や代替方法を提案するのに役立つ研究が増えています。

    Summary of Some Findings

    このセクションでは、機械学習におけるモデル選択のための適切な統計的有意性検定の選択に関する研究の一部を見ていきましょう。

    マクネマーの検定または 5×2 クロスバリデーションを使用する

    おそらくこのトピックに関する決定的な研究は、Thomas Dietterich による「教師あり分類学習アルゴリズムの比較のための近似統計検定」と題する 1998 年の論文でしょう。 機械学習プロジェクト中に統計的仮説検定が必要となる可能性のあるポイントについて考えるための素晴らしいフレームワークを最初に取り上げ、分類器の機械学習方法の比較に関連する統計的検定の一般的な違反に関する予想を議論し、発見を確認するための方法の経験的評価で締めくくられています。

    この論文では、ある学習アルゴリズムが特定の学習タスクで別のものを上回っているかどうかを判断するための5つの近似統計検定をレビューしている。

    論文における統計的仮説検定の選択と実証評価の焦点は、タイプIエラーまたは偽陽性のキャリブレーションという点である。

    この論文には、いくつかの重要な発見がある。

    最初の発見は、訓練データセットのランダム再標本によって推定されたスキルの結果について対のスチューデントのt検定を使用することは決して行ってはならない、というものである。

    …我々は自信を持って、リサンプルt検定は決して採用すべきではないと結論付けることができる。

    ペアt検定の仮定は、ランダムリサンプルの場合とk-foldクロスバリデーションの場合(上述の通り)に違反する。 それにもかかわらず、k-foldクロスバリデーションの場合、t-testは楽観的になり、結果としてタイプIエラーが高くなりますが、タイプIIエラーはわずかなものになります。 8584>

    10-fold cross-validated t testは高いタイプIエラーを持っている。

    Dietterichは、データ量が限られていて、各アルゴリズムが一度しか評価できない場合に、McNemarの統計的仮説検定を推奨している。

    マクネマーの検定はカイ二乗検定のようなもので、この場合はアルゴリズムの分割表で観察された割合の差が、期待された割合と有意に異なるかどうかを判断するために使用される。 これは、トレーニングに数日または数週間かかる大規模な深層学習ニューラル ネットワークの場合に有用な発見です。

    Our experiments leads us to recommend McNemar’s test, for situations that the learning algorithms can be only run once.これは、学習アルゴリズムが一度しか実行できない状況において、マクネマーの検定を推奨します。

    Dietterich はまた、2 倍クロスバリデーションの 5 回の繰り返しを含む 5×2 クロスバリデーションという彼自身の考案によるリサンプリング方法を推奨している。 対のスチューデントのt検定は、推定されたスキルスコア間の依存性を与えられた限られた自由度をよりよく反映するために更新された結果で使用されています。

    Our experiments leads us to recommend 5 x 2cv t test, for situations in the learning algorithms are efficient enough to run ten times

    Refinements on 5×2 Cross-Validation

    マクネマーの検定または 5×2 クロスバリデーションを使うことが、論文が発表されてから 20 年間、主な推奨となってきた。

    にもかかわらず、k-フォールド クロスバリデーションの繰り返しによる独立性の仮定の違反について、ペアの Student の t 検定をよりよく修正するために、さらなる改良が行われました。 この分析により、学習セットの選択による変動とテスト例の選択の両方を考慮した 2 つの分散推定値を構築することができました。 提案された推定量の1つはcv法(Dietterich, 1998)に似ており、特に保守的な推論をもたらすために、分散を過大評価するように設計されている。

    Remco BouckaertとEibe Frankは、「Evaluating the Replicability of Significance Tests for Comparing Learning Algorithms」という2004年の論文で、異なる観点から、結果を複製する能力は、タイプIまたはタイプIIエラーよりも重要であるとみなしています。

    驚くべきことに、彼らは良い再現性を達成するために、ランダム再サンプリングの100回の実行、またはペアStudent-tテストへのNadeauとBengio補正と10×10倍クロスバリデーションのいずれかを使用することを推奨しています。

    後者のアプローチは、Ian Witten と Eibe Frank の著書および彼らのオープンソースのデータ マイニング プラットフォーム Weka で推奨されており、Nadeau と Bengio の補正を「補正済みリサンプル t-検定」として参照しています。 実際にうまく機能しているように見えるのは、補正されたリサンプルt-検定です。 これは、1つのクロスバリデーションのための個々のテストセットが重複しない反復ホールドアウトの特別な場合に過ぎない。

    – Page 159, Chapter 5, Credibility: Evaluating What’s Been Learned, Data Mining:

    Recommendations

    応用機械学習におけるモデル選択のための統計的有意性検定の選択に関して、銀の弾丸はない。

    分類器を比較するために、機械学習プロジェクトで使用する可能性のある 5 つのアプローチを見てみましょう。

    独立したデータ サンプル

    ほぼ無限のデータがある場合、各方法について 10 の本当に独立したスキル スコアを計算するために、k 個の別々のトレーニングおよびテスト データセットを収集します。

    …適切なサイズの複数の独立したデータセットを使用できるように、基本的に無制限のデータがあるという仮定です。 実際には限られた大きさの1つのデータセットしかないのが普通である。

    – 第 5 章「信頼性」の 158 ページ。 Evaluating What’s Been Learned, Data Mining: Practical Machine Learning Tools and Techniques, Third Edition, 2011.

    Accept the Problems of 10-fold CV

    The naive 10-fold cross-validation can be used with an unmodified paired Student t-test can be used.10-foldクロスバリデーションは、修正されていないスチューデントt検定で使用することができます。

    他の方法と比較して再現性がよく、II型エラーは控えめですが、I型エラーが高いことが知られています。

    また、実験では、10倍のクロスバリデーションのt検定の結果を解釈する際に注意が必要であることが示唆されています。 このテストは、リサンプルされたtテストの問題ほど深刻ではないが、タイプIエラーの確率が高い(目標レベルの2倍もある)。

    – 教師付き分類学習アルゴリズムを比較するための近似統計テスト、1998。

    これはオプションですが、非常に弱く推奨されています。

    Use McNemar’s Test or 5×2 CV

    単一実行の分類精度結果に対するマクネマーのテストと修正ペア学生の t 検定による 5×2 回クロスバリデーションという 20 年にもわたる推奨が、一般には有効です。

    さらに、テスト統計量に対する Nadeau と Bengio のさらなる補正は、Weka の開発者が推奨するように、5×2 倍のクロス バリデーションまたは 10×10 倍のクロス バリデーションで使用できます。

    修正した t 統計量を使う際の課題は、既製の実装(たとえば、SciPy で)がないため、サードパーティ製のコードとこれに伴うリスクの使用が必要になることです。 自分で実装する必要があるかもしれません。

    選択した統計手法の利用可能性と複雑さは、Gitte Vanwinckelen と Hendrik Blockeel が「On Estimating Model Accuracy with Repeated Cross-Validation」という 2012 年の論文でよく述べているように、重要な検討事項です。

    これらの手法は慎重に設計され、多くの点で以前の手法を改善することが示されていますが、以前の手法と同じリスク、つまり、手法が複雑になればなるほど、研究者がその手法を間違って使用したり、結果を間違って解釈したりするリスクが高くなるという問題に悩まされています。

    ここに McNemar の検定を使用する例があります。

    • How to Calculate McNemar’s Test to Compare Two Machine Learning Classifiers

    Use a Nonparametric Paired Test

    スキル スコアの分布がガウスであると仮定しないなどの、より少ない仮定で行うノンパラメトリック検定が使用可能です。

    一例として、ウィルコクソン符号順位検定があり、これはペアのスチューデントのt検定のノンパラメトリック版である。

    この統計的仮説検定は、Janez Demsar氏の2006年の論文「Statistical Comparisons of Classifiers over Multiple Data Sets」で、アルゴリズムの異なるデータセットを比較するために推奨されています。

    したがって、多くのデータセットがあるため、またはデータセット間のパフォーマンスの尺度が正規分布であると信じる理由があるため、t 検定の仮定が満たされない限り、ウィルコクソン検定を使用することを推奨します。

    テストはノンパラメトリックですが、各サンプル内のオブザベーションが独立している (たとえば iid) ことをまだ仮定しており、k 倍クロスバリデーションを使用すると、従属サンプルを作成してこの仮定に違反します。

    代わりに推定統計量を使用

    統計的仮説検定の代わりに、信頼区間のように、推定統計を算出することが可能です。

    Tom Mitchell は 1997 年の著書で同様の推奨をしており、統計的仮説検定の結果を発見的推定値とし、モデルスキルの推定値の信頼区間を求めることを提案しています。 利用可能なデータが限られている場合に、統計モデルが学習アルゴリズムのテストにおける現実的な制約に完全に適合することはほとんどないことを心に留めておくことが賢明である。 それにもかかわらず、それらは、学習方法の実験的な比較を解釈する際に大いに役立つおおよその信頼区間を提供する。

    – Page 150, Chapter 5, Evalating Hypotheses, Machine Learning, 1997.

    Bootstrap などの統計メソッドは、結果を提示し分類器を比較するために使用できる防衛的ノンパラメトリック信頼区間を算出するのに用いることができる。

    In fact confidence intervals have received the most theoretical study of any topic in the bootstrap area.

    – Page 321, An Introduction to the Bootstrap, 1994.

    Extensions

    This section lists some ideas for extending the tutorial that may be explore.The section is a few ideas for extended the tutorial might be able to search.

    • 機械学習モデルの比較と選択に、修正されていないペアのスチューデントの t 検定を誤って使用している研究論文を 3 つ見つけてリストアップしてください。
    • Thomas Dietterich の 1998 年の論文で示された機械学習プロジェクトにおける統計的仮説検定の使用に関する枠組みを要約してください。

    これらの拡張機能のいずれかを探求した場合、ぜひ教えてください。

    Further Reading

    このセクションでは、さらに深く追求したい場合に、このトピックに関するその他のリソースを提供します。

    論文

    • Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms, 1998.
    • Inference for the Generalization Error, 2003.
    • 汎化誤差の推定、1998.1.2.1.1。
    • Evaluating the Replicability of Significance Tests for Comparing Learning Algorithms, 2004.
    • On estimating model accuracy with repeated cross-validation, 2012.「学習アルゴリズムの比較のための有意性検定の再現性の評価」.
    • Statistical Comparisons of Classifiers over Multiple Data Sets, 2006.

    Books

    • Chapter 5, Evaluating Hypotheses, Machine Learning, 1997.
    • Chapter 5, Credibility.The Machine Learning, 1997.
    • Chapter 4, Evaluating Hypotheses of Classifiers over Multiple Data Sets, 2006.
    • 仮説の評価、機械学習、1997.
    • 第5章、信頼性。 Evaluating What’s Been Learned, Data Mining: Practical Machine Learning Tools and Techniques, Third Edition, 2011.

  • An Introduction to the Bootstrap, 1994.

論文

  • スチューデントのt検定(Wikipedia)
  • 交差検証(統計)(Wikipedia)
  • マクネマーの検定(Wikipedia)
  • ウィルコクソン符号順位検定(Wikipedia)

議論

  • モデル選択/比較に使用する。 どのようなテストを使用すればよいですか?
  • 異なる分類器を比較するための仮説検定の方法
  • Wilcoxon rank sum testの方法
  • t検定とノンパラメトリック検定(例:NPC)のどちらを選択するか? 5470>

Summary

このチュートリアルでは、機械学習モデルを比較するための統計的仮説検定を選択することの重要性と課題を発見していただきました。

  • 統計的仮説検定の素朴な適用は、誤解を招く結果につながる可能性があります。
  • 統計的検定の正しい使用は困難で、McNemarの検定または5×2クロスバリデーションと修正ペア学生t検定の使用については、いくつかのコンセンサスが存在します。
  • 何か質問はありますか?
    下のコメント欄で質問していただければ、できる限りお答えします。

    機械学習のための統計学に取り組もう!

    Statistical Methods for Machine Learning

    Develop a working understanding of statistics

    Discover how in my new Ebook:
    Statistical Methods for Machine Learning

    It provides self-study tutorials on topics like:
    Hypothesis Tests, Correlation, Nonparametric Stats, Resampling, and much more…

    データを知に変換する方法

    Skip the Academics.Data for Knowledge.Data for Machine Learning.Deutscovery.Datacenter

    Discover how to Transform Data into Knowledge.Datacenter.Datacenter.Datacenter.Data for Machine Learning.Data for Machine Learning.Datacenter.Data for Machine Learning.Datacenter.Datacenter.Datacenter.

    中身を見る

    Tweet Share Share

    コメントを残す

    メールアドレスが公開されることはありません。