論文の解釈:ワシントン大学教授Pedro Domingos、技術論文:機械学習における有用な知識(1)

要約:機械学習の研究者や実践者が学んだ12の重要な教訓のうち、落とし穴、重要な問題、頻繁に寄せられる質問に対する回答を避けることを含めてまとめたものです。

機械学習アルゴリズムを使用して、データから類似のタスクを実行する方法を理解することができます。 手動プログラミングが適用されない場合、これは通常実行可能であり、非常に費用効果が高い。 より多くのデータが利用可能になるにつれて、より多くの問題を解決することができます。 したがって、機械学習はコンピュータなどの分野で広く使用されている。 しかし、成功する機械学習アプリケーションを開発するには、教科書では見つけにくい多くの「黒い芸術」が必要です。

私は最近、ワシントン大学Pedro Domingos教授の「機械学習の有益な知識」というテクニカルペーパーを読んだ。機械学習の研究者や実務者がトラップを避けることを含む12の重要なレッスンを要約している。 (回避すべき落とし穴)、主な質問、よくある質問への答え。 これらのレッスンは、機械学習の問題の解決を検討する際に非常に便利なので、この記事で説明します。

1:学習=表現+評価+最適化

すべての機械学習アルゴリズムは、通常、次の3つのコンポーネントで構成されています。

  • 表現:分類子は、コンピュータが扱うことができる言語で表現されなければならない。 代わりに、学習者の表現を選択することは、学習することができる分類器のセットを選択することと同じです。 このコレクションは、学習者の仮説空間と呼ばれます。 分類器が仮説空間にない場合、それは学習することができない。 関連する質問は、どのように入力を表現するか、すなわちどの特徴が使用されるかである。

  • 評価:評価関数は、分類器の品質を区別するために必要とされる。 アルゴリズムによって内部的に使用される評価関数は、分類器を最適化する外部評価関数とは異なる場合があります。
  • 最適化:最後に、言語の分類子で最も高い得点の分類子を検索する方法が必要です。 最適化技法の選択は、学習者の効率にとって重要であり、また、評価関数が複数の最適値を有するときに生成される分類子を決定するのに役立つ。 新しい学習者が既製のオプティマイザを使用し始めるのは一般的です(後でカスタムデザインに置き換えられます)。

2:機械学習は、訓練セット外のデータを予測することを目指すべきである(それは重要な一般化である)

機械学習の基本的な目的は、トレーニングセットを超えた例を促進することです。 これは、どれだけのデータがあっても、テスト中にこれらの正確な例が再現される可能性は低いからです。 トレーニングセットは非常に簡単です。 機械学習の初心者が犯す最も一般的な間違いは、トレーニングデータをテストし、成功の錯覚を抱くことです。 選択された分類器が後続の新しいデータでテストされる場合、通常、ランダム推測よりも優れていません。 したがって、機械学習モデルを作成する人を雇う場合は、自分でデータを保存し、提供する分類子をテストしてください。 逆に、機械学習モデルを構築するために雇われた場合は、データの一部を最初に設定し、最後に選択した分類子のみをテストしてから、データ全体で最良のモデルを訓練します。

3:データが不十分です

これはイライラするニュースのようです。 幸いにも、実世界から学びたいモデルは、数学の精度に従う必要はありません! 実際、滑らかさ、類似の例、限定された依存性、または複雑さの制限などの非常に一般的な仮定は、通常、十分にうまくいくのに十分であり、機械学習が非常に成功する理由の大きな部分です。 控除と同様に、誘導(学習者が何をするか)はナレッジ・レバーです。少量の入力知識を大量の出力知識に変換します。 帰納法は、演繹よりも強力なレバーであり、有用な結果を得るために入力知識が少なくて済むが、依然として入力知識が必要である。 そして、どんなレバレッジのようにも、私たちが投資すればするほど、利益は増えます。

知識を学ぶために必要なデータは驚くべきことではありません。 機械学習は魔法ではなく、何からでもできません。 それは今より少ないものから多くを得ることです。 すべてのプロジェクトと同様に、プログラミングには多くの作業があります。すべてを最初から構築する必要があります。 学習は農業に似ており、自然が大部分の仕事をする。 農業者は種子と栄養素を組み合わせて作物を栽培し、トレーナーは知識とデータを組み合わせてプロジェクトを開発するのが好きです。

4:オーバーフィットには多くの治療法があります

正しい分類子を完全に決定するための知識とデータが不十分な場合はどうなりますか? 現実に基づいていない分類子(またはその一部)の錯覚を危険にさらし、コード化されたデータの単なるクイズです。この問題はオーバーフィットと呼ばれ、機械学習の奇妙な問題です。 学習者が出力した分類器出力がトレーニングデータに対して100%正確であるが、テストデータの精度が50%に過ぎない場合、実際にはオーバーフィットとなる。

機械学習の誰もが過適合について知っていますが、それは多くの形を持ち、あまり明確ではありません。 過剰適合を理解する1つの方法は、汎化誤差を偏差および分散に分解することである。 偏差は、学習者は常に同じミスを学ぶ傾向があるということです。 真の信号にかかわらず、分散はランダムなものを学習する傾向があります。 線形学習者は、2つのクラスの境界が超平面でない場合、学習者がそれを処理できないため、しばしば高い偏りを持っています。 意思決定ツリーは、ブール関数を表すことができるため、この問題はありませんが、その一方で、非常に高い分散を生成する可能性があります。同じ現象によって生成された異なるトレーニングセットで学習された決定木は、それは実際に同じでなければなりません。

相互検証は、例えば、それを使用して決定木の最適なサイズを選択するなど、過適合と戦うのに役立ちます。 しかし、これは万能ではありません。パラメータをあまりにも多く使用すると、オーバーフィットになります。

クロスバリデーションに加えて、オーバーフィッティングの問題を解決する多くの方法があります。 最も一般的なのは、正規化された用語を評価関数に追加することです。 例えば、より多くの構造を有する分類子を罰することができ、それにより構造化されていない分類子を容易にすることができる。 もう1つの選択肢は、新しい構造を追加する前にカイ二乗のような統計的有意性検定を行って、カテゴリーの分布が構造の有無にかかわらず本当に異なるかどうかを判断することです。 これらの手法は、データが非常に少ない場合に特に役立ちます。 それでも、テクノロジーは常にベストを尽くすことができないので(自由なランチはありません)、オーバーフィットの問題を「解決する」テクニックについては懐疑的でなければなりません。

5:直感的な間違い – 高次元

オーバーフィットの後、機械学習の最大の問題は次元の呪いです。 このトピックは1961年にBellmanによって提案されました。入力が高次元である場合、低次元でうまく動作する多くのアルゴリズムが難しくなるという事実を参照しています。 しかし、機械学習では、フィーチャの数(フィーチャの数)が増えるにつれて、固定サイズのトレーニングセットは入力スペースのほんの一部しかカバーしないため、一般化はますます困難になることを意味します。

高次元の一般的な問題は、私たちの直感は三次元の世界から来ており、通常は高次元の空間には適していないということです。 高次元では、多変量ガウス分布の大部分は平均に近いものではなく、それをさらに遠くにしている「シェル」にあります。 一定数の例が、高次元の超立方体内で一部の次元を超えて均等に分布している場合、ほとんどの例は、最近傍よりも超立方体の面に近い。 ハイパーキューブをハイパーキューブに書き込むことによってハイパースフィアを近似すると、高次元のほとんどすべてのハイパーキューブがスーパー球の外にあります。 これは、機械学習では悪いニュースです。その1つのタイプのシェイプは、しばしば別のシェイプで近似されます。

分類器を2Dまたは3Dで構築することは非常に簡単であり、視覚的検査によって異なるカテゴリの例の間で妥当な境界を見つけることができます。 しかし、高いレベルでは、何が起こっているのかを理解することは難しいです。 これは、分類器の設計を困難にする。 無邪気なことに、人々は、最悪の場合、クラスに関する新しい情報を提供することはないが、実際には、次元の呪いが利益を上回る可能性があるので、より多くの機能を集めることは困難ではないと考えるかもしれない。

6:理論的保証は彼らが見るものではない

機械学習の論文は理論的な保証がいっぱいです。 最も一般的なタイプは、適切な一般化を保証するために必要なサンプル数の制限です。 あなたはこれらの保証をどのようにしなければなりませんか? 誘導は伝統的に控除とは対照的です。推論では、結論が正しいことを保証することができます。誘導では、すべての判断がコミュニティにあります。 ここ数十年の大きな進展は、特に確率保証を解決しようとするならば、誘導の結果を保証できるという認識であった。

この制約が何を意味するのかに注意する必要があります。 たとえば、モデルが特定のトレーニングセットと一致する仮説を返す場合、この仮定は十分に要約されるかもしれません。 いわゆる、十分な訓練セットが与えられれば、あなたのモデルは一般化仮説を返すか、または一貫した仮説を見つけることができない。 境界はまた、良い仮説空間を選ぶ方法も述べていない。 仮説空間が実際の分類子を含む場合、訓練者が悪い分類子を出力する確率は、訓練集合のサイズとともに減少することがわかるだけである。 仮説空間を狭めると、境界が改善されますが、実際の分類子を含む可能性も低下します。

無限のデータが与えられた場合、モデルを訓練する人は正しい分類子を出力することが保証されます。 実際には、漸近状態(まれに「漸近異常症」とも呼ばれます)にはめったにありません。 さらに、上述のバイアス分散のトレードオフのために、学習者Aが無制限のデータを与えられた学習者Bよりも優れている場合、Bは一般に所定の限定されたデータに対してAより良好である。

理論は、機械学習の主な役割が実際の意思決定の基準ではなく、理解と運転のアルゴリズム設計の原点であることを保証します。 実際、理論と実践の密接な相互作用は、機械学習が長年にわたり驚異的な進歩を遂げた主な理由の1つです。 しかし注意してください:トレーニングは複雑な現象です。

記事の元のタイトルは「12有用なもの – 機械学習について知っている」です。
詳細はオリジナルを読みください。

元のリンク