機械学習とデータマイニング:基本概念

マシンラーニングエンジニアになる方法
Https://keras-cn.readthedocs ….
Http://www.tensorfly.cn/tfdoc …

機械学習とデータ解析

データ特性 データ分析 機械学習
データ型 トランザクションデータ 行動データ
データ量 少量のデータ 大量のデータ
分析方法 サンプリング分析 完全な分析
さまざまなビジネス問題を解決する データ分析(過去の出来事を報告するOLAP) 機械学習(将来の事象の予測)
これらの人々は、過去3年間でトップ100の高品質の顧客です。 誰がトップ100の最も収益性の高い顧客になりますか?
どのユーザーが過去2年間に貸し付けをデフォルトにしたか どの顧客が不良債権リスクを有する可能性があるか
そして、年初の計画は、前四半期の販売実績よりも優れています。 来年の各地域の売上予測は?
今年の第4四半期にどの販売実績が割当量を上回ったか 来年、どの売上高が過大になるか?
昨年より売れた店舗 どの店舗が来年にはより良い業績を出すか

機械学習 :コンピュータを使用して履歴データからパターンを見つけ、 不确定场景将来の不确定场景に関する決定に適用し不确定场景

  • エキスパートの経験に基づいて
  • データ分析(統計に基づく) – >本体は主に「経験と知識レベルで受け入れられる」分析対象者である
  • 機械学習 – >コンピュータ

歴史的なデータから法を探す – >アルゴリズムに依存しますが、実際には、この法則は数学的関数(数式)を見つけることです。

伝統的な統計は、サンプリングを使用して計算能力の表示を受けています。
統計情報:サンプリング – >記述統計 – >結論 – >仮説検定今やコンピューティングパワーはもはや問題ではないので、データの全量を使用してください。

データの観察(可視化後) – >モデルを使用して法則を説明(適合)する(関数 – 関数曲線適合)
実際の多次元のn次元データでは、データを視覚的に表示することは困難であり、法則をグラフィカルに見つけることは不可能であり、現時点では数学演算に頼るしかありません。

機械学習

概要

机器学习(Machine Learning,ML)は、順序付けられていないデータを有用な情報に変換するために、データの背後にある真の意味を強調するためのコンピュータの使用です。 確率論、統計、近似理論、凸解析、アルゴリズム複雑性理論など、多くの学問分野を含む多分野の科目です。 コンピュータが新しい知識やスキルを取得し、既存の知識構造を再編成してパフォーマンスを継続的に向上させるために、人間の学習行動をシミュレートまたは実装する方法を専門にする。 人工知能の核であり、コンピュータを知的にする基本的な方法です。その応用は人工知能のすべての分野に及んでおり、控除ではなく誘導、合成を主に使用しています。

  • 大量のデータ
  • 役に立つ情報を入手する

機械学習の典型的な応用

機械学習は人工知能の科学であり、この分野の主な研究対象は人工知能であり、特に経験的学習における特定のアルゴリズムの性能を向上させる方法である」「機械学習は経験を通して自動的に改善できるコンピュータアルゴリズムの研究である「機械学習は、データまたは過去の経験を使用して、コンピュータプログラムの性能基準を最適化します。 "

頻繁に引用される英語の定義は次のとおりです。コンピュータプログラムは経験から学ぶと言われていますE
ある種のタスクTと性能測定Pに関して、if
Pで測定したTのタスクでのパフォーマンスは、
エクスペリエンスE.

データマイニング、コンピュータビジョン、自然言語処理、バイオメトリクス、検索エンジン、医療診断、クレジットカード詐欺の検出、証券市場分析、DNAシーケンスシーケンシング、音声と手書き認識、戦略などの機械学習が広く利用されていますゲームやロボット。

深い学習対機械学習対パターン認識

深い学習対機械学習対パターン認識

細分シーン

ショッピングバスケット分析

  • 関連ルール

ユーザセグメンテーション精度マーケティング

  • クラスタリング

迷惑メールの識別

  • ナイーブベイズ

クレジットカード詐欺

  • 意思決定ツリー

インターネット広告

  • クリック率

推奨エンジン

  • コラボレーティブフィルタリング

自然言語処理

  • 感情分析
  • エンティティ認識

画像認識

  • 深い学習

音声認識パーソナライズされた医療感情分析顔認識自動運転知能ロボットプライベート仮想アシスタントジェスチャー制御ビデオコンテンツ自動認識マシンリアルタイム翻訳

機械学習構成

メインタスク

  • 分類:インスタンスデータを適切なカテゴリに分類する

    • アプリケーション例:ウェブサイトがハッキングされているかどうか(2つの分類)、手書き数字の自動認識(複数の分類)
  • 回帰:主に数値データの予測に使用される

    • 適用例:株価変動予測、住宅価格予測等

教師あり学習

  • 機械学習アルゴリズムが特徴と目標変数との間の関係を発見できるよう必须确定目标变量的值 。 教師あり学習では、一連のデータがあれば、正しい出力がどのように見えるかがわかり、入力と出力の間に特定の関係があることがわかります。 (分類と回帰を含む)
  • サンプルセット:トレーニングデータ+テストデータ

    • トレーニングサンプル=フィーチャー+ターゲット変数(ラベル:分類 – 離散値/回帰 – 連続値)
    • フィーチャは通常、トレーニングサンプルセットの列であり、個別に測定されます。
    • 目標変数:目標変数は、機械学習予測アルゴリズムのテスト結果です。

      • 分類アルゴリズムでは、目標変数のタイプは通常は公称(真と偽など)であり、回帰アルゴリズムでは通常連続(たとえば1〜100)です。
  • 教師付き学習はこの問題に注意を払う必要があります:

    • オフセット分散のトレードオフ
    • 機能の複雑さとトレーニングデータの量
    • 入力空間の次元
    • ノイズの出力値
  • 知识表示:

    • ルールセットの形式にすることができます[たとえば、90を超える数学スコアが優れています)
    • 確率分布の形式にすることができます[例えば、統計的分布を通じて、学生の数学のスコアの90%、70点未満、70点以上は優秀と見なされます]
    • トレーニングサンプルセットのインスタンスを使用することができます[例:サンプルセットを通してモデルインスタンスを訓練して若くて数学的に高く、会話でエレガントで、優れていると思う]


     机器学习中,对数据进行分类的算法大概有两种:
        - 感知器
        - 适应性的线性神经元
        - 学习算法(learning algorithm),从数据中产生模型的方法
        - 数据集(data set):一组记录的合集
        - 示例(instance):对于某个对象的描述
        - 样本(sample):也叫示例
        

添付ファイル:機械学習の用語

  • モデル:コンピュータレベルの認知
  • 属性:オブジェクトの便利な表現または機能
  • 特徴:同じ属性
  • 属性値:属性の値
  • 属性空間:属性が展開される領域
  • サンプル空間/サンプル空間(サンプル空間):同じ属性空間
  • 特徴ベクトル:各点は属性空間内の座標ベクトルに対応し、一例は特徴ベクトルと呼ばれる。
  • ディメンション:サンプルパラメータの数を示します(つまり、スペースは複数のディメンションです
  • 学習/トレーニング:データからの学習
  • トレーニングデータ:トレーニング中に使用されるデータ
  • トレーニングサンプル:トレーニングに使用された各サンプル
  • トレーニングセット:トレーニングサンプルのコレクション
  • 仮説:学習モデルは、データに関する根本的なルールに対応します。
  • グループ – 真:存在する法則
  • 学習者(学習者):与えられたデータとパラメータ空間で学習アルゴリズムをインスタンス化するモデルのもう一つの用語。
  • 予測:物の性質
  • ラベル:例の結果に関する情報。たとえば、「良い男」です。
  • 例(例):タグを所有する例
  • ラベルスペース:すべてのタグのコレクション
  • 分類:人々を良い人と悪い人に分ける学習タスクなど、予測される離散的な値。
  • 回帰:善良な人々が0.9,0.6などに達するなど、値を予測する際の連続的な値
  • バイナリ分類:2つのカテゴリのみを含む分類タスク
  • ポジティブなクラス:2つのカテゴリのうちの1つ
  • 負のクラス:第2カテゴリの別のクラス
  • マルチクラス分類:複数のカテゴリを含む分類
  • テスト:モデルを学習した後にサンプルを予測するプロセス
  • 試験サンプル:予測されるサンプル
  • クラスタリング:トレーニングセット内のオブジェクトをグループに分割する
  • クラスタ:各グループはクラスタと呼ばれます。
  • 教師あり学習:パラダイム – 分類と回帰
  • 教師なし学習:パラダイム – クラスタリング
  • 見えないインスタンス:「新しいサンプル」、訓練されていないサンプル
  • 汎化能力:新しいモデルに適用する学習モデルの能力
  • 分布:サンプル空間のサンプル空間全体の服従の法則
  • 独立して同一分布(i、i、d):得られた各サンプルは、この分布から独立してサンプリングされる。

パラメータとハイパーパラメータ

  • パラメータ:モデルが可以自动学习出的变量にデータに基づいて可以自动学习出的变量できる可以自动学习出的变量です。パラメータでなければなりません。 例えば、深い学習、バイアスなどの重み
  • ハイパーパラメータ:モデルのいくつかのパラメータを決定するために使用されます。ハイパーパラメータは異なり、モデルは異なります(このモデルの異なる意味は小さな違いがあります)。これはCNNモデルです)、ハイパーパラメータは一般的に経験的に決定される変数です。 深い学習では、ハイパーパラメータは、学習率、反復回数、層数、層あたりのニューロン数などです。

リファレンス

Mutuネットマシン学習
TensorFlow中国語コミュニティ
Apachecn / MachineLearning
ナタリアコンスタンチノーバブログ
ニューラルネットワークハッカーガイド

元のリンク