PR/BLOG

広報・ブログ

はじめてのアルゴリズム!(入門編)#機械学習

2020年より新しく技術開発推進部に仲間入りした女性社員3人が、ゆりちゃんに代わって情報処理技術についてはじめての方にも分かりやすく説明します。

えりちゃん
早起きが苦手

ゆいちゃん
趣味は絵を描くこと

ともちゃん
梅沢富美男が好き

リーダー堀川氏
本日の講師

はじめに

リーダー堀川氏

前回の「探索」に続いて、今回は「機械学習」アルゴリズムについて紹介するよ。

えりちゃん

「機械学習」はその名の通り、機械に学習させることですよね。

ゆいちゃん

人工知能(AI)の話で「機械学習」という単語をよく耳にします。

ともちゃん

コンピューターに反復学習させることで
共通のルールなどを見つけ出して予測や判断を可能にする技術ですね!

リーダー堀川氏

そうだね。その「機械学習」にも複雑な計算が必要でアルゴリズムが組み込まれているよ。
「機械学習」アルゴリズムの種類について代表的なものを見てみよう。

「機械学習」アルゴリズムの種類

リーダー堀川氏

機械学習の学習方法は、主に「教師あり学習」「教師なし学習」に分類されるよ。
他にも種類があるけど今回はこの2つを記載するね。目的に応じた代表的な種類を図にまとめてみたよ。

えりちゃん

たくさん種類がありますね。

リーダー堀川氏

記載した内容は一例だよ。例えば、ランダムフォレストは分類だけでなく回帰やクラスタリングに利用することもできるから
図は参考にしてね。それでは、この中でも機械学習によく使われる決定木について見てみよう。
決定木に使われるアルゴリズムは他にも種類があるけど、ここではCART法というアルゴリズムについて紹介するよ。

決定木(CART法)

決定木は、ある対象や課題の予測や判別・分類するための条件分岐のアルゴリズムをツリー状に展開し図式化したもの。
分析結果が直感的に解釈しやすいのが特徴。
決定木を構築する手法の一つとしてCART(Classification and Regression Tree)法などを用いる。

ともちゃん

図で見るとシンプルで分かりやすいです!

ゆいちゃん

分類するための基準となる条件はどのように決めていけばいいのでしょうか。

リーダー堀川氏

CART法アルゴリズムでは、情報利得が最も大きくなるようにデータを分割していくよ。情報利得について説明しよう。

情報利得

親ノードと子ノードの不純度を計算し、その差分を表す。(分割前のノードを親ノードとし、分割後のノードを子ノードとする。)
不純度は1つのノードに複数の異なる種類のデータが含まれる割合を数値化したもの。
親ノードの不純度が大きく、子ノードの不純度が小さいときに情報利得が最も大きくなる。

えりちゃん

金で純度が高いとか低いとか言いますよね!

ゆいちゃん

不純度は純度の逆で色々なものが混ざっていると不純度が高く、混ざっていないほど不純度が低いということですね。 

リーダー堀川氏

不純度を表す指標については数式で定義化されているよ。
今回はアルゴリズムの考え方と流れを理解しようね。興味があれば具体的な計算についても調べてみよう。

おわりに

えりちゃん

「ソート」、「探索」、「機械学習」などアルゴリズムは種類が豊富なんだと知りました!

ゆいちゃん

様々な手法の数だけ考え方があり、とても面白いと感じました!

ともちゃん

難しい処理も多いですが、目的に応じて適切なアルゴリズムを選択できるように深く学びたいです!

リーダー堀川氏

はじめてのアルゴリズムシリーズはこれで終了するよ。
今回学んだもの以外にも複雑なアルゴリズムがたくさんあるから書籍やWebも参考にしてみるといいよ。
より効率的なプログラムを書く上でアルゴリズムの理解は重要になるから、今後も学んでいこうね。

  • 当ページの人物画像はNIGAOE MAKERで作成しました。
一覧に戻る
ゆりちゃん

技術開発推進部ゆりちゃんからのお願い顔マークを押して、技術ブログの
感想をお聞かせください^^