ビッグデータ処理やAI技術の発達がこのところ急激である。これはハードや機械学習などの発達の結果だが、これら技術の基礎を成すものの一つが統計学的手法だ。 今回は、ビッグデータ処理やAI開発に重要な役割を果たしている統計手法、「ベイズ統計」研究に長年携わっている青山学院大学の美添泰人教授にAI学習の原点としての統計学とこれからの課題についてお話頂いた。
――まず、先生のご専門であるベイズ統計手法について、他の統計手法との違いを教えてください。
A:統計は、「記述統計」と「推計統計」が中心でしたが、最近ではこれに加えて「ベイズ統計」が重要となりました。記述統計は、観測や調査で得られたデータを効果的に表現する手法に関するものです。推計統計は、記述統計で得られた結果などを元に数値を予測したり、仮説(理論)が、どの程度現実の観測結果と適合するのかを検定したりするものです。ベイズ統計もデータ分析に用いられますが、確率の解釈に大きな違いがあり、観測値以外の情報の利用方法が異なります。
――具体的にはどういうことでしょうか。
A:ベイズ統計にもいろいろありますが、いずれも解析に「主観確率」(判断確率)という概念を採用しています。古典統計学では、未知でも確率は固定・客観的数値です。ベイズ統計では、確率は意思決定者の持つ情報を反映して、変化することがあります。
――確率を後から恣意的に変えられ、それがAI機械学習の基礎原理になっている?
A:恣意的に確率を変更するというのは、ベイズ統計の誤解されやすい部分です。ベイズ流に厳密に構成された主観確率は、人間は合理的判断をするという原理(公理体系)に基づいた理論で、不確実性に直面しても「自分の効用関数を最大化するように意思決定を行う」というものです。当然、人によって効用関数は異なります。しかし、効用が最大になるように意思決定を行うという結論が導かれます。これが、ベイズ統計の原理です。そして、これが重要ですが、意思決定の根拠情報が追加的に与えられれば、それにより、主観確率は合理的手順で修正されます。この手順が「ベイズの公式」と呼ばれる形式です(解説参照)。
――機械学習の基礎になるということですね。
A:大雑把にいえばそうで、機械学習では、ベイズの定理を利用して判断を修正します。ただし、原理的なベイズ統計にはあまり関心はなく、経験的に有効だから利用するようです。ハーバード時代の私の恩師たちが聞いたら嘆くと思いますね。
――AIの技術でベイズの原理を使用した代表的なものには何がありますか?
A:例えば、迷惑メール振り分けフィルタにベイジアンフィルタというものがあります。
フィルタ作成者は、あらかじめ、いくつかのキーワードの組み合わせが迷惑メールに含まれていた比率をデータベースとして登録しておきます。あるメールを受信したときの初期状態では、一般的な迷惑メールの比率が、それが迷惑メールである確率です。メールに含まれているキーワードに基づいて、フィルタはそれが迷惑メールである確率を修正します。このときにベイズの定理が用いられます。分類にミスがあり、報告があれば、それに基づいて、フィルタのデータベースはその都度修正、改善されます。
――AI開発や利用・活用について日本は米国や中国と比べ遅れているといいますが、データの量が少なく、不利だなどと統計的な面が指摘されています。
A:技術面で遅れているとは感じませんし、ビッグデータとして使用できるものはいくらでもあります。ただ、米国には、グーグルなどがあるのに対しビッグデータを事業とする大企業が少なかったことと、統計的分析能力を習得できる大学などが少ないということはいえます。
――我が国でAIを発展させていくためにはグーグルのような企業が必要ということですか?
A:米国はオバマ大統領が12年に出した「ビッグデータ研究開発イニシアティブ」でビッグデータ関連技術への研究開発投資が加速し、AIの開発も進みました。日本では、ビッグデータの活用、統計的分析能力向上への支援の必要性は、それまであまり認識されていませんでした。最近、日本でも政府による支援が始まっています。人材育成に関しては、私自身も国際的な水準の統計教育の拡大のため、「統計教育大学間連携ネットワーク(JINSE)」などで支援活動をしています。
――ビッグデータ活用としてのAIの統計学的課題はありますか。
A:世界的に「ビッグデータの分析」という流れがあり、その意味で統計的手法の研究・開発は重要課題です。伝統的な統計学だけでは不十分という批判もありますが、20年以上前から、新しい統計学は十分に発達しています。問題は、大学等で新しい統計的手法を教えられる人材が少なかったことです。さらに新しい統計的手法の開発と実用化が課題ですが、同時に、AIなどでビッグデータを活用する一般ユーザーは、与えられたデータに対して、適切なモデルを選択できる程度の統計的データ解析能力の修得が求められます。このような人材をいかに育成するかが、今後のビッグデータやAI活用で重要だと思います。
――AIの発達でいろいろ問題も発生して来そうですが。例えば将来、AIが人間の多くの職業を奪うといわれますが。
A:AIが深層学習で自ら学ぶにしても、当面、問題解決のためのデータ収集、適切なモデルの設定や手法の開発は分析者が行います。また、AIは汎用的な問題に対しては回答を出せても、その回答を正当化する理論の構築は、まだできないようです。しばらくは、人間に重要な存在意義があると思います。
――ありがとうございました。
<取材協力:青山学院大学経営学部 JINSE>
あるゲームで、3つの箱(B1〜B3)があり、そのうち一つには、現金(M)が入っている。このゲームの参加者はその現金が入った箱を1回で開けられれば、その中の現金がもらえるとする。参加者は、箱を開ける前にどの箱を開けるかあらかじめ決める(この例では、箱1、B1を選んだものとする)。
このゲームの主催者は、どの箱に現金が入っているか知っている。もちろん、主催者はどの箱に入っているかを参加者に教えることはないし、箱を開けずにどの箱に現金が入っているか知るすべはないものとする。
まず、箱に入っているものを順番に記述していく。例えば、MEEは、1番目の箱に現金(Money)が、2、3番目が空(Empty)であることを表すものする。
このとき、参加者が考える現金が各箱に入っている事前確率は、
美添泰人(よしぞえ やすと)教授(Ph.D 統計学)
略歴:1946年生まれ
東京大学経済学部 1969年卒業
東京大学大学院経済学研究科博士課程 1975年修了
ハーバード大学大学院(統計学専攻) 1978年修了、Ph.D (統計学)
専門・研究分野:
ベイズ統計、統計科学、経済統計学
所属学会・団体:
日本統計学会、ISI(国際統計協会)、他
主な役職:日本統計学会理事長、内閣府経済社会総合研究所客員主任研究官、総務省統計研修所客員教授、統計審議会会長、統計委員会委員、日本統計学会会長などを歴任
現在:日本学術会議連携会員、青山学院大学経営学部招聘教授