統計数理は隠された未来をあらわにする

ベイジアンモデリングによる実世界イノベーション

統計数理は隠された未来をあらわにする
著者 樋口 知之 監著
石井 信
照井 伸彦
井元 静哉
北川 源四郎
ジャンル 情報・コンピュータ
出版年月日 2007/06/01
ISBN 9784501543303
判型・ページ数 B5・158ページ
定価 本体2,200円+税
在庫 在庫あり

この本に関するお問い合わせ・感想

統計数理を工学的に用いる取り組みを紹介.

 今,インターネットに代表されるICT革命により,人間が関わるあらゆるシステムが大きく変容しつつある.この変容によって,人類は大きな可能性を享受する一方で,これまで経験しなかったさまざまな社会的問題に直面しているのもまた事実である.この問題解決においては,複雑なシステムが不断に生み出す大量のデータの解析処理およびそこからの有用な情報の自動的な抽出,つまり計算機による知識の獲得が重要な課題であることは間違いない.では,研究の最前線ではこの課題にどのように取り組んでいるのか?それにお答えするのが本書の目的である.
 動的かつ複雑な対象から得られるデータは,さまざまな計測・観測条件に応じて,時間的にも空間的にも多様な様相を呈する.この各状況の特性に即しつつ,データをうまく説明できる表現方法をもし手にしたのなら,予測や制御といった次のステップの作業が見通しよく完遂できるだろう.また,その作業プロセスも状況の変化に適切に対応できる柔軟なものとなるであろう.通常,我々はこの要求に対して,データyの生成メカニズムを大量のパラメータxを持つ統計モデルp(y|x)で近似することにより解決を図る.ここでp(y|x)は,xが与えられたもとでのyの分布,つまり条件付分布関数を示す.大量のパラメータを持つモデルの具体例として,時点数がN個の時系列データならば,Nの数倍の個数のパラメータを持つ時系列モデルがある.画像解析であれば,ピクセル数の数倍のパラメータを持つモデルを取り扱うのである.パラメータ数を増やすことでデータが得られたときのさまざまな状況の特性を指定することが可能になることは明らかであろう.
 従来の統計的モデリングでは,パラメータxの次元をなるべく小さくすることが王道,さらにいうと美徳とされてきた.それを極端にいえば,きわめて大量のデータでも,それらはすべて平均値と分散の2パラメータで規定されるガウス分布から得られたと仮定するようなものである.一方,確かにパラメータ数を増やせば増やすほど統計モデルの記述能力は向上するが,汎化能力と呼ぶ将来のデータの予測能力が減少する.この問題への対策として,パラメータxについても統計モデルp(x)を想定するのがベイズモデルである.このp(x)をベイズ統計では事前分布と呼ぶ.先験的情報と呼ばれることもあるが,この事前分布の導入により,次のベイズの定理
  ベイズの定理:p(x|y)=p(y|x)p(x)/p(y) ∝ p(y|x)p(x)
を用いることで,想定した事前分布p(x)がどのように修正されるのか,つまりパラメータxに関する不確実性がデータによりどの程度修正されたのかを観察するのである.このp(x)を事後分布と呼ぶ.ここで,すでに手元にあるデータyの発生確率p(y)はxによらない数値をとるので,事後分布p(x|y)は最右辺に比例することに注意していただきたい.この仕組みにより,多数のパラメータも安定して推論できるようになり,結果として高い予測能力とデータ記述能力を同時に持つ総合的な統計モデルが構成できる.本書では,この一連のモデル化行為をベイジアンモデリングと呼んでいる.
 パラメータの安定した推定技法としては,拘束(制約)付最小2乗法や最大エントロピー法がよく知られている.パラメータに何らかの罰金(拘束)を課すこの種の手法は,すべてベイズモデルの特殊形になる.これらの手法は,有限の観測データから直接観測できない多くの量を推測する,いわゆる逆問題の解決に利用されてきた.言い換えれば,逆問題の解決にはその未知の部分(つまりパラメータ)に対する我々の期待や既存の知識を積極的に事前分布としてモデルの形で表現し,能動的に情報抽出を行うことが必須であることを物語っている.
 ベイズモデルに基づく逆問題解法の成功例は,地球科学の分野にすでに数多くみることができるが,今,そのデータ解析の最前線は,データ同化と呼ばれる手法で新たな展開を見せつつある.気象予測を例にとって説明してみよう.
 毎日,膨大な数の人工衛星,航空機,船舶,ブイ,地上観測点からのきわめて大量なデータが気象予報機関に届く.一方,スーパーコンピュータ上では,物理・化学プロセスを数値表現したシミュレーションモデルが常時活躍している.それでも,データおよびシミュレーションモデルをそれぞれ単独に用いるだけでは,気象予報,特に長期予報や局所予報は難しい.すなわち,データからの情報だけでは高精度予報にはきわめて力不足であり,他方,シミュレーションモデルは所詮近似モデルであって,未来永劫,現実を忠実に表現することはできない.有効な解決策は先験的情報,この場合であればシミュレーションによる数値演算結果と,きわめて大量のデータからの両方の情報を活用することである.つまりここでは,シミュレーションによるアンサンブル予測(モンテカルロシミュレーションといってもいいだろう)がp(x)に,また,シミュレーションの結果と実際のデータがどの程度合っているかを記述するモデルがp(y|x)に対応する.前述したベイジアンモデリングによってこの両者の情報を統合する作業が,第1章で紹介するデータ同化と呼ばれる作業である.
 ここまでくると,当然,事前分布の投入具合,つまり事前分布への信念の置き具合いはどのようにして決めるのかという疑問が沸く.これには,事前分布にもパラメータを導入することで自由度を残し,データ処理前の事前分布の決め打ちを避けることで対処するのである.つまり,事前分布をp(x|a)で与えるのである.ベイズモデルでは,このパラメータaのことを超パラメータと呼ぶ.超パラメータに対してもさらに不確実性を許容し,(a)を具体的に計算に導入し,さまざまな積分操作によって推論を行っていくのが階層ベイズ法である.
 階層ベイズモデルでは,超パラメータを一つの値に決めることは避けたが,周辺尤度
  p(y|a)=∫p(y|x)p(x|a)dx
の最大化によってデータに基づいて超パラメータを決定した後,諸々の推論を行うのが経験ベイズ法である.データyは所与であるので,左辺は超パラメータaの関数となることに注意していただきたい.本書でベイズ法といった場合,経験ベイズ法も階層ベイズ法も区別せず,広く一般的にベイズモデルを利用した統計的推論をそう呼ぶことにする.
 階層ベイズモデルを模式的に書いたのが図0.1(a)※省略である.第3章で紹介される,各個人の購買にまでモデル化を試みるマイクロマーケティングの応用例では,階層性が自然にモデルに入ってくる.最下層では個人の購買行動といったミクロ単位の確率モデルを採用し,階層が上がるにつれて個人の特性,層別化された集団の特性,地域の特性,そして時代効果といったように,各デモグラフィック(demographic)が階層ベイズモデルの階層に対応するわけである.第2章で紹介する動画像認識への応用例においても,情報処理の流れを俯瞰し,各処理プロセス間に実在する階層性を利用したベイジアンモデリングがなされている.
 このように,マイクロマーケティングと階層ベイズモデルの親和性が高いことは明らかであるが,階層ベイズモデル等のベイズモデルがマイクロマーケティングで活躍していることについては,もう一つ大きな理由がある.その理由は,マーケティングの各種データに典型的なスパースな情報空間(以下に具体的に説明する※省略)の取り扱いにベイズモデルは適しているからである. POS (Point of Sales)データ,各種会員カード,電子マネー,ICタグ,インターネット調査等々,人々の諸々の日常生活をとらえるデジタルデータの集積が加速する一方,個人の嗜好や状況に合わせたマーケティングを可能にする枠組みが求められている.個人に焦点を当てた研究の流れは,特にマーケティングの分野に限ったことではない.社会からの要請に目を向けると,低価格化(低コスト化)とあわせて資源の有効利用,つまり資源利用の選択と集中が焦眉の急である.また,価値観の多様化などを受け,“コ”(個人,個性,個別,固有)に特化したサービスがあらゆる日常生活の場で求められている.オーダーメイド医療,副作用の研究,テーラーメイド教育,環境に優しい製品など,すべて”パーソナライゼーション(Personalization)”という情報技術で概括できる“コ”に特化したサービスあるいは製品である.
 では,パーソナライゼーションを達成するために必要な技術は何であろうか.これにもベイジアンモデリングが必須である.図0.2※省略に示したように,さまざまな医療診断項目(横項目)に対する各個人の結果(数値,カテゴリーデータ)のデータが縦に大量に並べられたデータセットを例にとって考えてみる.大量のデータが得られるようになったとしても,健康な人とそうでない人は自ずと検査項目が異なり,その結果,すべての項目にデータがある場合は極めてまれである.ある病気の因子を探ろうとして条件をそろえる操作,例えば身長,体重,中性脂肪値,遺伝子発現データ等々が似た値を持つ人のグループで病気の発症に大きく影響する特徴量を探し出そうとしても,条件数が大きくなるとすべての条件項目で似た値を持つケース数が著しく減少する.このようなデータの有限性,表でいえばごく一部分にしかデータが埋まっていないような情報の欠損(スパースな情報空間)を前提として,“コ”に特化したサービスを実現しなければならない.そのためには,ある特徴量(属性)において似た値をとるものは,他の特徴量でも似た値をとることが期待できるといったような先験的知識を活用することで,表でデータが抜けているところを埋めていく作業が必要である.それも決定論的に埋めるのでなく,先験的情報を利用して確率的に情報を埋めていく.つまりベイジアンモデリングの登場である.この作業(Imputation)が終われば,上述の条件付けの作業を行ってもケース数がゼロになることは避けられ,結果として“コ”に特化した戦略が可能になる.マーケティング研究においても,既存の現場での経験的知識やマーケティング理論など,ありとあらゆる先験的情報にもとづく人間行動のモデル化により表が埋められ,個人の嗜好や状況にあわせたマーケティング戦略立案が実現されている.
 さて,階層ベイズモデルに話をもどそう.図0.1(a)※省略に示した階層構造を横にすることで,階層ベイズモデルは異種情報を統合するプラットホームにもなり得る.このことを模式的に示したのが図0.1(b)※省略である.今,図0.1(b)※省略の一番左端にあるように変数yとxの間の関係がp(y|x)で,aの情報の不確実性がp(a)でモデル化されている状況を想定する.このとき,xとaの間の関係をもし何らかの形で確率的に表現し,これを統計モデルp(x|a)で与えることができたならば,データyに基づいたaの不確実性の評価が可能になる.図0.1(b)※省略では点線で示されているp(x|a)の関係を明示的に与えたならば(実線にしたならば),いままで分離していたyに関する情報とaに関する情報を統合することができる.この仕組みを利用した例が,第4章のゲノムデータ解析である.
 本書は,平成18年12月4日に開催した,赤池弘次統計数理研究所元所長の第22回京都賞受賞記念シンポジウム「ベイズモデルによる実世界イノベーション」(情報・システム研究機構及び統計数理研究所主催)の講演をまとめたものである.京都賞の授賞式は平成18年11月10日に厳粛かつ華やかに行われた.その様子は,稲森財団や統計数理研究所のホームページ,および,テレビ,新聞など各種マスメディアにも多数報道されている.また,授賞式のあとには,記念講演会および記念ワークショップが開催された.京都でのワークショップは,赤池元所長の多々ある業績のなかで,特にモデリングと情報量規準,AICに焦点をあてたもので,著名な先生方による講演が行われた.一方,本シンポジウムは,ワークショップでカバーしきれなかった赤池先生の数多くの業績の一つであるベイズモデルの研究領域をシンポジウムのテーマとして取り上げ,その最新の研究成果を比較的若手の先生方にわかりやすく解説していただく企画とした.赤池先生とベイズモデルとの接点は,付録におさめた北川所長の解説をお読みになっていただきたい.
 東京大学医科学研究所の山口類氏には原稿を丁寧に読んでいただき,多くの指摘を頂戴した.本書の出版にあたっては,東京電機大学出版局編集課の菊地雅之氏にはひとかたならぬお世話になった.これらの方々には心から御礼申し上げたい.最後になるが,実世界との接点を最も大切にしておられた赤池元所長の高い志を讃える本になればと祈念している.
平成19年5月
樋口知之
刊行によせて?AICとベイズモデル
第1章 シミュレーション科学と統計科学の融合:エルニーニョ,津波の場合
 1.1 演繹と帰納
 1.2 データ同化とは
 1.3 逐次データ同化手法
 1.4 分布の表現
 1.5 アンサンブルベースのデータ同化技法
 1.6 エルニーニョ現象への応用
 1.7 津波データ同化
 1.8 未来デザインの道具へ
 参考文献
第2章 確率モデルによるヒューマンモデリングとその応用
 2.1 逐次ベイズ推定とは
 2.2 脳における信念形成機構の解明
 2.3 モデル同定強化学習によるマルチエージェントゲームの学習
 2.4 ベイズフィルタによる視覚追跡
 2.5 本章のまとめ
 参考文献
第3章 ベイズモデリングによるマーケティング戦略
 3.1 マーケティングとは何か
 3.2 マーケティングとベイズモデリング
 3.3 分析事例
 3.4 マーケティング分野で統計科学が期待されるもの
 参考文献
第4章 ベイズモデルによる遺伝子制御ネットワークの推定
 4.1 バイオインフォマティクスと計測データ
 4.2 マイクロアレイデータによる遺伝子ネットワークの推定
 4.3 創薬ターゲット遺伝子のイン・シリコ探索
 4.4 今後の課題
 参考文献
付録 情報量規準AICからベイズモデリングへ?赤池弘次氏がたどった道
 A.1 予測の視点と最終予測誤差FPE
 A.2 分布による予測と情報量規準
 A.3 パラメータの制約とベイズモデリング
 A.4 情報化時代の統計的モデリング
 参考文献
索引
著者紹介

ご注文

2,200円+税

カートに入れる

外部サイトで調べる

シェアする

このエントリーをはてなブックマークに追加

おすすめ書籍

お知らせ

一覧