« 最長一致文字列の話 | Main | 機械学習のチュートリアル (ICML2008) »

2008.07.17

自然言語処理の話

先日、自然言語処理はどのように役に立つのかというので酒の席で討論になりました。

自然言語処理とは、人が日常的に使っている自然言語(コンピュータ言語との対比でそうなってるらしく、日本語とか英語とか)をコンピュータに処理させる技術で、様々な技術と問題が融合する境界領域です。純粋な言語理論だけではなく、人工知能やら統計やら何でもまじってます。広義だと情報検索(の基盤といったほうがいいかな)とかも含まれます。

絵とか動画がいくらリッチな情報だとは言え、「昨日私がクーラーかけっぱなしのまま、裸で寝てしまい風邪をひいた」ということを言語情報無しで正確に伝えるのは難しいです。世の中の殆どの情報は自然言語で表されています。

で、自然言語処理が抱える宿命として、人にやらせると、言語処理は、ほぼ100%できてしまうということがあります。難しくないのです。

これは他の学問ではあまり見られないことで、例えば300kmで走る車を作るというと明らかに人間の能力より進んでいるという意味ですごいなって感じがしますが、このメールはスパムかどうかというのを判定させるのだったら人にやらせれば100%できるのに自然言語処理とかだと98%とかしかいきません。(唯一超えるかなというので機械翻訳とかがありますが、それはまた)

となると、自然言語処理は学問的には、人間の言語がどのような仕組みで動くのか、知能とは何かというのを解明するという意味で面白くすごく重要だと思いますが(赤ちゃんがなぜ恐ろしい速さで正例だけ与えて学習できて、年とると言語の習得が急激に難しくなるか。そもそも文法とは何かということとか)、実用的には人が既にできているものをやってどうするのということになります。

これはとても不思議なことで、人はどう言語を処理しているのか自分では分からないが、読み書きできて話して聞けて言語を使って考えることができるのです。

どのようにやってるのかわからないので、コンピュータにやらせようとすると途端に難しくなります(そういう意味で訓練データを与えて学習する機械学習と自然言語処理は相性がよかったのかも。訓練データは人が作り放題)

なので、デモとか見せても、「ほう」、「で?」ということになります。高校生とかに見せる発表会とかは地味なものです。個人的には係り受け解析や固有表現抽出の精度が数%あがった、すごいー!って思っていても受けが悪かったりします。悪いだけでなく笑われたり怒られたりします(ルーウェリン反応というのもある)。それはそれで正しい反応だと思います。

自然言語処理の実用的なすごさはスケーラビリティと低コストにあると思っています。

例えば、情報検索が一番分かりやすい例かもしれませんが、全ての文書を読まなくても全世界の文書の中から欲しい情報を見つけてくれます。これはインターネット、コンピュータ、自然言語処理が無かった時代と比べると大きな違いです。人間は限界があります。10人でweb上の全部の人名探すぞといって、ある程度うまくいったから、これを10万人に増やしてやろうとなると、これはなかなか難しいことですが、いい自然言語処理器があればコンピュータさえ増やせばできます。

世界最初のコンピュータが稼動してから数ヶ月で、それまで人類が誕生してから行なった全ての計算より多くの計算を行なったように、手元のパソコンはわずか数時間でその人が一生のうちに触れられる多くの言語情報を処理することができます。

しかも圧倒的に安いコストでできます。サービスとかでは違法系の書き込み削除にすごいコストがかかってますが(某大手サービスとかは数百人とかが常時待機)、これを全てとは言わなくても大部分排除できます。

余り、注目されていませんが、adsenseなどの記事連動型広告が動いている技術は情報検索技術並にすごいと思います。低コストで大量の広告をページ内の言語情報を解析して正確にマッチングさせ莫大な収益を生んでるのは今まででは考えられないことです。

人間ができて当たり前のことを、機械ができたら、ずいぶん違います。

もちろん人手に任せた方がいい部分もすごくたくさんあるし、それらを活用することでもっと面白いことができると思います。個人的にはニコニコ動画の市場の商品チョイスとかはいつも気が利いてるなと思うし、はてなキーワードとかをクローリングすれば最新のブログからキーワード抽出を頑張ってやるよりも遥かに質がよく新鮮なキーワードが手に入ります。基本的に人がやって楽しいことは人手でやらせた方がいいでしょう。

これをどう使ったら、みんなが幸せになれるかは使いどころですが、まだ試行錯誤中。
日々精進。

個人的には機械翻訳とかやはり夢ですかね。まだまだ先は長い。一歩ずつ。

#追記 今回の話は実用的な話でしたが、辻井先生が「月刊言語 8月号」で、自然言語処理から言語学へ向けてのフィードバックについて書かれてます。内容もさることながら文章も相変わらず上手い。私自身「確率的言語モデル」本の辻井先生のあとがきを読んで自然言語処理にやってきました。

|

« 最長一致文字列の話 | Main | 機械学習のチュートリアル (ICML2008) »

Comments

Post a comment



(Not displayed with comment.)




TrackBack

TrackBack URL for this entry:
http://app.cocolog-nifty.com/t/trackback/3041/41880676

Listed below are links to weblogs that reference 自然言語処理の話:

« 最長一致文字列の話 | Main | 機械学習のチュートリアル (ICML2008) »