« May 2007 | Main | July 2007 »

2007.06.30

ACL2007@チェコ

自然言語処理の最大の学会であるACL@チェコ・プラハに来てます。2年前にチェコを観光した時と同じホテルに泊まってます。なんともいえない。
今日で7日目。毎日おいしいビールを飲んで肉食ってます。胃がやばい

聞いた中で覚えていることを箇条書き

WS2 StatMT(統計的機械翻訳)。Shared Taskで行われた各グループの翻訳結果と、実際の人による評価の相関を調べた結果、自動評価手法としてデファクトスタンダードで用いられている指標であるBLUEが実は人の評価指標とあまり相関していなくてわかり他の手法(例えば、Semantic roleを使ったもの)の方が相関があることが分かった[pdf]。Semantic Role Labelingはもともと機械翻訳に利用されることを意図されて作られたと聞いていたが、実際に効果が示された初めての例。

・さらに前評判の高かったSystran社による機械翻訳システムが予想通りShared Task全体で最高レベルの結果を出していた。Systranはルールベースの機械翻訳システムで有名だが、こうした統計的機械翻訳と同じ土俵に立ってその、性能の差を比較するというのはとても面白い。さらにSystran社の技術者によるInvited Talkがあり、かなり細かいところまでごりごりルール書いているんですよという解説。ルールを書いて8つ良くなって1つ悪くなるぐらいなら採用という話など具体的な方法論なども。

・チュートリアル。自分はウェブマイニングTextual Entailment。ノンパラメトリックベイジアンのチュートリアルはすばらしいスライドがあります[pdf]。

・ACL本会議。自分の発表は一日目の最初から二番目 "A discriminative language model with pseudo-negative samples" [pdf]。与えられた文が正しいかどうかを学習するのに大量の負例を確率的言語モデルからサンプルして学習するという話。予想通り質問があんまり聞き取れなかったが、表情でなんとなく察した。

・"A Bayesian Model for Discovering Typological Implications" pdf
世界には言語が数千とありそれらの言語が持つ共通性や差異を言語学者はせっせと調べているのだがそれをベイジアンモデルでモデル化して調べたら既に多くの特徴が実際に抽出できる発見されたそうだ。

・"Statistical Machine Translation through Global Lexical Selection and Sentence Reconstruction" pdf
BOW(単語を順序を無視して集合の情報だけにして)で翻訳先の単語を選ぶ、で並び替える。言語モデルの方をがんばったらこれでも結構いくんだろうなぁ

・"Randomised Language Modelling for Statistical Machine Translation" pdf
言語モデルを作る場合、大抵少ないカウントのところが殆ど占めてメモリたくさんくってしまうけどBloom Filterをつかって性能保障付きでメモリ使用量少なくする

・"Constituent Parsing with Incremental Sigmoid Belief Networks" pdf
毎年ニューラルネットでパーシングしてじわじわと精度を上げているグループが今年は近似手法をさらに精密にし、Charniak Parseにようやく追いついた。ICMLにもペアの論文 "Incremental Bayesian Networks for Structure Prediction",pdf ちょっとこのへんは勉強しとこう

・"A Fully Bayesian Approach to Unsupervised Part-of-speech Tagging" pdf
UnsupervisedでPOS taggingをする場合はモデル作って最尤推定を使って推定するが、それだと各クラスが大体同じ大きさになる。Bayesian的にやるとパラメータがスパースになるpriorを使ってモデルを作ることができて自然言語のようなZipfの法則があるところフィットする。Mark JohnsonもEMNLPのposterで同じようなことをポスターで発表してた。

・"Computationally Efficient M-Estimation of Log-Linear Structure Models" pdf 
CRF等は正規化項を計算するのが重くなかなか大きい問題に適用できないのだが、(HMMなど)簡単なモデルでpriorをつくり、そのpriorとlog-linearモデルと真の分布とのKL-divergenceを最小化する問題を解くようにすると、正規化項を求める部分がいらなくなり高速になる。性能と訓練時間はどちらもHMMとCRFの中間ぐらいらしい。
いろいろこれからやりようが多そうで、これが一番興味深いといってた人が多かった。

・"Guided Learning for Bidirectional Sequence Classification"pdf
構造を持った出力を予想する学習を単純な問題に分割して順にといていく場合、どの順番で解いていくかが問題となる。前(後)から順番や、簡単に解けるものからgreedyに順番に解く方法などがあったが、これは解く順番も一緒に学習する。POS taggingで現在最高精度

・"Chinese Segmentation with a Word-Based Perceptron Algorithm" pdf
パーセプトロンを使って文を単語に分割するのを学習する。(訓練とテスト時)のデコーディングが問題となるがそこは、そこはビームサーチを使う。発表の後でグローバルフィーチャーを入れたらデコーディングはどうすればいいかを少し相談したのだが、現実的には、アジェンダを各単語の切れ目でためておいて、バックトラックするとかかなぁと。

・"Unsupervised Coreference Resolution in a Nonparametric Bayesian Model" pdf
以前一度日記で紹介したがもう一度。Coreferenceは文中にある単語(Harry Potterのような固有名詞から、this やthat, which とかも)が同じものをさしているかどうかを分ける問題で、この問題では分けた結果何個の要素があるかがわからないのでそこでノンパラを使う。さらに考えられる様々な特徴(男性、女性、直前に言及したかなど)をどんどんグラフィカルモデルにいれていくと精度がどんどんあがり、教師無しながら教師有の場合に匹敵するぐらいの精度が出る。

・"Learning Synchronous Grammars for Semantic Parsing with Lambda Calculus " pdf
ACLのベストペーパー。文とlogic formで与えられた意味のペアからλoperator付きのsynchronous Grammerを学習するという話。CCGみたいなものを学習すると思えばよいのか。ACLの最後の方だったので疲れてよくきいてなかった。

・"Modelling Compression with Discourse Constraints " pdf
EMNLPのベストペーパー。文要約の一つに単語をどんどん間引いていって短い文を作る(ニュース本文からyahooのヘッドラインをつくるようなもの)Sentence Compressionというタスクがあるが、間引いた文が文法的に正しい、意味を失っていないという制約の他に、前と後の文との整合性がとれているということも重要。この問題を線形計画問題にして(i番目の単語が含まれていたらx_i=1,ないならx_i=0)、制約をいろいろとかいていって(名詞x_jが選ばれたらその修飾詞 x_iも含まれる x_i - x_j >= 0)とか、で整形計画法ソルバーで解ける。
質問に線形計画法を使うと(計算量が多いので)環境にやさしくないという質問があり会場が盛り上がった。

・"The Infinite PCFG Using Hierarchical Dirichlet Processes", pdf
PCFGのノードがそれぞれ何個あるかわからない問題をノンパラベイズでやりましたという話。チュートリアルをしているぐらいだけあって、とても分かりやすい話だった。結果としては訓練データ数が少ない場合でもオーバーフィットしないという特徴があるけど、多くなるとクラスタリングベースの手法でも変わらないという話。他にも応用がありそう

他にもいろいろ面白いが話があったのですが、それはまた今度機会があれば書きます。
明日もEMNLPとか係り受け解析祭りとかあります。

| | Comments (2) | TrackBack (0)

2007.06.21

チェコとネタ

明日(6/22)から7/2までチェコのプラハにACL2007とワークショップに参加するため行ってきます。自然言語処理尽くし

IPAXESper2007は展示・デモしますが残念ながら、私自身は行けないです。いろいろ話を聞きたかったなぁ

あと、全然関係ないのですが最近気になったこと

・関数型言語は環境を破壊することにより成り立っているので地球にやさしくない(U氏談 意訳)
・丸の内線でピンクパンサーにそっくりな格好の外国人のおばちゃんがいた。白い上下にピンクのジャケット?を着ていたのだが、その日の疲れが吹き飛ぶぐらい似ていた。許されるなら写真をとりたかった

| | Comments (0) | TrackBack (0)

2007.06.15

最大エントロピーモデル

自分の復習も含め、最大エントロピーモデルについて勉強会で発表しました。発表資料 [ppt] [pdf]
今年のACLやICMLなどでの発表などを解説してます。論文中になかった式導出とかもしてみてます。
発表中では結構口頭で補足した部分があって、この資料だけでは不十分だと思います。適宜引用先などを参照してください。

最大エントロピーモデルは高次元の確率分布推定に適していて自然言語処理や、最近だと動植物がどのように分布しているかなどの推定等、広い分野で使われている確率モデルです。

#修正+質問・回答スライドを追加しました

| | Comments (18) | TrackBack (0)

2007.06.12

凸最適化

凸最適化問題に触れる機会が多くなり、復習しています

凸最適についてはboyd本が有名ですが(なによりpdfがおいてある)、730pは読むのが大変です。講義用スライドが絵も多くおすすめです。

凸最適といえば、離散凸最適もちゃんとおさえときたいですが、よさそうなチュートリアルとかはないですかねぇ。

凸が縦に並ぶとおもしろいなぁ

| | Comments (362) | TrackBack (0)

2007.06.04

Core Vector Machine

SVMをはじめとした、多くの"Kernel法を利用した凸二次計画法問題"は、ある条件(自分自身同士のカーネル値が常に定数)を満たしていれば、適切に問題を変換することで最小包含球問題として解けることが知られている(core vector machine [google scholar] )。

凸二次計画法問題は入力データサイズに対してスケールせず、訓練データ数が1万以上とか多くなるととたんに破綻するのに対して、最小包含球問題は近似法がいくつか知られており、それらを利用すれば大規模な訓練データを利用した学習が可能となる。

で、その最小包含球の近似法の一つに中心を適当に決めて半径を決めた後に、球から外れている要素をぽこぽこ追加し、半径を最小にしつつ中心を更新していく方法が提案されたが[link]、結局中心の更新式がPassive-Agressive Learning[link]と殆どに似た形になり、パーセプトロンの学習則のように(変換された)訓練データを重み付きでたしこんでいく形になる。

似て当然な気もするけど最後が似た形になったので気持ちいいなぁ。

そう思った日曜の昼下がりでした。

| | Comments (606) | TrackBack (0)

2007.06.03

むら

プログラミングしたい、計算したい、論文かき、よみたい、遊びたいという波が交互にどばーっときて、それはコントロールできなく困り者なのですが、最近のそれはプログラミングでした。面白そうなのを片っ端から実装してたのですが、今までとちょっと変わったところでは、DBの技術に興味がではじめて(使う方ではなく作る方)いろいろやってました。どの分野もきちんと取り組めば面白いですね。

「可能な限り好き勝手やる」が最近見つけた好きな言葉ですが、コントロールしないと効率が悪いのも確か。どうしたものか日々考えてます。

| | Comments (7) | TrackBack (0)

« May 2007 | Main | July 2007 »