« 東京ガイド | Main | うどんどう »

2005.03.14

言語処理年次大会

今日はチュートリアル。自分が理解した部分のダイジェスト
tfidfの重み付けのidf。普通はエントロピーに似ているとかという強引な解釈をするが、他の解釈として、その単語が現れた場合の文書出現の確率P(d_j|t_i)と、一般の文書出現確率P(d_j)とのKL-divergence、K(P(D|t_i)||P(D))としてみることができるという話。この場合実は(1)全文書の大きさが等しい、(2)語は、それが出現するあらゆる文書で同じ頻度で出現する というかなり強い仮定(近似)を入れてはじめてidfと同じ形になる。この仮定は入れなくても計算できるような気がするけど、その場合の結果ってどうなるんだろうなぁ。

統計的識別の話では、SVMとかいきなり強力な識別機を使うのではなく、まず最初に主成分分析とかで次元を減らすとか、入力を分析することで線形分離できるような形にしてから簡単な分類機にかけるべきだという話であった。確かにまず簡単な形で分類できるかどうかは確かめてみるべきだなぁと思いました。(たとえば、それぞれのクラスの平均からのユークリッド距離とか)あと、ベクトル値として扱えるかどうかは慎重に議論すべきだという話でした。

|

« 東京ガイド | Main | うどんどう »

Comments

Post a comment



(Not displayed with comment.)




TrackBack

TrackBack URL for this entry:
http://app.cocolog-nifty.com/t/trackback/3041/3299691

Listed below are links to weblogs that reference 言語処理年次大会:

« 東京ガイド | Main | うどんどう »