« September 2004 | Main | November 2004 »

2004.10.31

寒い

季節になってきました。しまっていた冬物を取り出そうと思ったら、なぜか濡れている。雨漏りらしい・・

基本的には実験と論文直し中心だけど、他には論文読んだり、Convex Optimization読んだり。個人で買えないような本がWebで手に入るって素晴らしい。最近Web上の本をアップする例増えてますね。

一日や一週間頑張るのならできるけど、一年コンスタントに頑張るのは難しい。ましてや一生など。楽しまないと。と思った今週

| | Comments (0) | TrackBack (0)

2004.10.29

今日は

あまり睡眠時間をとってなかったので、というのは言い訳にすぎないが、話をきいているときに何回か意識がとんでいった。頭を壁にうちつけても体を動かしても、少しでも自主的に考えると意識がとぶ

その後英語を直して、実験を少しして。論文完成はまだまだ先だなぁ。時間あまりないなぁ。
いろいろなアイディアがぼんやりと浮かんでは消えていく。まずは1ヶ月ぐらいのスパンでやれるところまでやってみるか。

| | Comments (0) | TrackBack (0)

2004.10.28

今日もいろいろあったはずだが、すべてふっとんだ。

家にくたくたでついたところ、なぜか野良猫が部屋の真ん中で寝ている。追い出そうといろいろやるが、あまり動かない。対処法がよくわからないでメッセで聞いてみるが、鍋にするとか、タヌキにしろだとか意見が出ない。
同居しているばあさんは、猫嫌いなのでなんとか穏便にことをすませようと、猫と、追いかけっこをすること数分。なんとか猫を外に出した。

確かに家の中は暖かいけど。

| | Comments (2) | TrackBack (0)

2004.10.27

輪講が午前に無い

前日ということで、みんなのゴルフで夜更かししてしまった。もう明日の午前のバラ色計画はほぼ崩壊。
朝7時に家をでてスタバで本を読む。髪切って、服買って、ビックカメラでずらーっとみてから、学校に登場

としたかった・・

夢の中でそうしよう。

| | Comments (1) | TrackBack (0)

典型的な一日

午前輪講。CFGを用いた自然言語の意味論解析。
午後ミーティングで博士課程の人の発表。神経言語学。人の脳で言語がどうなっているのか。人の頭ぐりぐりするわけにはいかないし(昔はしてたけど)、例えできたとしてもいいモデル化を仮想しないと調べようがないだろうと。話題になった意識の固定の瞬間をとらえたというのはこれかな?立ち読みしよ。その後パーサーの高速化と精度、再現率の話。Lexicalized CFGとHPSGどっちがいいのという話にもなった。これらのパーサーを使って、その後に何らかの処理を行うことが前提であり、曖昧性も含めてN-bestの形で出力したほうがいいというのはわかったけど、パーサー使ったキラーアプリケーションみたいなものってあるのかなぁ・・ 知らないだけ? そう思うと、NLP使って検索か文書分類したいなぁ。NLPはIRに使えないとさんざんにいわれたものだが。まずは過去の挑戦例をしっかりサーベイ

論文はとりあえずできて、あと実験結果を測定しようとしたら、計算機サーバーでプログラムが動かず悩んでいたら、Windows側でも動かなくなった。いろいろ調べたら最後にデバッグのためいろいろいじったのが原因だったらしい。とんでいった1時間。

帰りはグラフ理論の本。ラムゼー理論など。わからん。

| | Comments (1) | TrackBack (0)

2004.10.26

健康弁当

を1分くらいで食べる。健康相殺。

教えていただいた、Multinominal Manifold やら、Latent Maximum Entropyやら読む。言語モデルに、ベイズ推定によるスムージングモデルを読んだりしてました。一回ではなかなかわからないので何回か読まないと。

そのあとはひたすら論文英訳してました。日本語書いてから、英訳してはいけないといわれても、両方同時にできるんだもの。まぁ、日本語、英語とも書き直しますが。

グラフ理論の本を輪講前に少しずつ読み進めてますが、純粋数学も面白いですねぇ。残念ながら能力はないのですが、入学当初、数学科を目指してたころもあったし。

| | Comments (0) | TrackBack (0)

2004.10.25

論文

を英訳中。本来なら英語で一から書いた方がよいとどの本も書いてあるのだが、まぁいいだろう。
卒論用の論文もよんでます。NLPが文書分類、検索で必要ないといわれている状況を覆したい

今度から輪講をする予定(まだ正式決定じゃない)の本も気分転換に買ってみて読んだりもしている。
グラフ理論。「任意に与えられた無限個のグラフの中には、一方が他方のマイナーになるような2つのグラフが存在する」という話題?のグラフ・マイナー定理の説明とかがあります。ものすごく重要な定理らしいのですが、今はぜんぜんわからん。

| | Comments (0) | TrackBack (0)

地震

地震の被害にあわれた方々に心からお見舞い申し上げます。

自分自身もかなりの揺れで驚いたが。

| | Comments (0) | TrackBack (0)

2004.10.23

X40

かるーい。よい。
論文かいて書き直しかいて書き直し。すすまない
作業中に図書館の論文検索サービスが止まり、そしてサーバーは明日の停電に備えて落とされ、おとなしく帰る
個人的にお手玉4個特訓中。研究室内でひそかなブーム(二人)

| | Comments (1) | TrackBack (0)

2004.10.22

Partial Decodable Compression with Static PPM

という題名で書いてます。圧縮率はようやくbzipと同等に。もっときつきつにやれば抜けるだろう。問題はその先にあるDurilcaとかPAQとかだが、これらは外部のモデルにかなりの制約を加えているから、そうそう抜けない。でも、今回の論点は別に圧縮率で競っているわけじゃなくて任意の位置から復元できるという点なので別によいのだが。今週中に実験と日本語書いて来週半ばまでに英訳目標。目標 ≒ log(実際)

卒論をそろそろ決めないといけないらしい。大体このへんかなぁと決めてはいるのだが。Enjuを使った研究も時間があればしてみたいなぁと最近思い始めた。パーサ結果をfeatureとして分類なんかしちゃってみたり。

| | Comments (1) | TrackBack (0)

2004.10.20

嘆き

お金も時間もやりくり上手になりてぇ あっというまにきえていくぅ・・

| | Comments (0) | TrackBack (0)

2004.10.19

スポーツの秋

俺は椅子に座り、たまに背伸びをする。よく寝る。そんな日。猫以下。

しかし、プールには良く行く。そのおかげかスタッフ数人に知りあいになってきた。「また来ましたね」「また横に多少」「お早いお帰りですね」などと暖かい言葉をかけられる。

家に帰り、喉が渇いたので冷蔵庫を開けると、もらったビールしかない。牛乳も一応あるが、いつからここにいるのだろうか。その牛乳のさらに奥に同じ種類の牛乳がある。冷蔵庫のぬし。命が宿っている

家に帰るとまともな番組はほとんど終わっているが今はアメフトがやっているので見ている。未だにどのチームがどうなのかというのはよくわからんが、ルールは一応わかるのでおもしろい。スーパー12(ラグビー世界最高峰リーグ)とか地上波か衛星で見られたらいいのになぁ。スカパー入っても元とれないし。タックルとかはほぼ、交通事故。

HMMを高速化するという論文を読んだ。HMMはビタビの時に(1)前向きに各節点のmaxをもとめていき、(2)後ろに最大のものを与えるものをたどることで、最大の確率を与える隠れ状態の遷移が与えられるが、(1)のmaxをとる部分が要素数の2乗かかるということで、遷移数がT、状態数がNの時O(TN^2)かかる。基本的にここはO(n^2)よりは良くならないが、状態の確率が特殊な形をしていれば前処理をO(N)でしておいて、maxをO(N)で求められる。例えば、二つの隠れ状態i,jの間の確率が、exp(-k|i-j|)のように与えられる場合、これのlogをとって符号を反転させておけば、この値は1次元上の点間の最小点を求める問題となって、これは一次元で解ける方法が存在する。他にもexp(-|i-j|^2/2σ^2)のようなガウス分布、そしてこれらを組み合わせることでもうちょっと複雑な遷移確率を持つ場合にも効率よくとける。

今日は輪講用で意味論について読んでまとめてましたが、奥が深いなぁ。というかよくわからん。その後圧縮の最後の実装と実測。圧縮の参考としてPAQARSlimのコードみてます。アルゴリズムは同じでも、実装で数倍から数十倍違う。

| | Comments (2) | TrackBack (0)

2004.10.17

終電

はなぜか暑い。全体的に悶々としている。

週3の輪講、圧縮、文書分類、バイト、プールの繰り返し。ほかにもいろいろあったけど。車で東京神奈川走り回ったり。今日はPHPで初めてWEBアプリを書いた。楽しい。

| | Comments (0) | TrackBack (0)

2004.10.13

平均場とか変分法とか

Kudoさんの日記にあったAdvanced Mean Field Methodsを読んでます。変分ベイズ法とかはこのも詳しいですね。複雑な依存関係を持つようなグラフィカルモデル(隠れ要素、観測できる要素を構成要素として、依存関係を持つ場合に枝があるとして見た時、クリークのサイズが1とか2ならば効率の良い学習法があるが、クリークのサイズが大きい場合は計算量が爆発する)を学習させようとしたとき、計算量が大きすぎてうまくできない場合があります。モンテカルロサンプリングを行ったりして近似する場合もありますが、それでもどうしようもないくらい計算量が大きい場合が存在します。収束遅いし

このとき、本来なら依存関係を考えなければならないところを適当に省略して、因数分解できるようなモデルとかで近似します。で、本来求めるモデルとのKL-divergenceが小さいようなモデルを考える。(ほかの近いという尺度があればそれで)そうすると、これを式変形していくと、近似したモデルを学習すべきモデルに近づけると同時に、その近似モデル自体のエントロピーは大きくした方がよいということになって、Maximum Entropy法と同じような話になる。 らしい・・ぜんぜん検討違いのことを言っているかもしれません。近似したモデル(因数分解できるような)を使うことで、SUMとるところを、乗算で求められて、周辺の状況を平均化していることに相当するってことで平均場ってことかな?いいかげんですね。はい、ちゃんと読みます。

| | Comments (63) | TrackBack (0)

2004.10.09

タイフーン

がくるということで早めに帰って地下鉄の駅を出ようとしたら、風と雨が大変なことになっていて、悲惨な光景。いつも見ている光景とは違う。命の危険を感じた。とりあえず傘をさそうと思って、さした瞬間に裏返り、なんとか戻してさして歩くが、意味がなくあっというまにびしょぬれ。その状況で傘を差しながら自転車に乗るということをしてしまったのだが、なかなか危険だった。視界がほぼ0の上こいでも進まない。車にのっているいろいろな人からがんばれといわれた。なんとか家についた。祖母は台風が来ていることを知らなかった。

食料をかってないのでカップラーメンを食べるが、ラ王のジェット湯きりを使ったところ、そのジェットの勢いそのまま麺が全部落ちた。食べたけど

| | Comments (1) | TrackBack (0)

2004.10.06

冷たい雨

が家の中に入ってきてやばい。がんばれうち。
雨の日も自転車に乗って駅に向かうが、びしょぬれ。しかも、危ないし。はやく秋晴れてほしい。

10時頃学校ついて、終電までいるという授業があったころには考えられない生活が「今のところ」続いています。よい傾向。授業があったころは起きると、でりでりきっちんが終わってしまうころにおきていたのだが。

今日は、午前は輪講。午後はミーティングがあったあと、研究室のMicrosoftのCDの山を片付けた後、インストールしつつ実装。本も少しだけ読む。プールに行き、戻ってまた実装し帰る。

random forestを使った言語モデルの話を教えていただいたのですが、今までちょっと決定木を侮ってた。random forest(breimanのサイト)はランダムな学習データ、featureから独立に決定木をたくさん作ってその決定木の集合で多数決をとって分類(または回帰)するというもの。決定木はすぐover fittingしてしまうため、枝狩りをしなければならないのだが、単純に多数決をとるだけで汎化ができてしまう。Ada Boostのように学習データの重みを変えなくてもいいため、完全に並列に学習できるし、高速に学習できる。しかも性能はAda Boostぐらいよい上、ノイズにも強い(Ada Boostだとノイズに敏感に反応しそこを重点的に学習してしまう)。と、いいこと尽くめだとbreimanさんは言ってます。まぁ、決定木ばかりじゃなく、簡単にoverfittingしてしまう学習機なら、ランダムに素性とって多数決とれば汎化するという話をしっただけでもよかった。

言語モデルと圧縮は殆ど同じ話だからrandom forestみたいなものでPPMやれば面白いのかもしれない。そのままやると重すぎて動かないと思うが。決定木を使って次の文字の分布予測をするのはもうありそう。

それと、random forestが使っているスムージングは結局Kneser Neyのひとつ短いところから情報をもってくるという方法(N-gramの推定にN-1 gramからの推定もかりる)について、もうちょっと履歴が似ているところからもうまく情報をもってこれないかなぁと思案中。履歴をもしfeatureの集合で表すならばそれでスムージングするとMEと殆ど同じことになってしまうのが難点。featureの重ね合わせも考慮しようとしてKernelつかって、次の文字を予測する分類に持っていければ面白いのかもと思ったのだがそう簡単に話は進まない。

| | Comments (23) | TrackBack (0)

2004.10.04

パソコンの設定

研究室のパソコンにいろいろ環境を移行していた。意外と面倒だが、これを機に整理もできるのでよろしかったりする。ただ、問題になったのがデータの移行。クロスケーブルでつないで移行するか、メッセでするか。ただ、メッセでファイルを移動しようとすると、ファイアウォールの設定のせいかなぜかスピードがでない。ソフトイーサとかでもいいけど、設定の不手際から研究室のネットワークからデータ流出しても困るし。というわけで結局、はこ箱にデータを全部アップロードして、ダウンロードするという原始的なをとった。ここの商売は変わっていて高速にダウンロードしたかったらお金を払えというシステムなのだ。最初にお試しに一定量まで高速にダウンロードできて、その分で今回は移行できた。10GBあたりは無料で提供できる時代なんですねぇ。しかし、低速モードに変わるととても待ってられなくて、それぐらいなら高速にできる権利を買ってしまえという感じ。いい商売だ。

開発環境はCygwin入れたけど、昔からVisual Studioで作成しているので、入れたいと思っていたらVS2005ベータ版がただで手に入るのでそれを使ってみることにした。いくつかまだできてない部分があるけど、今のところは使える。うれしいのは最適化コンパイラも使えるということ。

プールもはいった。よくねむれそう

| | Comments (0) | TrackBack (0)

2004.10.02

今月の目標

-できたらいいな
DCC出す。
・Class Modelを、教えてもらったHead-Driven ParsingかRandom Forestsを用いた言語モデルに対し適用する。
・SA/STを使った文書分類をつめる。

-やっておいたほうがいいな
・もうちょっとKernel法
統計科学のフロンティアをマスター
・DB全般
・日本語パーサーの解析

-いいかげんやれ
・減量
・英語
・掃除

| | Comments (0) | TrackBack (0)

2004.10.01

プルート

ネズミーランドの喋れない方の犬ではなく、浦沢直樹の新作マンガの方。一巻が出た中吊り広告で手塚治虫と浦沢直樹がタッグを組んだと書いてあって、なんじゃいなと思っていたが読んで見るとおもしろい。内容を話すと面白さが半減してしまうのでやめておきますがお勧めです。立ち読みか買ってください。
古谷実のシガテラも最近の読んだ中のヒット。最新巻あたりから結構怖い

人を笑わせることができる人は、人を恐怖に陥れる方法もしっているだろうな。心を操るのに長けているというか。藤子不二男とかのSF短編集も小さい頃見て結構こわかったような。牛が人を食べるやつとか。
有名どころだけど、リアルもいいなぁ。単行本になるのはすごいゆっくりだけど。

そんなマンガを立ち読みして帰る毎日。コンビニにおいてある池上さんの作品は何かと脱ぎすぎな気がする。

| | Comments (3) | TrackBack (1)

« September 2004 | Main | November 2004 »