« February 2007 | Main | April 2007 »

2007.03.23

卒業と総長賞

修士を無事卒業しました。同じ研究室の博士課程行きます。

卒業式は会場に入れずにのぞき見る感じで。
卒業証書授与式はいろいろありがたい話をうけつつ無事受け取る。あってよかった。

今回はさらに、総長賞を受賞したので受賞式のため小柴ホールに。
推薦していただいた先生ありがとうございます。
他研究や活動の話を聞くのは楽しいですね。自分の発表はいっぱいいっぱい

で受賞後、懇親会。いろいろな分野の方と話しました。
返り際、同じく総長賞を受賞した嗅覚のすごい研究していた岡さんに、これから何をするんですかときいたら「次は味覚をやるよ」といってたのが、すごいかっこよかった。

でそのままタクシーで学科飲み会。どうしようもない話からしょうもない話まで喧々諤々話す。
帰りは終電を逃しかけ危うく学校に泊まるところだった。

心機一転また頑張ろう

| | Comments (0) | TrackBack (0)

2007.03.21

言語処理年次大会

初滋賀上陸。龍谷大学が会場です。

自分の発表は最初の方でした。[発表論文(pdf)] [発表資料(ppt)](発表資料のフォントがメイリオなので崩れてしまうかも)

夜は若手の会で焼酎をたくさんいただきました。いろいろな謎があかされた。
卒業式出るため、もう東京戻ってきました。

あまり発表みれませんでしたが私が面白かったのは、

"Predictive naive Bayes Classifierの提案と言語処理への適用"
機械学習では、ハイパーパラメーターという自分で決めなければならない厄介なものがあり、大抵はこれをデベロップメントセット上の精度がよくなるようにいろいろ調整しないといけないが(現実的には2分探索とか)、naive Bayesの場合には頻度情報だけで識別器があらわされているので、leave one outでの精度がよくなるような、ハイパーパラメーターαを閉じた式で直接求めることができる。

そのほか気になるものはこれからじっくり読んでみます。

直接の発表内容とは関係無いが気になったもの。

・英語版wikipediaで日本メディアの右翼、左翼度がはっきりかかれている[link]

・英文の難しさは、リーダビリティ[link]というものを使って測ることができる。これは単語自体の難しさや文構造の難しさではなく、平均音節数、平均文中単語数などを使って、統計的に求めることができ、いろいろな英語のテストがこれで統制されているそうだ。

・言語学セッションの雰囲気が違った。「なんとかという人はこういっていたそうです。」という質問の始め方は私には新鮮だった。

| | Comments (2) | TrackBack (0)

2007.03.19

登別温泉

卒業旅行ということで、登別温泉に一泊二日で行ってきました。ただ、途中で、参加者8名のうち実際卒業するのは一名ということが分かり(他全員進学、または社会人)、「旅行」になりました。

私自身は出発30分前まで飲んでたので、マイナスからのスタートだったのですが、北海道の青い空と白い大地、そしてウコンの力のおかげで最悪の事態は免れました。気圧が変わるとほんとうにまずいですね・・

最初、札幌観光。時計台見て、朝飯食ってスープカレー食いました。予想以上に辛かったです。そして登別に移動。ひなびた旅館をイメージしていたら意外と立派な旅館でした。風呂入って、飯食って(ステーキうまかったな)、人生ゲーム。睡魔と闘いながらやってたけど、意識が戻るたびにお金が減っていて、最後はあやうく開拓地にいった人に負けそうになりました。そしてもう一度風呂で露天風呂等で他人に迷惑かけない程度に楽しみました。

夜はビールをかけられそうになったり、傘をもったりしながら、ぐっすりねて、翌日は地獄谷観光。友人がくつひもを結びはじめると泡がぼこぼこでるという相関を発見。昼飯はまた札幌に移動してジンギスカン。その後白い恋人工場に行き、夕食に味噌ラーメンを食べ、帰京。濃密

そして、家につき、今に至る。今日から滋賀

| | Comments (0) | TrackBack (0)

2007.03.14

鳥、焼肉、カレー、ハンバーガー

週末は、高校の同級生のいつものメンバーで飲み。手羽先を食った。同級生の近況を話したりしました。吉報がありいろいろと苦労話も。みんないろいろありつつ、根は同じ。6年ぐらいでは人はそれほど変わらないなぁ

そして日曜はワークショップ後、焼肉を食いにいく。うまい焼肉は人を幸せにする

その翌日のワークショップ終わった後、プティフで豆腐カレー。栗原さんにdirichlet processの疑問に思っていたことをいろいろ聞き、ようやく納得いく。要素の種類数に上限がない場合でもうまくpriorをつけられるものと考えたらいいですね。

Chinese Restaurant Processの生成方法って、可逆圧縮のPPM (prediction by partial matching)とかで使われているescapeと似ているんですよね(PPM escapeで検索したらはるか昔に書いたページがまだトップだった。まずい・・)

PPMでは、次の文字の出現確率を予測して符号化していくのですが、そのとき、今まで見たことがない新しい文字に対し、次のようなescape確率を与えます(他の文字の出現確率はその分減らしておく)。与え方でAからXまで名前がある
A 1/(n + 1)
B (u-t1)/n
C u/(n + u)
D (u/2)/n
P t1/n - t2/n^2 - t3/n^3 - ・・・
X t1/n

(nは今までの合計文字出現数 uはescapeの出現した回数。初期値1  tiはi回出現した文字の種類数)

それに対し、CRPでは次の確率で、新しい文字(要素)を作ります
\alpha / (1+\alpha)
\alphaはscaling parameter

PPMで使われているエスケープ確率は今まで(生成モデルとしては)アドホックに決められていたのですが、なんか説明付けできそうですね。逆にこれらで経験的にうまくいっているやつ(Dとか)が、実は、なにか意味があるのかなぁということにもなりそうですね。Kneser Neyも説明できたわけですし。分かる人が見たら上の見てすぐ思いつくんですかね。exchangabilityが微妙だなぁ

今日はワークショップ終わって打ち上げで、fire houseでハンバーガー。

| | Comments (22) | TrackBack (0)

2007.03.10

中華料理から焼き鳥へ

今日はMark Johnson先生がいらっしゃったので、力一杯解説してもらった。難しい確率モデルでのMCMC(pdf)やら、最近よく聞くDirichlet ProcessやらChinese Restaurant Processとそのアプリケーションなどなど。

夜はとり龍で焼き鳥。ここうまい。

| | Comments (0) | TrackBack (0)

2007.03.08

新宿ジュンク堂

新宿ジュンク堂(三越の上)が増床して、3階分に。本の種類がさらにマニアックに。(コミックとか作家別になったり、コンピュータの洋書もおかれたり。雑誌もバックナンバーが増えていいです。

いくつかとって、椅子に座って読んでみて、きちんと読みたいなと思ったら買う。ジュンクの思うがまま

今回面白いなと買った本はこれ

Linuxカーネル2.6解読室 (単行本)

今まで、カーネルがどうなっているのかはあまり知らなかったですが、これを読んで壁は低くなったなぁと。どうやって、いろいろな機能を実現しているかがコードと供に解説してあって読み物としても面白い。
個人的には、今自分がやっていることとの関係上、パフォーマンス関連のことと、ファイルシステムとかメモリ管理が面白かったなぁ。

| | Comments (7) | TrackBack (0)

2007.03.04

Tx

いつもプログラム作りっぱなしだったので、解説とマニュアルを書いてみました。Tx。省スペースなtrieです

とりあえず出すところまで行きたかったので最低限の実装と解説しか書いていませんが、これから少しずつ書き足していきます。

結局、これを使って今何ができるかというと、キー集合があったら、それらに(入力順ではないが)固有の番号を0から順に付けられて、Txを使って、キーの番号を引くことができる(もしないなら、NOTFOUNDが返ってくる)。
大体入力キーのトータルの長さの半分ぐらいのスペースでできます。

アプリケーションを作る場合は各キーに付随するデータをvectorとかにキーの数だけいれておいて、それらをTxを使って参照、操作することになります。その例も作らないと

loud (level-order unary tree)とよばれる木のsuccinct な表現を使ったアプリケーションを作ってみたかったことからやってみたのですが、double arrayなみに高速化できれば用途もでてくるかなぁと。今はselect操作を適当にさぼっているので遅いと思うのですが、きちんと実装すればキャッシュも効いてきて速くなるかな。

| | Comments (0) | TrackBack (0)

« February 2007 | Main | April 2007 »