« October 2004 | Main | December 2004 »

2004.11.29

エンジニア

CSA(Compressed Suffix Arrays)やらCST(Compressed Suffix Trees)は、理論はよく構成されているが、それをいざ実装しようとなると、いろいろ大変なところがある。算術圧縮の場合も理論的に最適なことが示された後に、実際に高速かつ低領域で実装も簡単にして動かすために、たくさんの改良が必要だったことを考えると、まだまだ、たくさんやることがあるんだろうなぁと。

卒論の文書分類の方は未だにテストセットと既存手法の実装で彷徨っています。圧縮と同じで数字がバンと出るのは面白いなぁ。早くEnju結果を入れて試してみたい。Rubyでがしがし書いてます

| | Comments (0) | TrackBack (0)

2004.11.26

横浜

で一泊二日の未踏の昨年度の成果報告とキックオフがありました。たくさんおもしろそうなのがありました。

帰りに寝過ごして東京越えて埼玉までいってしまった。

| | Comments (0) | TrackBack (0)

2004.11.25

Document集合に対する演算

などをひたすら調べてました。アルゴリズミックな部分を調べるのは久しぶりだ。
http://athos.rutgers.edu/~muthu/doclist-soda.ps
をはじめ、SA、ST、CSA、CST関連いろいろ。いろいろ調べて、どれが最良の結果で、組み合わせかわからなくなってくる・・。その上実装が難しくないかも重要な観点なのだが、こればっかりは作ってみないとわからんな

卒論研究もぼちぼち進んだり戻ったり。とりあえずやってみようという部分の結果が出てこりゃだめだと思って以来、停滞。ブレークスルーがほしいなぁ

| | Comments (0) | TrackBack (0)

ラグビー

の早慶戦を見てきました。高校の友人が出ているもので。いやぁ、やっぱり直に見るとおもしろいな。
あの頃を思い出し、慶応に行っていたらおそらくラグビーやっていたかなぁと思うと感慨深い。

あれだけの人の中でプレーできるのはうらやましい限りだ。大学選手権もおもしろそうだ。

| | Comments (1) | TrackBack (0)

ラグビー

の早慶戦を見てきました。高校の友人が出ているもので。いやぁ、やっぱり直に見るとおもしろいな。
あの頃を思い出し、慶応に行っていたらおそらくラグビーやっていたかなぁと思うと感慨深い。

あれだけの人の中でプレーできるのはうらやましい限りだ。大学選手権もおもしろそうだ。

| | Comments (2) | TrackBack (0)

2004.11.23

紅葉

がきれいだろうということで高尾山に行ってきました。人の多さは新宿並だったけど、紅葉はいい感じでした。

グラフ理論セミナー、来週自分担当だけどまだ証明が分からない。染色についての章。平面グラフが4色で塗れるという有名な4色の証明はできないが、5色問題や、辺彩色は最大次数 + 1以下で塗れるとか。これが平面でないとなると一気に問題が難しくなり、特殊なグラフの族(例えば理想グラフ)で無い限りかなり緩い上限しか与えられない。グラフのサイズが大きくなった時にどのような性質が見えてくるかが面白そうだなぁ。離散的な性質が連続的な性質に、ミクロがマクロに変わる瞬間。経済学とかがこのへんは牽引しているのかな

学校では資料をひたすら作ってました。この冬は二種類の文書分類をやることになりそう

| | Comments (0) | TrackBack (0)

2004.11.20

浜名湖近く

で、合同研究会。一泊二日。いろいろな話をしました。とても楽しかったです。アカデミアとビジネス、さらに理学と工学の関係などから、機械学習やら、パーシング、文法の話などなど。刺激をとてもうけました。

帰りには開発者の方と共に激指をenjoyさせてもらいました。正直言ってここまでコンピュータ将棋が来ているとは思っていませんでした。評価値で一目でわかる戦況(どちらが優勢かグラフで一目でわかる)や、どの手が悪手、良手、疑問手なのかが出たりなどと・・ すごーい。

さてと・・、いろいろしなければならない。眠い・・最近あまり寝ていない

| | Comments (0) | TrackBack (0)

2004.11.19

迷走

文書分類はSVMと論文に書かれている一通りの最適化をすると、ロイターでは精度、再現率ともに大体8割から9割出るということを再確認。これ以上の精度はやっても、ノイズの影響が大きいだろうから工夫してもそれほど上がらないだろな。分類が難しいのを探すか。Oshumedか、Web情報か。スパム分類もとか。スパム分類は自分が使いたい・・
めきめきと有力候補となってきたのが文書を代表する単語をとる学習器作成とそれによる極少数のfeatureによる文書分類。分類する特徴が目に見えやすいということで機械学習の欠点を補っているし(ブラックボックスは文書から単語を抜く部分だけ)、構造を学習する流行も体験できる。そして何より自然言語処理がつかえる(目的が逆だが・・)。問題は1ヶ月でできるかどうか。

明日から静岡へ行ってきます

| | Comments (3) | TrackBack (0)

2004.11.16

イミダスを立ち読み

という非人道的なことをしたのですが、数学のところに「グラフ理論は四色定理の証明をもって終焉を迎えた」(ちょっと意訳)と書いてあった。個人的にはこれからがグラフ理論がようやく大活躍すると思うんだけどなぁ。生物のパスウェイとかネットワークとか意味構造とかからの効率良く意味ある部分構造の抽出とかはグラフ理論のしっかりした知識もってないと意味ないだろうし。まぁ、確かにひと段落ついたというのはいえるかもしれない。

イミダスとかを読むのは昔好きだったから百科事典とか買ったら読むかもなぁ。ブリタニカとかエンカルタとか買おうかなぁ。研究室にないかなぁ・・

週末は土曜日は実装とか本読みとかで、日曜日は華氏911とニモを見ました。ネタバレしちゃうとまずいので内容はつっこみませんが、ほどほどにおもしろかったです。この内容を踏まえてブッシュが再選したというのを考えると結果の見方が変わってくるなぁ。二期目の大統領は大人しくなるというジンクスがあるらしいが、ブッシュはどうなんでしょ。ニモはCGがきれいなのはもちろん話も面白かった。それと特典についてたPixerの開発環境をみていい雰囲気だなぁと思った。

研究室ではRPM作ろうとして撃沈して、automakeとかもやろうとして撃沈した。今度知っている人に教えてもらおう。

お手玉をやる人は確率モデルとかが好きでけん玉をする人は文法とかが好きな人らしいと話してたが、確かにそうかもしれない。適切に調整していってあわせる人と、組み立てていってきっちりやる人とみることもできるなぁ。

| | Comments (2) | TrackBack (0)

2004.11.14

Static PPM

Static PPMのページを作りました。また、一応Windows XP用のバイナリはおきました。
SP

作りかけで公開するのはあまりよくないのですが、そういっているといつまでも公開しないだろうということで。
いろいろな意見やコメントをいただけると幸いです。

| | Comments (5) | TrackBack (0)

どりーむうぇーばー!!

一度書いたホームページがまるまる消えた。ひどい・・。もう一度書きます。

| | Comments (2) | TrackBack (0)

2004.11.13

SVMとSGTと文書分類

ようやくドキュメントから無駄な情報を取り除いてステミングや頻度の低い、高いやつをいろいろ操作できるところまで作って、いろいろなパラメーターを動かして文書分類を比較できるところまできた。

文書分類は前のミーティングで言われたように総合技術みたいなものだから確かに何がどう働いているのかはなかなかわからない。最初のfeatureとる部分あたりから変更すると直接な比較は難しくなってくるなぁ。著しい向上がみられなければキーワード抽出とかでもいいのかもしれん。文書構造やルールベースではなくキーワードが抽出できたらそれはそれでよいと思うし、もしかしたら一文書のfeatureが数個未満に抑えられるかも。それはそれでやる価値があるのかもしれないな

DCCには出しました。実験の不備や説明不足の点があるけど今の実力がそこまでということで次頑張ろう。資料とソフト、ライブラリも計画的に少しずつ公開していく予定です。

| | Comments (34) | TrackBack (0)

2004.11.10

IBIS2

Vapnikさんの講演は大部分はVC dimension、SVMにかかわる話だったので復習という感じだったけど、後半のtransductiveの話あたりは私には新鮮に感じられおもしろかったです。

Vapknikさん自身に直接聞いてみたのですが、やはりモデルを仮定すること自体が間違っているということだそうです。モデルの定義をどうするかにもよるとはいってましたけど。今の科学が間違っていると言ってました。ある意味モデル化の最前線である統計科学の第一人者がモデルの存在を否定していたのは興味深い。

私の解釈が間違っているだけなのかぁ。考えを熟成させます。

---
奨学金をもらっている人は継続願いの締め切り(11/08)が過ぎているので気をつけてください。4年生には連絡がうまくいっていないみたい。(他学科も含めて)

| | Comments (0) | TrackBack (0)

2004.11.09

べいじあーん

IBIS2004いってきました。

一応圧縮屋もしていることから、村山さんのLDPC(ランダム疎行列)を用いた歪ありデータ圧縮の話もきいてきた。従
来のJPEGとかはモデルを単純化して削っているだけで、圧縮部分自体は可逆であり、本当の意味での歪有り圧縮は未だ構成されていないがこの方法はそれを目指している。ターボ符号との違いがよくわかっていない私・・。明日聞いてみよう

HMMの推定はEMよりVB(変分ベイズね)の方がやっぱりいらしいという話。特異モデルに関する話。特異モデルというのは名前とは裏腹に扱うモデルのほとんどが特異モデルに属するそうだ。HMMも混合正規分布もなんでもかんでも。認識としては最適の部分が一箇所ではなく複数存在(線とか面で)するモデルだと思っているのだが。それで、そういう場合は最尤推定するよりベイズ推定する方が自然だよねという話。特異点(線、面)が存在するから最尤推定だと変なところへ収束してしまう。ベイズみたく球みたいのでゆるく包んだほうがいい。ニュアンスはわかったような。本持ってるから読んでおこう

Vapnikさんの予稿を読んだが、誤解を恐れずに言えば、「複雑なモデルを推定して、そこから演繹するのは間違っている。簡単なモデル(物理とか)なら推定して演繹するのはリーズナブルだが、複雑なモデルなら、モデルを推定するのではなくtransductive(転導的)に求めた方がいい。モデルを求めずに良く(同じように)動けばいい」specific -> general -> specific ではなく specific -> specific と。裏にある複雑なモデルを求めるのは無理、無駄というニュアンスの他に、意味がないということを言っているのかもしれない。違ったことを言っていたらつっこんでください。

でも現実的にモデルを推定しない方がずっとうまく行くケースもたくさんあることがだんだんわかってきているみたいですし。自然言語なんて特にそういうすごく複雑で扱えない性質があるのかもしれない。(簡単なモデルかもしれないが)明日聞いてみてもうちょっと考えてみます

事務室から電話が二回来て二回とも途中で突然切れてしかもこちらからかけ直してもかからない。謎。聞いたら一度もかかってないよといっているし。いったいどこへかかっているの?

| | Comments (3) | TrackBack (0)

2004.11.08

OBガイド

土曜日は仕事、あははおほほ、といろいろ検討したり話したりした後本郷のミュンで生はるまきを食べる。ここおいしいっすね。

帰ってからは洗濯の山を機械的に処理。黙々と単純作業をするのはそんなに嫌いではない。ちょっとプログラミングした後読書。

日曜日はOBガイド。今回はそのへんの外国人を誘って明治神宮をガイド。「私はここをガイドするのは2年ぶりなんですよ」といったら、「私が来るのは最初で最後なんだから良いガイドをしてね」と冗談交じりに言われたがかなりプレッシャーがかかる。一応やっていたのである程度は覚えている。ただ英語は最初はでにくい。ドイツ、スペイン、オーストラリア、アメリカの人。東大物理の研究員の人がいていろいろ話もした。

代々木一帯は元は野原で木が高い木が1本だけあって(この木が代々木なのかな)神宮は最大級の人工林。ただし、ものすごく計画されていて最初は環境の変化に強い針葉樹林を集中的において、その下の安全な環境で広葉樹林を育てていて、今は確か第3段階。最後の第4段階では、広葉樹林と針葉樹林が織り交ざる理想的な森林になるらしい。原宿あたりが若者文化の発信地なのは、代々木運動場に広大なGHQの宿泊地が立てられて、その後確かアメリカ人の高級宿所が建てられたからなはず、とかをいつも話しております。

あとは明治神宮の話とか神社と寺の違い、仏教と神道の違い、なぜ拝む時に手をたたくのとか、天皇は今どこに埋葬されているのか、砂利をなぜひくのとかなどなどいろんなトリビアも。Q&Aのタスクになりそうな話題だなぁ

その後酒。自分の言ってはいけないキーワード10のうちのひとつ、「人生ってのは」を思わず口ずさんでしまってショックをうける。他例(最近の若いものは 幸せって もう限界 などなど) とりあえず若さを吸収しました。

帰りの電車の医学部の友人に10分健康講座を受けました。医者、弁護士、政治家は友人にいると便利と言われるけど、本当だなぁ。寿命や生活が変わるよ。

明日からIBIS2004にいってきます

| | Comments (0) | TrackBack (0)

2004.11.07

夜食

でカップヌードル食べる。うまい。太る。うまい。太る。

あぁ、書くことがそんなにないよ。
実装とか実験を相変わらずぼちぼちと続けています。論文も直したり。

文書分類だけじゃなく、キーワード抽出も(というかそっちの方が)面白そうだねという話になってきた。どこへむかうのだろう。

朝型人間にしたいけど、布団が気持ちよい季節になってしまったことだよ。

| | Comments (0) | TrackBack (0)

2004.11.05

12時に寝て

朝6時に起床、学校に7時到着。資料つくりは5時間あれば間に合うよね。
という妄想をしながら今午前3時。たぶん無理

BOWって犬とか投稿本ではなくBag of Wordsの意味で文書分類とか検索に使われている文書の特徴の表現方法で各単語の出現頻度(もしくはtf-idfとかでもよいが)がずらっと並んでいるベクトルで文書を表現しようというもの。もちろん単語の出現位置とか文法的、意味論的な情報は明示的にはとれないけど、うまくいって、実質これがデファクトスタンダード。もちろんこれを拡張しようという試みもたくさんなされたけど、うまくいってないらしい(俺が知らないだけ?)

文章の特徴をBOWとは違う方向、もしくは拡張した形でとってみて、果たしてうまくいくか。もちろんタスク設定にかなりよるけど(質問文分類のように各文章が短い場合やドメインがかなりしぼられている場合も考えられる)なんかうまい方法ないかなぁとここ一ヶ月悩んでたり。まぁ、そんなに簡単に出るわけないけど、新しくでてきた話を組み合わせたらうまくいっちゃったりしないかなぁ

| | Comments (0) | TrackBack (0)

開きなおった私

なんでもこーい、ただし順番に並んで。

昨日バルサ×ミラン戦をなんとなくみてた。ロナウジーニョがすごすぎだね。バルセロナは本当に生まれ変わった。
バルサ、ミラン、チェルシー、アーセナルの4強時代の突入かと言っていた。確かにすごい。レアルマドリーはちょっとねぇ。

文書分類というタスクはやはりすごく難しい。みんながさんざん悩んで出た結果を覆すことはそうはうまくいかない。
しかもそれに理論的な根拠を入れようと思うとさらに難しい。まぁ、いろいろ試してみよう。数撃ちゃあたらなくても
相手も弱るだろう。

先月も目標たてたし(達成度5/10)、今月も目標をたてよう
・文書分類を、動かして性能比較できるところまで。ST/SAとEnju使ったやつ両方
グラフ本 Convex本 Kernel本 をきちんと。
・プール15日 筋トレ(家で)15日
・英語
・バイト

人に公開する形だとなかなか破れないはず(でも先月半分破ってる。)

| | Comments (2) | TrackBack (0)

2004.11.04

パソコンと部屋の掃除

昔のパソコンを初期化しようと思ってデータを整理していたけど、あまりに多すぎて部屋もかなり悲惨な状態。
テストデータとか、その結果とか。いつ使うんだろうというものばかりだなぁ。
片っ端から捨てていけばいいのだろうが。

♪うまくいかないことばかりだよとー
というミスチルの一節を口ずさみながら作業。

論文は実験方法とかの見直し。まぁ、最初はチャレンジ。でも通ってほしい
卒論となるのか?文書分類はしばらくサーベイを続けていたのですが、今日は仕組みをずっと考えてた。BOW超えの誘惑。
あとバイオ本読んでた。サイエンスというより長編小説みたいだ・・。

| | Comments (0) | TrackBack (0)

2004.11.02

写真撮影

学科の写真撮影。前回撮影してから1年半ぐらい経ちました。いろいろあったなぁ。でも振り返るほどまだ歳はとってないはず・・ でも感慨深い。

| | Comments (1) | TrackBack (0)

« October 2004 | Main | December 2004 »