« November 2004 | Main | January 2005 »

2004.12.30

荒れる年末、年始

天候がかなり悪くなるみたいです。ここで油断して風邪などひかないよう気をつけましょう。俺がひきはじめてるんだけど。のどがつぶれているだけか

今日は親戚との忘年会。いろいろなことをおいしい料理とともに話しましたとさ。

2004年はどんな年だったかなぁ・・うーむーむー。いろいろ考えるところがありますが、それは来年に向けての肥しということで。臥薪嘗胆

帰省を早めて、明日の朝に帰ります。

| | Comments (1) | TrackBack (0)

年末

ココログは追加料金を払わないと、投稿時間を変更できない。仕方ないがまとめて書いてしまおう。

27日
翌日に迫った卒論追加発表に向けて準備。SVMのpairwiseとか、文単位解析モジュールなど。学校にお泊りになりそうになったが、最近、寝不足のため一応家に帰って少しだけでも布団寝ることに。どんよりとした心模様

28日
朝6時起床という奇跡(4時寝)。学校に行き、実装と発表準備。そして午後発表。終わった後、DCCのポスター発表用の修正論文書き。1枚にどうやってまとめるのだ。いろいろ手続きとかを見てみたが、宿泊施設とか交通手段の予約が大変そう。2時間前までにセッション会場についていてくださいといわれても、どうしたらいいのか。
その後高校のラグビー部の友人達と飲みました。結構ぎりぎりの状態だったのですがすごく楽しめました。いい気持ちで帰ったらしく、家に着いたときにはなぜか買い物がたくさんしてあった。

29日
ポスター論文修正と、未踏の実装を午前した後、午後はバイト。パイプってどうやって実装するだっけとWebで復習しながら実装。でも結局その部分は使わないことになりそう。ぐふ。今日は学科飲み。渋谷で向い酒。楽しかったのだが、あまり記憶が・・

今日も忘年会。今年忘年会が7回。年忘れすぎ

| | Comments (2) | TrackBack (0)

2004.12.26

アブストと私

アブスト。残り12時間ぐらいで英語が絶望的なことがわかる。あとはひたすら書き直して、構成も変えて、内容も変えてというのをずっとしていた。出してもいいんじゃないという雰囲気になったのは締め切り30分前。そこから日本語を書き始めて、タイトルを決めた。ちなみに出したのはより遅い。一応締め切りは間に合ったが。。ぶふぅ

| | Comments (4) | TrackBack (0)

2004.12.23

ポスターですか

DCCの査読結果が来て、ポスター発表だということになりました。通るか通らないかに二択だと思っていたらポスターということで不意打ちをくらった。初アメリカ

---
ちなみに、この査読結果を今卒論でやっているレビュー評価推定器に入れて調べてみたところ1から5までで、2.8。

| | Comments (2) | TrackBack (0)

あー実験うまくいかないー

うまくいっていたとおもっていて、後で誤りに気づいてしまったときの悲しみ。検証用コードを書くときの手が進まない。
そして、こういう誤りを検証するときの結果に限って、きれいな結果がでる・・。

うまくいったと思って、すぐに落ち込むのが続いて、一人アメとムチ状態・・やんでいく心。一つでもうまくいけばいいのになぁ。

もう仕方ない。アブスト書く。後、37時間ぐらいか

| | Comments (0) | TrackBack (0)

2004.12.20

忙しくなるんだろうなぁ

と思っていたが、忙しくなった。全部前倒しで、3日前に締め切りがあると思っていればできるんだろうなぁと思っていたが、3日前じゃぜんぜん足りなかった。3週間ぐらい前にしておけばよかったか。
木曜卒論中間発表はいわずもがな。悲しい心をふりきって走ってスーパーひたちに駆け込み乗車で帰省(上野のいちらんで1分ぐらいでラーメン食べた)。母校の高校で卒業生はどんな生活をしているのかを講義してきた。自然言語や機械学習を説明しようと思ったが、無駄に終わった。理解できないことを説明されることほど苦痛なことはないことは自分自身が知っているが思わずしてしまった。「研究を続けたいと思っている私ですが、研究者の将来はあまり明るくないのかもしれません」というところで時間が来て終わってしまった。何を講義しにいったのだろう。中学の後輩とかにも会ったりして話した。そしてとんぼ帰りで東京に帰ってきた。実家の猫は自分より太っていた

何から手をつけたらいいんだ状態だが、こういうときこそ高校の頃を思い出してがんばろうと。

| | Comments (0) | TrackBack (0)

2004.12.16

卒論:SVR

使って回帰。卒論いろいろパラメーター調整してようやく夜にSVRの学習部分の問題は解決できた。訓練データさえ回帰できていなかったのはひどかった。
ずっとやっていたら学習用に使っているレビューをだんだん俺が暗記し始めてきた。
学習データが少ないのがやっぱり問題だなぁ・・ 最低5000ぐらいずつはほしいなぁ。もうちょっとかき集めよう。

| | Comments (0) | TrackBack (0)

マシンを買おう

性能を求めるなら、OpteronのDualがいいのかと思ったが、いろいろあってAthlon64のいいやつに落ち着きそう。メモリは2Gか4Gか。HDDは1Tぐらいか。後はオンボードでいいや。

| | Comments (1) | TrackBack (0)

2004.12.12

いろんなことがありました

バイオバイトと未踏と卒論の三本立て。サチってる。そんな中、今は洗濯・・水冷たい。

日曜はサークルの在学生の卒業イベントがあり行きました。みんな若い。フレッシュ。2年間ごくろうさまでした。

リアル4巻出ました。シチュエーションが自分も中学の時、陸上をやっていて同じですごく共感できる。まぁ、主題は陸上ではないのだが。一度、全国1位の人の隣のレーンで走ったことあるけど速かったなぁ・・。

| | Comments (2) | TrackBack (0)

2004.12.11

新ぶら

新宿をぶらぶら。休日はよくこうしている

町を歩いて本屋や電気屋さんに行った後、喫茶店とかでぼけーっとする。すごい贅沢。
もったいないからすぐ何かしてしまうのだが。

| | Comments (1) | TrackBack (0)

2004.12.10

SVMのfeatureの分散

結論としては、各featureのスケールが違っても、なんとか学習はしてくれるが、その場合スケールが小さいfeatureにおける差などはスケールが大きい部分をあわせるところで失われてしまう可能性があるということになったらしい。
分散、平均を合わせれば根拠は無いが合わせないよりはよさそう

| | Comments (1) | TrackBack (0)

忘年会三連発

肝臓を大切にしないと

時間を大切にしたいので午前に未踏かバイトの仕事をやろうと考えているのだが、今のところ3連敗中。今日は9時におきて、シャワーまで浴びたが負けてしまった。暖かそうな布団がいけない。

評判分析も混迷を深めてきた。照応とか、文のつながりとかも入れたらうまくいくのだろうか。前から議論になっているのだが、SVM(Kernelはリニアー)で分類曲線を学習するということはSVの数だけ自由度を持った重み付けを各単語に行うということだと思うのだが、この時、各Featureの分散などはうまく調整しないとだめなのかなぁということ。例えば、"This book is great!"のgreatは他に出現しているgreatよりもレビューの好意度を強く表現していると思われるのだが、greak_inBOOKSENTENCEとでもして他のUnigramと同じ重み(1とか)でfeatureとして入れても、SVの重み付けをごちょごちょ調整してこのFeatureを際立たせるようにするのは難しいのではないかと思うのですがどうなんでしょ

| | Comments (2) | TrackBack (0)

2004.12.09

ファイヤーハウス

というハンバーガー屋さんに研究室に来ていた方と食べにいった。
高いのは高いけど、さすが・・値段の分の味はする。

論文の話
今年のNIPSの内容をみてみると
Outlier Detection with One-class Kernel Fisher Discriminants
An Investigation of Practical Approximate Nearest Neighbor Algorithms
Co-Training and Expansion: Towards Bridging Theory and Practice
Maximum Margin Clustering
あたりがおもしろそう。一番目はずっと重要だといわれていてなかなか答えがでなかった1クラス分類とかに
関する話かな。二番目の論文についてはk-NNが見直されている中で実用的にもとても実用的で有用そう。数百倍
速くなるらしい。三番目は実用的といわれていたCo-trainingに関する理論的な話。四番目は分類に最大マージンが
有効ならばクラスタリングにも有効そうだけど計算量的に無理だったところをいろいろ制約いれて動かしたってこと。
階層的クラスタリングの話もいくつか出ているみたい

卒論の話
先行研究をいくつか実装してみました。どれも論文に書いてあるとおり働かない。
論文に書かれていた訓練データと評価データを使ったらうまくいった。汎化が・・うまくいえばドメインスペシフィック
5段階のレビューを予測するというタスク。人にやらせたら精度がおそろしく良いのが驚いた。
良いか悪いかだけなら100%の精度。5段階でも8割ぐらい完全にあたる。人ってすごい

| | Comments (2) | TrackBack (0)

2004.12.06

co-training

の意味がよく理解できてなかったがコリンズのレジュメを読んでようやく理解した。これでtransductiveなlearningとのつながりを考えたJoashimの話がよく理解できた。学習に関する冗長性を利用しているわけだが、冗長といわれると情報理論とかのつながりがありそうと考えてしまう。co-trainingやtransductiveはグラフとのつながりがあって、構造に関する情報量という話につながってきそうでおもしろい。このへんは時間はかかるだろうがちょっと深く考えてみよう

まぁ、卒論とも直結しそうな話だし。

| | Comments (30) | TrackBack (0)

2004.12.05

土曜日

午前に新宿で買い物をしようと画策していたが、起きたら昼。なぜだ。やむなく仕事場へ直行。ホワイトボードを仕事場に運ぶなどした後、新しい仕事を授かる。その後、友人宅で鍋と酒。明らかに人数分じゃ食べきれないよという量を食べきってしまったため、仮死状態に。後半、焼酎も飲みすぎた。そして終電に向け走ったため程よくシェイクされて・・

あぁ、書くのが遅れてしまった(もう、12時間後・・)。OBである英語サークルESSのドラマセクションが作ったTIAFという劇が明日もあるので、興味のある方は見に来てみてください。明日、日曜日、午後2時から駒場であります。たぶんカンパ制(ただ)だったはず

| | Comments (0) | TrackBack (0)

2004.12.04

MIT

takuさんの日記から。
lexicalized PCFGで有名なcollinsのMITでの講義資料があがってます。最新の自然言語研究が網羅されています
http://www.ai.mit.edu/courses/6.891-nlp/
確かにレベルが高いし、おもしろい。おすすめです

定兼先生の今年度の講義資料も出始めているようです。CSAやCST、ドキュメント集合に対するクエリーなどがあって、おもしろいです。

講義資料を集めるポータルサイトってないかなぁ。サーベイ論文読むより良いのだけれど
googleのうまいQueryで集められないだろうか

| | Comments (5) | TrackBack (0)

2004.12.02

parsing

1文パーシングするのに最高速で1秒。求めたいのは27000文。27000秒 = 7.5時間。しかし実測では1文6秒なので45時間。しばし待つ。待っている間にドラクエがクリアできてしまう。いや、買ってないけど

| | Comments (2) | TrackBack (0)

2004.12.01

googleオープンハウス

に行ってきました@渋谷。オフィスは噂には聞いてましたが、すごく遊び心にあふれてました。セグウェイがあったり、雪だるまがいたり。
そして、自分が興味があった部分として、実際にどのように開発しているかなどを聞いてました。どこまで書いていいのかわからないので一応注意して書くと、googleでは、もちろん自分が集めたWeb全体の情報を利用できるほかに今までに開発したソースコードやドキュメント情報が有効に使えるように整備されている他、自由に使える20%の時間がとても重要とかという話(Gmail とか デスクトップサーチとかはここから生まれたそうだ)。googleの高い技術力は人を集めるだけでなく、環境からしても生まれるべくして生まれたという感じだなぁと。技術の開発、共有方法などは参考になる部分がたくさんありました。

個人的にはindexing技術や情報抽出技術などを聞きたかったのですが、もちろんそれは生命線なので聞けませんでした・・。

| | Comments (0) | TrackBack (0)

レビュー学習

映画や本などの感想を集めて、感想が数値化されているデータと評価文があるとき、評価文をfeature、評価ポイントをtargetとして回帰分析して数値化するのができた。技術としてはBOWとSVM Regression組み合わせてた単純なもの。一番面倒だったのは感想を集めるところだったのだが、そこはあまりいえない方法でなんとかできた。ストーリーとしては、これであまりうまくいかないということで、構造を持ったfeature使わないといけないというのに持っていき、Predicate Argument Structureとか使ったらすばらしい結果に!としたいところ。しかし意外と高評価の方はうまくいっていた。幸いなことに、低評価のほうはうまくいかない。教師データのばらつきがあるとはいえ、同じ数に揃えても、やはりうまくいかない。高評価の方はストレートに表現するのに対し低評価の方は婉曲表現とか、皮肉みたいのを使いたがるため、うまく単語としてはとれないのではないかと考察。実際に、そういう表現が多いみたいだ。これはチャンス。まぁ、試行錯誤

先輩から、さらに評価付けされていないやつも含めてブースティングしてみたらというアドバイスが。ありとあらゆる好意的な表現と否定的な表現を集めて数値化するのも面白いかもしれない。

#研究途中を日記に書くのはあまりよくないという意見もありました。もし、論文として出すとかならよく考えて出したほうがよいかもと。もちろん意見などは大歓迎です。

| | Comments (0) | TrackBack (0)

« November 2004 | Main | January 2005 »