« February 2005 | Main | April 2005 »

2005.03.30

DCC1日目

知り合いも何人かできました。変な英語でごめんなさい。俺だってがんばっている。

データ圧縮といっても非常に分野が広い。理論的なものから応用重視のもの。圧縮対象がテキスト、画像、映像、整数列、グラフ、ポリゴン。データ生成源が複数で相関があったりなかったり。機械学習もいろいろ。

初日は通信理論あたりの話でかなり濃く、わからない。木星の衛星からの写真に開発した技術が使われているそうだ。複数の生成源(センサー)がそれぞれが相関(位置的に)していてすごいノイズがかかるから、ちょうどよい問題だそうだ。そんなのありえるのという問題設定をしても、何かしら役立つものですね。

午後は符号化の話。これならたぶんわかるはず。

| | Comments (0) | TrackBack (0)

2005.03.29

snowbird到着

snowbird(ソルトレイクシティ近くの山奥)に到着しました。これからレセプションです。

東京から丸一日かかった。時差がよくわからず、とりあえずおきつづけている。日本時間-16時間だったはず。
一応、メールもたまになら見れるみたい。セキュリティが怪しいけど。

いろいろありましたが、それは帰ってから書きます。雪っぷりがやばい。

| | Comments (0) | TrackBack (0)

到着

というわけで、Snowbird着きました。(ソルトレイクシティ近くの山奥)丸一日かかった。予想以上に雪山の中。雪降りすぎ。なんだかんだでほとんど寝ていない。サンフランシスコは外に出られなかった。いろいろあるけど、それはまた今度ということで。
これから、レセプション。英語は雰囲気で聞き分けている状態。インターネットはよくわからないが、つながるらしい。

| | Comments (1) | TrackBack (0)

2005.03.28

スノーバードへ

行ってきます。4月はじめに帰ってくる予定です。

| | Comments (0) | TrackBack (0)

2005.03.27

自転車

の鍵を紛失したため、家までかついで歩いた・・。すごい疲れた。家でドライバーではずした。

今日はバイト。NE抽出しはじめました。終わってそしてラーメン食って学校へ。ぎりぎり泳げる時間があったので泳いだ。

そのあと、あさってからDCCでポスター発表というわけでその準備。今回は、任意の位置から低領域、高速で復元できるように圧縮するというStatic PPMと呼んでいる手法に関する発表。次の文字を予測することで圧縮を行うPPMを、その予測に使うモデルを固定することで、位置の同期さえとれればどこからでも復元できるというもの。その上予測に使うモデルを前もってDFAに変換しておくことで高速、低領域にもできる長所もある。しかし問題はどうやってそのようなモデルを作るかということ。というのもモデル自身も保存しなければならないからだ。この問題設定はMDL原理とまったく同じである。通常のPPMのように巨大な予測モデルは使えない。

Suffix Treeとまったく同様の考えでPrefixを用いるPrefix Treeを考えると、もしモデルとしてPrefix Treeがあるなら次の文字は唯一に予測できる(データ自体は何も保存しなくてよい)。しかしPrefix Treeを保存するのはコストが高い。そこで、Prefix Treeを枝刈りしたものを予測モデルとして使えばいいだろうというのがアイデア。実際にはPrefix Treeを根だけの状態からコストを計算しながら伸ばしていく。この計算はPrefix Arrays構築の部分に含めることができるので、実際にはPrefix Tree(Arrays)を完全に構築するより少ないコストで予測モデルは構築できる。予測モデルはDFAに変換され、そのあと符号化、復元はLZ並の速さで処理できる。

すでにCSAやFM-indexなど部分復元できるデータ構造があるが、これらは圧縮ファイル全体をメモリに載せておかないといけない。Static PPMならば、実験結果では、圧縮後のサイズが300MBのものは1MB程度しかメモリを必要としない

問題点として、この部分復元はindexだけしか指定できないことがあげられる(たとえば1058372byte目から100byte)。実用上は部分復元は検索結果などと組み合わせる場合がほとんど(たとえばtheが出現する場所の周辺1kBなど)。Prefix Treeを枝刈りしているという意味では、ある程度の効率で検索ができるはず。

| | Comments (0) | TrackBack (0)

2005.03.26

卒業式

前書いたときから、時間的に間があいてしまった。高松から帰ってきた次の日に帰省をしてました。帰省中は、本を読んだり猫を追いかけたり、車(軽)を乗り回してたりしました。そして、卒業式前日に戻ってきて、サークルESSの懇親会に出席。社会に出て行く人も多く、普段きけない話もききました。文科に行く人と、教育の話をしたり、TV局行く人やら広告業界に行く人やらと話題の話をしたり、大学を出てもこうした交流が続くといいなぁ。

それで今日、大学の卒業式があり、無事卒業しました。院に進学するのですが、場所も環境も今までと変わらない。昼に謝恩会といいお酒を飲み、家に帰ってあまり寝ていなかったので寝て、渋谷で今度はクラス飲み。

院ではよりアグレッシブに生きたいな。

| | Comments (0) | TrackBack (0)

2005.03.18

高松での生活

高松に来て5日目。だんだん土地に慣れてきたが、早起きは慣れる様子がみられない。コトデンにのって、会場の香川大学工学部キャンパスへ行く。毎日9時間ぐらい発表を聞いている。言語処理でおなかいっぱい。

自分の発表をかいてなかったけど、無事発表は昨日おわりました。いろいろと意見やコメントをもらえてうれしかったです。予稿集の方には、いろいろ許諾が無くてかけないものの、何とかしてだしたいなぁと思います。卒論の方にはもっと詳しくかいてありますけど、そっちは英語が・・

あまった時間に栗林公園というところをみてきました。雨がふっていて、誰もいなく、そこを一人で歩く。。そこからバスの乗り継ぎで、初天満屋。よくマラソン選手が所属している会社ということでしってはいたのだが。普通のデパートですね。はい。

今日の夕食は「やま」というところで肉食った、うまいうまい。ここで食うのは二回目。月曜によったらうまかったので今回も寄った。主人もいい人だった。

夜は毎日ホテルの部屋で竹内氏と黙々とプログラミングをする生活。学校とあまり変わらない。彼は相変わらずジャグリングしてます。

懇親会では、いろいろとお話をさせていただきました。これからもいろいろとよろしくお願いします。

| | Comments (10) | TrackBack (0)

2005.03.14

うどんどう

香川に来てから、うどんをすでに3回たべている。3/4のうどん率。
最初に驚いたのがうどんの安さで、有名な店でも一杯100円から200円ぐらい。これでおいしいのだからすごい。東京でラーメンを1000円近くかけて食っているのに。
香川のコトデンではSuica、Icocaと同様の、Irucaが使われていた。マスコットキャラクターが某ソフトの自動で出てくるキャラクターに似ている。

| | Comments (0) | TrackBack (0)

言語処理年次大会

今日はチュートリアル。自分が理解した部分のダイジェスト
tfidfの重み付けのidf。普通はエントロピーに似ているとかという強引な解釈をするが、他の解釈として、その単語が現れた場合の文書出現の確率P(d_j|t_i)と、一般の文書出現確率P(d_j)とのKL-divergence、K(P(D|t_i)||P(D))としてみることができるという話。この場合実は(1)全文書の大きさが等しい、(2)語は、それが出現するあらゆる文書で同じ頻度で出現する というかなり強い仮定(近似)を入れてはじめてidfと同じ形になる。この仮定は入れなくても計算できるような気がするけど、その場合の結果ってどうなるんだろうなぁ。

統計的識別の話では、SVMとかいきなり強力な識別機を使うのではなく、まず最初に主成分分析とかで次元を減らすとか、入力を分析することで線形分離できるような形にしてから簡単な分類機にかけるべきだという話であった。確かにまず簡単な形で分類できるかどうかは確かめてみるべきだなぁと思いました。(たとえば、それぞれのクラスの平均からのユークリッド距離とか)あと、ベクトル値として扱えるかどうかは慎重に議論すべきだという話でした。

| | Comments (0) | TrackBack (0)

2005.03.13

東京ガイド

サークルの活動。これが大学生活最後のサークル活動か。
外国人を捕まえてガイドする。今日はフランスのコンピュータサイエンティストとベルギーのホンダで働いている人。
今回は他の大学の人とガイドしました。千葉、津田、中央大。後輩達がどんどんがんばって友好の幅を他大学にも広げているのはいいことだ。

その後、バイト。プログラムで怪しいところがあったので直しておく。そのあとご飯食べて帰宅。最近あまり寝ていなかったのですごい睡魔におそわれ寝てしまう。

今は明日からの言語処理年次大会の準備。香川でやるということ以外は宿の名前とか場所とかほとんどわからなかった。去年の情報処理若手の会では、開催する県から勘違いしていたからなぁ。きをつけないと

というわけで、来週の金曜あたりまで香川に行ってまいります。

| | Comments (0) | TrackBack (0)

2005.03.12

チャンピオンズリーグ

の放送が夜中の3時までやっていて、翌日のシンポジウムが9時30スタート。奇跡的に間にあい、自分的には勝利。
午前中は生物の話が多くて、あまり寝ていないこともありこっちの世界とあっちの世界を行き来していた。午後に言語情報の話が入ってきてからはきちんと聞きました。文献から情報を抽出するというタスクは面白かったです。Collierさんのとか。近年のBiologyでは論文やジャーナル、データベース等としてのデータ生成量がとても多すぎて(一週間で10TBの自然言語、ゲノム情報が生まれているそうだ)、全体を「網羅的」に見ることはできないとのこと。うーむ俺は、数回の学会分でさえサーベイしそこなっているのに。

バイオロジーは、いろいろな情報がただで簡単に手に入る( 例えば、ensemble)。お金と人がすごい勢いで動いているなぁと衝撃をうけた。いいコーパスを作るためにはお金が必要と今日の発表者も言っていたなぁ。知恵や技術でも、なんとかしたいものだなぁ。

夜に高校のラグビー部の同級生と飲み会でした。なんだかんだで高校の頃とみんなあまり変わらないもので。
社会に出ても世の中の荒波に負けずがんばってください。俺はまだ学校でがんばります

| | Comments (2) | TrackBack (0)

2005.03.11

発表準備

来週の言語処理年次大会の発表準備。基本的に卒業論文と同じだが、話の内容は絞ってある。
発表練習したところ、問題設定、手法、実験に一貫性を持たせられるようにもうちょっと作りこまなければとのこと。個人的には日本語でも試したかったなぁ。というか手法事態は実際データさえ集められれば試せるし。こっそりやってみるか

IBISでちらっと聞いたSpectral Clusteringを最近興味をもって調べてる。 ICML2004チュートリアル 。直感的な説明ではNg, Jordanらのがわかりやすいかも。バークレーの講義資料講義資料の基の論文(citeseer) 学習もできるんですね。

しかし、これは素人が考えると計算量って固有値を求めるところでデータ数の二乗(以上)になるんじゃないのかと思ってしまうんだけど、うまい方法ってあるんですかね。

| | Comments (1) | TrackBack (0)

2005.03.09

光だ!

光ファイバーがうちに来ました。意外と早く工事がおわった。今までADSLなのに、なぜか電話がくると通信が止まっていたのだが、これで解消。しかも速い。ADSLモデムを返して、言語処理学会のお金を支払って学校へ。

外はなかなかの花粉っぷりでやられました。

卒論直すのと平行して来週の発表の準備。うぅむ、時間が経つとまた違って見えてくる。

括弧木についてずっとGearyさんと話し合ってたのですが、ようやく今日問題が解決しました。pioneerの定義とかもさらに変えるとうまくいくみたい。実装となると違う話がいろいろと出てくるから面白いなぁ。なかなか論文になりにくいけど。

| | Comments (0) | TrackBack (0)

2005.03.08

がとまらない。頭がぼうっとしてあまり働かない。学校へ行きサーバー撤去後、一部にIPがふられなかった原因がわかり、直して無事元の生活へ。今の状況だと、撤去したのと同じ日、時間に全然関係の無いスイッチのポートが壊れたことになる。マーフィーの法則。今日からばりばりいこうと思ったが体調が万全ではないので卒論をちょちょいと直して帰ることに。

体調がよくない日はとことん眠いもので、電車では行きも帰りもずっと寝ていた。今年初の家でのごはん。とんかつ買ってきて食った。

家ではぼうっと掃除、洗濯の取り込みをしていた。どうせならパソコンの中身も整理しようということでパソコンに入っていた古い情報をいろいろと整理(というか見ていた)。ここ数年でずいぶんと状況が変わったものだ。そんな中圧縮方の一つ、BWT(Block Sorting)を紹介されたときのメールのログが残っていた(95年頃)BWT自体は80年代に考案されたらしいので、その後TechReportとして公開されるまでの10年あまりはDEC社内だけの技術として存在していたことになる。今もgoogleやMSとかがすごい技術をたくさん保有していて10年後ぐらいに実はこうやっていたんだよと公開するんだろう。academic側からは教えてほしいものだが、後から教えてもらうのも楽しみだなぁ。

| | Comments (0) | TrackBack (0)

2005.03.07

休み

風邪+花粉症で頭がいたいー。というわけでじっとしています。
洗濯、掃除など地味な作業をしてました。

読んでなかった本などを読んでいた。いろいろ整理しないとな。

再来週の言語処理学会、月末のDCCの準備をそろそろ本格的にせねば。卒論提出用のも来週中に直さねば。

| | Comments (0) | TrackBack (0)

2005.03.06

連続

先輩の送別会に行った後カラオケで朝まで歌って雪の中家に帰って2時間ほど眠った後学校に行きWord Sence Disambiguationの講演を聞いた後、研究室のサーバーを整理したらIPアドレスがみんなに割り当てられない不具合がでてきて、いろいろ直してこりゃ今日中に直らないとあきらめて帰ろうと急いで自転車こいだら見事に一回転ぐらいしてこけた。今日はバイトに行ってプログラムをぐりぐり書いてファイヤーハウスで食って研究室でHCPサーバの移行をしたが未だに一部でIPアドレスがもらえない状態が続いている。原因を探っているが、わからず。週末の工事による停電でスイッチがついてなかったりするんじゃないかな。うーむーむ

こんな生活してたら風邪ひいちゃいました。寝たら治る

| | Comments (0) | TrackBack (0)

でる

Pen4の3G、ECC付メモリー2GBで10万切るのはお得だなぁ。
今書いているプログラムは最低でメモリー4GBは必要だから、これ二台買ってもいいなぁ。でも家のブレーカーおちるな。

| | Comments (0) | TrackBack (0)

2005.03.01

Ajax

またtaku-kuさんのところからなのだが、Google SuggestGoogle Mapは、JavaScriptで書かれていて、しかもさくさく動く。このアプローチはAjax (Asynchronous JavaScript + XML)と呼ばれているらしい。時代遅れなもので知りませんでした。いろいろできそうで面白そうです。

| | Comments (17) | TrackBack (0)

午後は暖かい

おきたら午後でそんなに厚着していかなかったら寒い。
学校ではLANの設定や書類提出をやっていたら、あっという間に時間が過ぎていった。
サークルの後輩が留学するということで、その送別会に赤坂へ。カナダ料理でおいしかった。留学楽しんでくださいねー。

どんどん時間が逆転していく。そろそろ気合いを入れて朝方にしないと。明日納税しにいこ。

| | Comments (1) | TrackBack (0)

« February 2005 | Main | April 2005 »