2003年 2月 (2)。

Last Modified: Wed Feb 19 14:53:36 EST 2003 (02/20, 04:53 JST)

Feb 19 [Wed]

(09:57)

具体的な悩みをもっている人に比べて、抽象的な悩みでうじうじ悩んでいるのはアホとしかいいようがない。なんでオレはもっと、落ちつかないんだろう。おちけつ。

なんかだんだん文章量が増えてりような気がします (ムダに)。やばいですよこれは。

(12:33)

お昼を買いにでかけたが、水はけが悪いらしく、歩道の終端に大きな水たまりができていることが多い。そのため文字どおり助走をつけて「跳びこえる」必要がある。でも車通りの多い道だとけっこう危険…。ただでさえ道路ぞいに雪の山ができていて、通りがせまくなっているところが多いのに。

(14:50)

気がついたら今日と明日に宿題の締め切りが 2つある。こっちへきてから最近いっそうノドモター (ノドモト人生のこと) な状況に拍車がかかっておるようでありますが、こんなことで大丈夫なんでしょうか? とかいいつつ、いつも何とかなっているんで何も直そうとはしないのだった。

Feb 18 [Tue]

(09:20)

今日も朝からぼんすかぼんすか降っていていっこうにやむ気配がない。にもかかわらず今日は…。

今朝はなぜか、「もういいんだ、どうせオレなんて…」という気分に支配された状態で目覚めた。こういう朝は一生思い出したくないが、どうせ一生覚えているんだろうな。

いやー、ようやく大学に着いたが、かなり面白い。これは大雪だ。東京なら完全交通マヒ、というくらいの雪である。といっても長野じゃこれくらい普通だけど。来る途中でうれしくなってニコニコしながら歩いた。この雪なら Owen もさぞかし喜んでいることだろうよ。マンハッタンは除雪がゆきとどいているところとそうでないところがあり、歩道なんかだとときどき雪に埋まっていて、人の通った足跡を踏んでいかなければならないところもあった。しかし除雪車も日本の雪国のそれとはだいぶ違う。雪を食って遠くへホン投げる型のアレじゃなくて (でも個人ではそういうのを使ってる人は結構みかけた)、トラックの前にブルドーザみたいなのがついたやつでかきけるタイプだ (まあ日本でもそういうのはあるか)。きょうは Ralph からメールがきて「今日は一日雪かきで忙しいので、今日のミーティングはナシである」とのこと。セキネさんからもメールがきて「(物理的に) 行けない」という。わははははは。こりゃおもしれーや。まあ新山は別のに出なければならないので結局来なきゃいけないわけだが。。。

(15:45)

「近ごろの若いもん」に会ってないので、「まったく、近ごろの若いもんは…」というグチを言えません。

outrageous!

(18:41)

すこし出歩いたらかなりスリリングで面白かった。あぶなっかしいこと。ところで雪の上にだれかスプレーで赤字で「NO WAR!」と書いたやつがいるぞ。 Washington Sq. を通ったら雪合戦をやっている人々がいた。絶対どこかにユキダルマ作ってる奴がいるだろうと思ったのだが、なぜかそういうのはないな。

さて、大学の近くにこぢんまりとしたポスト屋 (いわゆる UPS や FedEx を扱っている民間の郵便局) があるのだが、そこで発送したらそこのおばちゃんに「あー、Akasaka、Minato-ku ね? この住所は見たことがあるよ」と言われる。えーとなんて説明すりゃいいのかな、と考えていて結局うまく表現できなかったのだが、 one of the biggest business town とかいっときゃよかったのだろうか。しかしそこはいかにも素人くさい店でよかった。なんか「家族でやってます」って感じ。タバコ屋で切手買ってるような感覚。日本にもそういう郵便局はあるけど、都心でみかけるのかどうかは知らない。

(22:37)

帰りは駅からここまでくるのにえらいかかった。 Bergen Av. では警官が道をとおせんぼしていて、その間ででっかいブルドーザが雪の山をかきあつめていた。さらに家の近くまでくるとあっちこっちで歩道が除雪されてなく、「こっち側を選んだら行き止まり!」てな状態で何度も雪のカベにぶち当たる (ところどころで車道の除雪された雪が山になってかたまっているのだ)。ったく、こういうときは雪捨て場を用意しとけよ。むかし小学校の校庭が雪捨て場として使われたときは、あそこは世界一の遊び場だったものだが…。

でもなんだかんだいってうれしそうに雪の山を越えて帰ってきたのだった。

(23:42)

なんの呪いかシャワーあびてる途中にシャックリが止まんなくなり、しかも新山の場合はしゃっくりをしだすとどういうわけか腹の中に空気がやたら入るらしく、途中からゲップもではじめ、シャックリとゲップの同時多発テロ状態になってたいへん苦しかった。世の中あんがい楽しいものですね。

(01:43)

またバカなことをやっていました。その名も JAianizm である。なぜこう発作的にアホなプログラムをつくりたくなるのだろう。病気としかいいようがない。というか、こいつのルーチンは実際にふだん使っているのだが、わざと使いものにならない改造をほどこしているような気がする。もう寝る。ごめんなさい。

Feb 17 [Mon]

(09:37)

なんかまたなにやらウイルスって広がってんの?

ところで狂はプレジテヌト・デイにて国民的祝日である。袈裟は大学に生こうと思つてゐた乃であゑが窓を見てみてびっくり。 ゴンゴン降ってる。。。 これじゃー今日もまた一日ウチでゴロゴロしてなくてはならないではないか! どうしてくれるんじゃあああ!

(11:39)

キチガイ。どうやら大雪警報らしい。キチガイ。観測史上 2番目の大雪だってさ。いまニュースを見てたら、マンハッタンはえらいことになっとる。キチガイ Owen が「外に出て写真とるぞ!」というので仕方なくカメラをもってつきあうことに。そしたら、すげーよ。

何がすごいって、誰も雪かきとかしてないところ。まあ休日だからいいんだけどね。さっき Owen が Micky (=大家) に電話してるので、なにかと思ったら「地下室のコインランドリーが開いてない」と文句をいっている。で、向こうが言うには「あまりに雪がひどいので外に出たくないから、鍵を取りにきてくれ」だそうな。ああそうかい。しかし自分の中では非常にマンハッタンに出てみたい衝動にかられるのでありますが…どうしようか??

(13:41)

ばかなことはやめら・・・。

きのう書こうとして尻切れになってしまった文節について。 chunker を書こうとすればどうしてもこの問題は避けて通れない。小学校のとき「『ネ』で区切ってみて意味が通れば文節」などと習ったが、新山がまっさきに思ったこと。 なぜ「ネ」なんだ! オレは「ネ」は嫌いだ! ということである。そこで「ネ」のかわりとなる代用品をさがした。「さあ」はどうか? おれはさあ、きょうはさあ、一日じゅうさあ、 …そういう問題ではない。計算機に向かって「意味が通る」とか言っても無駄なので、つまり文節。それが文節だ。そもそも (あいまいな) 定義によれば文節はひとつの自立語と 0個以上の付属語 (機能語) からなるということになっているが「面目ない」とか「分別ある」は自立語が 2つ (「面目」と「ない」) 入っているし、「とは / 言うものの」の最初の文節「とは」は機能語だけしか入っていない。ただし実際には「とは言うものの」は 1文節とする考え方が主流のようである。でも「とはね、言うもののね」と区切っても別におかしくないじゃん…。それにものの本によれば文節とは自立語から始まらなければならないのである。とすると「とは言う」は 1つの動詞でなければおかしい。「[そうである] にも / かかわらず」とかもそうだな。実際にはこれは省略からできたものだから、(so-called) 文節の定義にマッチさせるにはまず省略を補わなければならないことになる。あと口語では「[それ] にしても…」などとも言うし。フシギだなあ。

いっぽう見かけ上 2文節に見えるのになぜか 1文節という例もある。よくあるのは「やってしまった」とか「そうであるが」だが、これは「やって / しまった」「そうで / あるが」とは解釈されず、 1文節として扱われる。それはいいんだけど、じゃあ今度は「であるが…」が文頭に現れたらどうよ? これは逆接の接続詞として使えそうだけど、形態素辞書には入っておらず、juman や chasen ではこれが文頭に来た場合「で / ある」と解釈される。「である ⇔ だ」の変換を考えれば、「であるが ⇔ だが」となり、これはあきらかに接続詞である。そんじゃ「であるが」を接続詞として辞書に入れれば問題は解決するのか。じゃあ「であるけれども」ならどうだ。これも「で / あるけれども」 or 「である / けれども」と区切るのはおかしく「であるけれども」で一文節である。それじゃあ「であるけれども」も接続詞として辞書に追加しよう…。終わんない。

だからといって辞書アプローチを否定しようとは思わないが、あきらかに文節は微妙な部分を漂っている。でも、だから何?

(脱線開始)

ところで signifie と signifiant は日本語で「所記」と「能記」と書いたほうが圧倒的にカッコイイと思うんだけどなぜ世のドキュソどもはカタカナ語をつかいたガルのか… ところで、むかし某研究室のマシンは parole とか langue とかそれっぽい名前があってよかったのに、きのうやぎ君から届いたメールを見たら内側 (private側) の名前が「dazzle」とかだった。いつのまにそういう路線が定着化したんでショー?

(この、カタカナをやタラ文中に入れたガルという特質は、駆逐せれねばならない、あと母音を変えるというこのくせも)

おや、雪が晴れたかな?

(17:58)

ウトウトしてたら電話がかかってくる。もはやふだん電話というものを全然しないので、うちにかかってくるのはほとんどヘンな勧誘ばっかりだ。今回は違ったけど。ネボけてるのに。。。

google://聞いてんのかこら/ (94件)

(19:13)

自分はきわめて人畜無害なタイプだと思うのですが、なんだか日増しにイヤなヤツになっていくような気がする。

もとからだけど。なおいっそう。

なにか投げやり。

(20:37)

なにもしないと何も起こらないからといって、なにかをすれば何かが起こるとは限らない。限らないったら。

そもそも怒っているからといって、自分が正当であるということの証明にはならない。

(23:51)

また Wikipedia にハマっていた。新山は読むより書くほうが好きなので (ようするに電波気質)、こういうのは結構性にあっている。つーか、逃避だね。もしかすると 2ちゃんねるより面白いかもしんない。きょうは「形態素解析」のページがホメられていたのに気をよくしたので、「構文解析」のほうもやってみた。基本的にはむかし自分が書いた文章のパクリだが、自分で自分の文章をパクるぶんにはべつにかまわないよね、自分が多重人格でない限り…。ところで多重人格のヒトの著作権の扱いは一体どうなるのだろう??

ちなみに変更履歴が全部バッチリ残るのは結構恥ずかしい。

研究日誌

休みぼけしてるようなのでいままでの結果とこれからやるべきことを書いておかねばならない。

先週までにやっていたのは、照応解析を入れたことによって sentence pairs の recall がどれくらい上がるか? ということだった。その結果は以下のようなものである。まず、元データがこれ:

articles: 20, 20 (毎日+日経が 20ずつ)
sentences: 111, 110
sentpairs: 93 (by hand, not 1to1 mapping)

で、照応を入れたときと入れないときの結果がこれ:

all=93, found=54, correct=46, prec=0.85, recall=0.49, F=0.62 (照応あり)
all=93, found=42, correct=37, prec=0.88, recall=0.40, F=0.55 (照応なし)

んー、recall が 9% 上がっているが、これはなかなかにあやしい世界である…。しかし手作業でつくった正解は 1-1 mapping を仮定していないのに対して、これは精度を上げるため各文はかならず 1対1 で対応するという制約を加えてある。これをはずせばたしかに recall は上がるだろうが、、、なあ。。。

ちなみに毎日と日経の parsing が終わったので、記事に関する統計情報をきちんと書いておく。ちゃんと実験するときはこっちのデータを使うのだが、こういうのっていつも論文かくときになってあわてて調べたりするんだ:

1996年 365日分 (1/2付含まず, 2/29付含む)
毎日:
- articles: 114728
- sentences: 1480233
- words: 24946373 (morphemes)
日経:
- articles: 178027
- sentences: 1728075
- words: 33309506 (morphemes)
artpairs: 15084 (類似度が 0.3 以上のもの、この 0.3 という数字はかなり恣意的)

つーか結局ノヴァタさんの NE タガーを使うとなぜか途中で止まるのでウチモトさんのやつだけを使った。ちなみに日経のほうが多いが、こいつはときどきまったく同じ記事を 2度含んでたりするので (毎日もそうだな、東京版と大阪版とか) いちがいには言えない。同じ新聞内でもマッチングをとればいいのだが、そこまでする必要はないかってことで…。

TODO:

ヤツを 1-any に修正してなにが起こるかを見る。 (たぶん prec. ががくっと下がって recall は上がるのだろう…あまり面白くない)
人手による正解データの作成。 (しかしこれは問題だ、entity をどのレベルに設定するか?)
照応プロセッサを通して 2記事内での entity をマッチさせ、類似表現をとりだし評価する。いいかげんにベースラインを固定しなければ!
まえに考えていた "bunch of 名詞" と「entity の共起度を考慮に入れる」方法の実装および評価。

そもそも調整可能な変数および手法はこの実験中にいくつでてくるのか?

記事マッチングの類似度の計算アルゴリズム、およびその threshold。
文マッチングの類似度の計算アルゴリズム、およびその threshold。
entity のとりだし方法、照応。
部分木への(エセ)格フレームによる制約。
最終的な paraphrase のスコアリング、threshold.

ふんげあ。しかしこれでほんとうに性能上がるのかな…。心配になってきたよ。

Feb 16 [Sun]

(11:03)

きょうは朝から寒いので一日中家にいることにする。

(14:01)

気がついたら 3時間ちかくも Wikipedia をいじっていたオレは一体なにをやってんだ?? しかも木構造を説明するための図まで描いてたりして。しかしあいかわらずまともなドローツールがない。 OpenOffice は png 出力してもアンチエリアスがかからない (なのに、なぜか画面上でフォントだけがアンチエリアスされているという変態)。それに使い勝手も悪いし…。もと FreeHand ユーザとしてはこれは非常にイラつくのである。

(15:08)

なんかおもしろいサイトないかなー、と思って「そうだ、よくある学問名に『宇宙』とか『超』ってつけて検索してみたら電波サイトがみつかるかな?」と思ったのだが、なかなかうまくいかない。ところで今日ショックだったこと。「宇宙シュート」っていままで鈴木か関口あたりの考案した勝手な用語だろうと思ってたら、実際に使われてるらしい。宇宙シュートとはいうまでもなくサッカー選手による宇宙に向かうようなすさまじい見当はずれのシュートのことである。って、新山はサッカーぜんぜん知らないから知らんのですが (←トートロジー)。ちなみに新山の知っているサッカー選手一覧をあげてみると:

カズ (予備校時代の友人に似てる)
ビスマルク (大学の先輩に似てる)
宇宙シュートの北沢 (顔は知らない)
野人・OKANO は訪問販売に NO! といえるフォワードです (銭湯に貼ってあった東京都のポスターにて)

こんだけである。じつに安直だ。ほかにも誰かいたような気がするがまったく思い出せない。またこのようにどうでもいいことを。

ところで新山のお気にいり電波サイトは山口人生なんかよりも日本超科学会である (音楽に注意)。もうかなり昔に見つけたのだけど、いまだにつづいているしぶとさ。そして、あまりギラギラした雰囲気でないというのも重要。とくに「靈の声をお聞かせします (「霊」でなく「靈」を使うあたりにセンスを感じる、こっちの字のほうがずっとこわそう)」のページとか、かなりいい雰囲気だと思う。いや、いい雰囲気っつーと語弊があるけどね…。

(20:51)

今日は当初の計画どおりヒキコ森な一日だった。が、当初の計画どおり仕事がはかどったかというとさにあらず。でもなんか今日は一日 absentminded だったようで、 Owen が出かけた日にちをまちがえてるし (どうでもいいけど「ひにち」ってヘンな単語だよな)、彼が話しかけてもつれない返事しかしなかったらしい (自分でよく覚えてないというのがそもそもやばい)。夕食は買いおきしといた「まぜごはんのもと」ですませる。今日は一日じゅう家にこもって自前の chunker をつくっていた。品詞体系は Chasen にあわせてある。Chasen のほうがいろいろと使い勝手もいいしね。しかし非常に簡単なオートマトンベースでやったらすでに正解率 9割以上出ているような気がする。 目測ですけどね…。 でもこれじゃやっぱ機械学習つかってもなあ。画像認識なんかは人手によるルールじゃどうにもならんことは想像つくが、やはり言語処理のようなシンボル的操作はやはりなにかアプローチがなあ…。というか、今日思ったのは人手によるルールベースは多少安全な側に倒しておいて、きわどいところだけを機械学習で判定する、というのがいいような気がする。しかし、それでも自然言語をただの文字列として扱ってる以上、なにをやってもたかが知れてるだろうなあ。

(21:07)

「自然言語をただの文字列」というくだりを書いてから、ふと「人工知能」ということばについて考えた。日本にいたころ、一時「伺か。(= 何か。)」というオタク向けソフトが他の用途に使えないかな? と考えたことがあって、それ系のサイトをいろいろウォッチしてたことがあるのだが、それに載せるゴースト (= セリフ生成器) の製作をしてるサイトで「ホンモノの人工知能を目指す」みたいなチャレンジング (= 電波) なことをやろうとしているサイトなぞがあって結構面白かった。しかしだいたいそういうサイトは長続きしないのが非常に残念。

人工無能は考えるというサイトがある。新山は人工知能というよりはむしろ人工無能マニアであるのでこういうサイトは大変興味あるのだけど、「人工知能」という言葉を乱発されるのにはちょっとついていけない。いわく「論理で固められた人工知能」「人工知能は知能の本質を」…うんぬん。なんか人工知能研究というものがえらくちゃんとした研究であるかのような書かれ方だが、実際にはそんなものに正面からとりくむ人はもはやいないわけで…。人間自身はかつて人間が妄想していたよりもずっと複雑だったということか。そもそも「知能の本質」って… そんなものが本当に存在するんですかね? どう考えてもただの錯覚にしか思えないが。こういう話になるといつもまえに中島と話したことを思い出す。かれは人工知能についてひとしきり新山の説明をきいたあと、「でもそんな研究するなら子供一人つくったほうが早いじゃん」と言ったのだった。いやーこいつはやられた、と思ったね。そのとおり! 反論しようがない! だったらむしろ、いかにして機械で人をだまくらかすかの研究をしたほうがずっと生産的である。結局それは人工無能ではなくて天然無能の研究だわな。アイフルのおねえさんとかよくできてると思うんだけど、セキネさんの質問応答システムもああしたら人気でますよって言ったのにな。まあいいや。だいたい「知能」などという言葉が使われる場面はいつも果てしなくアヤしいと相場が決まっている。知能テストとか、知能指数とか、ゲーム脳で知能が低下しますとか。それにしても「人工知能」って罪な言葉だのう。ほかのいろんな SF 単語 (「タイムマシン」とか) と同様に、あまりにも人のイメージをかきたてすぎてしまうのだ。 SF じゃないけど「原始共産制ユートピア」とかも似たようなひびきがあるな。自分にとって気持ちのいい場面を妄想するのには事欠かないけれど、現実にはそんなことは穴だらけで決して実現しない、という…。まあ MIT の AI 研は「RMS を生みだした」という途方もない業績をもつので、いわゆる「AI 研究」がまったくの無駄だとは思っとりませんがね。授業もあるしよ。宿題やんなきゃ。

どうでもいいが新山としては Kairai もぜひここの「人工無能リスト」に入れてもらいたいのですが、まだまだ知名度が足りないようです。

(23:11)

なんとなくやる気が出なかったので、ひとしきりいろんな人工無能と対話してみたが、 どう考えてもオレのほうが無能だと思った。 おしまい。これなら新山がcgiの中に入って会話してても同じことである。おしまし。

ところでやぎ君からいきなり「謝罪」とかいうメールが来たんで、なにかと思ったよ。

(00:10)

今、外はすんごい吹雪。パウダースノーさらさら。これでスキーしたらいいだろうなあ。

研究日誌

お詫び。先日「chasen は数字を区切って解析するので使いにくい」とあったけれど、これは chasenrc の設定によって変えられることがわかった (で、その chasenrc だが /usr/local/etc と /usr/local/share/chasen/ipadic/ の下 2箇所にインストールされていたのだが、実際の chasenrc は /usr/local/etc にあるやつだった)。ということで cabocha は並列構造を認識してくれないことを除けばまともな出力を返すので、けっこう使えるようである。工藤さんごめんなさい。ただし、やはり遅い…。この遅さがそれだけの精度向上に見当っているものなのかどうかはなんともいえない。まあ Charniak の parser も遅いけどね。ところでこの手のやつでルールベースの parser を Brilってる人って絶対だれかいると思うんだけどなあ。まあ、モノが出てきたという話は聞かないので意味ないんだが。

(でも、松本研はえらいと思う。日本の自然言語処理研究者の中で成果をまともに一般人に使える形で公開してるのはあそこだけだ。某田中・徳永研の MSLR なんか正直使えたもんじゃない。おまけに松本研のページを見ると、すげーよ、Wiki 使ってるよ。うちでもやったら? Dan に提案してみようか。松本研では良質のオタクを大量に飼っているのだろう…。)

“文節”というこの謎な生き物について。

Feb 15 [Sat]

(09:47)

いつまでも同じようなふんいきがつづく詩を
ただだらだらと書いてみる
だらだらだらだらだらだらだらだらだら
こんなのじゃあ飽きちゃうね
というか、もう飽きた
詩だと? とある年寄が現れていう
たんに改行してるだけらろ
それと句読点とってるだけだ
そんなものは詩とはいえねう
ある時そういった時
日本語では韻を踏む必要がないそうだ
韻ってなんダネ?
お金を知ってるカネ?
脱線してきたのでもう一度
だれがこの先にある道を知っていようか
いや、ない
そう言いたいんだろ!
いや、そう言いたくない
に決まってる
かもしれ
ある
バカかあんたって人は?
あんたと呼ぶな!
いつのまにやら会話調
知るもんか
知らない
もう決めたんだからお前はそれを絶対に許さない
お前≠あんた
ダカラッテ
タカラ?
タカラギコ騒動。
この言葉はあと 443回言われる。
443回。
443回?
443回。
数字はいつも恣意的だ。
だから使うのをやめなさい。
いつのまにか句点がつくようになったのでこれはもはや詩ではない。
最初から詩なんかではなかっただろ
オヤマタ詩?
これはパイプ
ではない
うそ
うそつくんじゃねえええええええええええええええええええええええあえrjfalerjf
やばい、やつは爆発した。
スリジャヤワルダナプラコッテ。
「それ」はどこまでいったのだろう
もう着いているだろうか
まぎらわしいことすんじゃねええ!
具体的なものを言葉では語らずに言葉を具体的に語る
つまり詩的なものとはそのこと
そのふり!
やったね!
このバカはいつまでつつくのだ?
あきらかに最初と比べるともうめんどくさくなってきて
だってしょうがない、持ち札のストックがないのだから
ストック?
オプション!
つづきになるが、数字とはいつも恣意的である。
無でさえも!
寿限無寿限無
でもその言葉はききたくない。
なんということだあああ!
さて、コーヒーいれよ。

(12:36)

やはり jperl で書いていたものを Python になおすのは面倒くさい。 Perl には Perl のよさがあるのである。それから jperl の日本語コード判定が Python の JapaneseCodecs よりも馬鹿でたすかっている、ということもある (あいかわらずの MS 拡張文字が EUC にされて入っていることがあるので)。

(22:44)

新山の分裂気味な嗜好のため、Amazon.com のおすすめはかなりヘンテコになっている。

最初の 2曲を試聴してダメならその CD はダメ。

(00:28)

さてと…。anwy,

きょうは何をしてたんだっけ? まず午後にマンハッタンに出てうろうろして、6av. にある Gray's papaya でホットドッグ食う。2本+ドリンクで $2.45。カウンターのおっさんがしきりと「サーカラー? サーカラー?」といっていたので、なんだかわからんが、うんうん、と言うとなにやらトッピングしている。食ってみると酢づけだ、なんかの。ああ、これは "sauerkraut" と言っていたのね。知らなかった。その後のろくさと近くにある図書館 (Jefferson mrkt.) へ行ったら「あと10分で閉館です」と言われてコソコソと逃げてくる。そのあとサブい中を 5av. の B&N まで北上し、専門書の中にうずくまる。 SVM に関する本が 2冊あったけどどちらもいまいちだ。それに、汚ねーし。やはり見るなら B&N で買うならあまぞんだな。暗くなってきてから今度は Virgin に寄り、これまたしばらくいりびたる。んーしかし最近試聴コーナーがえらく狭くなったような。分野にもよるけど、 Gospel とかは試聴なくなっちゃったよ? しょうがないので結局、なにも買わずにでてくる。そして Strandbooks。土曜は混んでいた。いっこ面白そうな本があるんだがなにしろデカいんだよなあ。価格はそんなでもないのだが、あんなの買っちゃってもどうせ読めないし、場所くうし、じきに飽きそうでもあるし、ああ。そうかそうかでかい家がほしいというのはそういう欲求のためにあるのか (しかし死んだら何も持っていくことはできないんだからおんなしことだ)。なんかあれこれ買ってくと荷物がだんだん重くなっていくのですが…。死ぬほどサブい中を大学までたどり着き、荷物をいくつか置いていく。はっきりいって荷物置き場として使ってますが…。そのあと帰ってきてひどく不健康な夕食をとりながら amazon.com を見てあれこれ試聴しまくってたら 1時間たっていた。身体にわるい。おまえというやつ。

ところでのみすぎ・こむって誰かがドメイン取って売ろうとしてんだなあ。こんなの売れんかなあ。まあ「たべすぎ・ねっと」よりは売れそうだけど…。

研究日誌

TODO: ここを書く。

Feb 14 [Fri]

(10:04)

最後の残り数枚がどうしても取りだせない。

(20:51)

そういえば国連ってニューヨークにあったんですね。つーか Grand Central の横から見えてるアレが本部じゃねえか。なんか「国連本部」とかいうといつもいつもどっかすげーー遠くにある所、というイメージが強かったからぜんぜん気づかんかった。あすこでイラクイラクいってる馬鹿がやり合ってんだなあ。

昨晩ときょうは ESB のライトアップが全部赤だった。ヴァレンタインズデーだからね。でもそんなことより街中いたるところに戦争に関する貼り紙やシールが増えている。人々が実際に戦争の話をしているのは聞かないが…どうでもいいけど今思ったのだが漢字って罪な文字だな。ほら、もともと「聞く」「聴く」「訊く」「尋く」ってのは同一の大和ことばだったはずでしょ。日本語に曖昧さを!

(00:52)

明日やるのはこのデモか…。 5万人以上動員というから結構デカイものになるのだろう。

研究日誌

KNP ヘンな係り受け問題について。きのうのよるふと思いついた。松本センセのところの工藤さんが開発している Cabocha というのがあったが、あれはどうよ? あれを使えばすくなくとも KNP のくせは回避されるのではないか? …と思ってさっそくインストールしてみたが、ダメだった。まず並列構造をちゃんと認識してくれないし、文節の区切りもまずい。「二十二日」を「二、十二日」と区切られるのはさすがにお手あげである。もっともこれは Chasen が「二十二日」を一文字ずつ区切るのでしょうがない。そして素性もつけてくれない (ここでいう素性というのは SVM 的な feature ではなく、文節につける「体言」だの「用言」だのという素性である)。品詞体系は Juman と Chasen では違うのだが、まあこれはとくに新山の研究では問題ではなく、Cabocha の性能がよければそれをまるごと変えるくらいのことはぜんぜんかまわないのだが、コレじゃ knp のほうがましだなあ…。

SVM をはじめとする機械学習がいくらがんばったところで、結局は人がつくったルールベースのプログラムに勝てないというのは、ある意味夢のぶちこわしである。すくなくとも日本語の解析では今のところそうだ。つーかセキネさんに言わせると、なんで英語では統計的手法のほうがぜんぜん上なのに日本語ではそうなっていないのか? KNP があまりにスゴすぎるんじゃないのか。しかしこれはいつも思うのだが、学術レベルでの研究にはいつも「アカデミウケ」を考慮しすぎるというくせがあって、どうもいつも着眼点がおかしいと思うことが多い (これは新山がこっちに来てからやたらと実用主義になったためかもしれない)。たとえば人手によるルールをあらかじめ適用して、自信のない部分だけ統計情報に頼ればいいと思うのだが、そういう手法はあまり見たことがない。また、パーザの研究者はたかだか 1% や 2% の解析精度ばかりを気にしているが、パーザを使うアプリケーション側からみるとほんとに重要なのは解析精度ではなく、出力するデータの使いやすさなのだ。Cabocha は configure とか使ってて少なくとも「上っ面」は非常によくできているのだが、出てきた結果をみるとお世辞にも使いやすいとはいえない。フォーマットがまずい、ということではなくて、そもそもパーザレイヤに何が要求されるのか? という認識がすくなくとも新山のそれとはかなりくい違っているのである (べつにお前の認識なんかに合わせる必要ねーよ、といわれればそれまでだが)。はっきりいえば tokenizer レベル、chunker レベルからしてすでにちょっと違うのだが、これについては今は詳しく書けない。

で、再び NE とは何ぞや? という話。きのうセキネさんと話していたら、彼も NE がなんだかもうよくわからなくなっている。らしい。人名や地名はたしかに Name である。しかし日付や数値となると…そうかあ? 新山の勝手な考察によれば NE の定義はこうである:

記事が変わっても、ある出来事を報告するのに絶対に必要な名詞句。

さらにこれは、次のようにリフレーズできる:

パラフレーズできないもの。

するとどういうことになるのだろう。

ほんとはまだ書くべきことあるんだが眠いので・。。

Feb 13 [Thu]

(08:04)

頼むから夢に出てこないでね、お願い。

(08:37)

さみーーーじゃねーーか今日はコラ!! 朝シャワーを浴びようと思ったら風呂場の窓がパキパキと凍っていた。

(10:03)

けさ、きのうの "STOP BUSH" の前を通ったら "STOP BUSH" は消されてその下に "SUPPORT BUSH / STOP SADAM" と書かれていた。

このページはいかなる…以下略。

(12:09)

テロ警戒が大流行。 NPR を聴いてたら、どっかの市長やら専門家やらが出てきて「化学物質がテロに使われる可能性はどれくらいあるのか? 医師はちゃんと準備しているのか? 貯水池に毒物が混入される恐れは…」等々の話。それによると飲料水に毒を入れるのはあまり有効ではないし、大変だから見込みは薄いだろうとのこと。そして NY 周辺にあるいくつかの劇物の貯蔵所は厳重に警備されていないものもあるとか。

いっぽう在NY日本領事館からのメールもきて「万が一のために飲料水とラジオを用意せよ。化学兵器および生物兵器の攻撃に備え非難場所の窓や通気口を塞げるようガムテープ等…」

そういえば親からもメールがきて、ただ一言「落石注意」と書いてあった。ら、爆笑なのだがそんなことはなかった…。

まあたいていの人は死ぬ覚悟なんてできていないうちに死ぬからさあ、別にいいや。

(16:13)

ソボクな疑問。「芸術家の反戦運動」っていままで役に立ったことあるの?

というか、この手の運動ってその後の成果をだれかがちゃんと評価してるのだろうか (してなさそうに見える)。こういうのって、いつもほどんど「やりっぱ」で、あとから誰が何と言おうが「とにかくやったことが重要」とかなんとか言ってるダケのような気がする。実際にいついつの戦闘行為を止めたとか、死者を何千人までに食いとめたとか、そんな話があったのだろうか。とんと聞かないんだが。同じようにローマ法王の提言とかもどれくらい効力があるのだか。そもそもこの手の活動が政治家の耳に入っているのかどうかさえ、あやしい (政治家はワイドショーなんか見ないだろう)。企業のイメージ広告だって評価はあるだろうに。とりあえず街頭インタビューでどこそこの支持率を上げ下げすることぐらいはできるのかな。しかしそれもマスコミがほとんど別の団体に牛耳られてる状態ではまったく無力だろう。

世界はこのようにどうでもいい人たちによってどんどん抽象的なものに(見た目上)されていく。ようだ。ように見える。それともこういうこと言うと何事も有用性だけで判断するなこのバカ者、といわれるんだろうか? いや、「ただひたすら自己満足のためにデモやってます」というんなら、それはそれでいさぎよくてよろしいと思うけど。

(19:33)

なんかメールがよめない。「3通」って数は出てるのに読めない。なんで? サーバは生きてるし、POP も異常なし。 slinky にログインして /var/spool/mail をみるとちゃんと届いてるのに。そのうち過去のメールも読めなくなっていることに気がついた。おいどうしたー Mutt! どうなっちゃったの? と思っているうちにふと気づいた…。

yu@gr~[49929]$ df
Filesystem           1k-blocks      Used Available Use% Mounted on
/dev/hda2             75846532  23370012  48623732  33% /
/dev/hda1                46636     14526     29702  33% /boot
none                    256956         0    256956   0% /dev/shm
mango:/home/yusuke    25197256  25197256         0 100% /home/yusuke

こらああ! 誰だ /home をあふれさしたやつわああ! (新山は Mutt の tmporary file を $HOME/tmp 以下に設定している) と普段ならブチキレるところだが、あいにくいまは誰もいない。チクショウみんな帰っちめーやんの。とりあえず自分のファイルを 30M ぐらい別ディスクに退避してもなんか増えつづけてる。おいおい誰か溢れさしたまま放っておいたやつがいるぞ。ったくしょうがないなー。

で、あちこちのマシンでプロセスをのぞいた結果、Winston の Java プロセスが継続的にホームになにやら吐き出しているらしいことが判明。 vmstat をみるとときどき bo 値がゴボっと 6000 ぐらいになる。これだな。しかもメモリは 600M 以上食っていた。kill -STOP するとディスクの溢れは止まったが、ホンモノの原因は彼ではなくてセキネさんにあることは確実なのだ。なんたって 25G のディスクのうち 6割以上は彼のホームが占めてるんだから…。新しいディスクを買えばいいのだが、SCSI で大容量だと高いんだよなあ。

(20:57)

帰宅。やれやれSAmuqぅあった。明日はマンハッタンで大々的にデモがあるらしいが、推進派と反対派の衝突が予想されるので近づくなってさ。

そういえば学科からも「建物の窓を閉じておくように」というお知らせがくる。 Windows っていうからさいしょマシンルームの Windows マシンのことかと思っちゃったよ。「なんでウインドウをわざわざ閉じるとセキュリティがあがるわけ??」

Feb 12 [Wed]

(09:14)

最近、ネボリぎみである。これはよくなき粉 (はみがき粉の親戚)。それにしても誰が読んでるか油断できねいな〜。ここわ。まあうちの親にさえ読まれなければそれでケッコウ。

(11:43)

中山から中国で買ってきたというジャスミン茶をもらったが、これがすげー高級品! 飲むのがもったいないくらい。

(15:02)

午前中は AI の宿題ずっとやってて、いまようやくごはんだ。しかしさすがに GSAT でデカい問題を解くともなると Python おせーー。ので、はじめて Psyco というのをつかってみた。でも、まだぜんぜん遅い。まあ仕方ないけど。つーか N=100 のときは (100^2)^2*2000 = 200,000,000,000 回もループがあるのである。終わるわけない。この手の固定長配列バリバリなのはやはり C や C++ にはかなわんな。 array パケージを使えやいいじゃん、と言う人は Python のよさがわかってない…。実行スピードのためにわかりにくいコードを書くくらいなら最初から C で書いて外部モジュールなりなんなりにしたほうがましである。てゆうか、C で書いてみたら一体どれくらい速くなるのか?

ところで最近 Tisch の工事現場の足場のまわり数ヶ所に "STOP BUSH" と書いてあるのを見るようになった。

このページはいかなる政治的な立場を表明するものでもありません。 This page does not express any political opinions.

(17:58)

判明。C(++) で組んでも遅いや。どうでもいい枝葉にこだわるのはやめてさっさと先へ進もう。。。

(19:35)

Python で辞書引きするのに trie と sufarray とどっちがいいかなあー、と思いはじめていろいろ調べていたら Sufary はなんか not found だし、 Sary はデカいし、MSLR を落としてきて辞書引きルーチンを調べてたらなんか自分でそれ系のモジュール書いたほうが早そうな気がしてきた。というか、さいしょは native python module で組んでそのあと 遅かったら C で書きなおすことにしよう。

ところで MSLR のソースを読んでたら gen/*.[ch] に書かれているジェネレータのコメントを見て仰天。「なんでここで p が必要なの?」とか「↓これ宣言されてないよ、まあいいけど」とか書かれている…。これは…これはあの悪名高い「小田コメント」だっ! あの人はいまどうしているのだろう。つーかそういえばオレは研究室で同年代の人間の進路をぜんぜん知らぬ。そもそも誰がいたっけ他に…?

(21:27)

そーだ、そーだ。よく考えてみたら辞書引きなんて suffix array なんか使うまでもなく、圧倒的に楽じゃん。データは固定なんだから、各辞書エントリをソートしてインデックスつけて二分探索して終わりじゃん。あったまわりー、オレって。

しかし suffix array の場合と trie の場合をくらべると計算量はどうなのだろう? エントリを N個、文字種を C、長さ k の単語が現れる確率を p(k) とすると、

	Time	Space
Trie	Σ k・p(k)	なんかフクザツな式
Suffix Array	log(N)	N

ということになる。trie の場合サイズはこの変数だけじゃ計算できない。めんどくせー。しかしこういうのがすらすら出てくるのは、やはりしーげる先生のキツいトレーニングのおかげであろうか。

研究日誌

このところ書いていないが、遊んでいるわけではない。というかのろくさしてたら ACL には間に合わなそうな予感。あーもう。落ちこむ暇もなく、やることはいっぱいある。てゆーか、山積み。つうかもうここまで来たら自分でひたすらヤレばよい、ということがわかってきたので、やる。

とりあえずきのうから新しく改良した (といっても大した改良じゃないが) parser で毎日と日経をふたたび解析しだしているが、ぜんぜん終わらん。まったく、自分の手の出せないところがネックでつっかかられるとむかつく。完璧主義がダメなのはわかっているけれど、こうなるとシステムのあちこちの欠点が気にかかって何でも自分でゼロからつくりたくなってしまう。そして車輪の再発明。しかし「車輪の再発明はよくない」って当たり前のように言われているけれど、オレとしては 再利用できない車輪を作るやつのほうが悪い と思っております。そしてこの再利用性には車輪の完成度だけでなく普及度も含まれる。オブジェクト指向はコードの再利用性を高めるとかいってる人間は、かつて STL が C++ の標準ではなかったとき、みんながみんな「自分の」STL モドキを作っていたことを知っているのだろうか (STL は厳密にはオブジェクト指向とは関係ない、もっとセコい機構だが…)。いくら仕組み的に“再利用が可能です”といってみたところで、完成度が高くて まともなライブラリが大々的に普及しないかぎり絶対に再利用なんてされないのだ! はあ、はあ。でも普及しててかつ完成度も高いライブラリなんてほとんど失われた財宝である。かくして車輪は (必然的に) 再発明される。いかなるプログラムもそれ自体で純粋でありうるということは決してなく、すべてのコードの断片はそれ自体が社会的である。おっとと、なんだかポモの匂いがするぞ。どこだどこだ発生源は。

google://それ自体が社会的/ (83件)

…やばい。ここは「研究日誌」のセクションだった。

Feb 11 [Tue]

(12:11)

生きてる!
生きて動いてる!

(14:16)

きょうは 1302 で faculty presentation があった。こちらの博士課程は入学時にはまだ自分の研究テーマが明確には決まっていないので、教授が学生向けに「うちはこんなことやっとるでー」というのをプレゼンする。てゆうか新山のばあいはもう明確に決まってんだけどよ、それでもとにかく出ろということらしい。んで、教授のひとりはなんかデモが派手だし、どっかで見たことやってんなあ…と思ったら、まえにある学会で招待講演に来てたおっさんだった。そのときは nyu とはいってなかったような気がするけどなあ。まあいい。いずれにせよ、きょうのテーマはほとんと CG だったので、あまり興味はなかった。CG ってなんかあんまり学術的じゃなくても見てすごければすごいということになってるので…まあでもそれを言えば言語処理でもそうだな…。

終わったらねむい。

(20:12)

気がついたら 30分以上寝てしまった。

Perl の s/(...)/func($1)/eg に相当する機能が Python の re になさそうだったので作ってみる。

# does something like 's/(...)/func($1)/eg' in Perl.
# p: compiled regexp pattern, f: str->str, s: str
def replace_eval(p, f, s):
  i = 0
  r = ''
  while 1:
    m = p.search(s, i)
    if not m:
      return r+s[i:]
    r += s[i:m.start(0)] + apply(f, m.groups())
    i = m.end(0)

Python には do ... while がない。これは利点なのか欠点なのかよくわからないが、そのおかげで while 1: 〜とやって途中で break や return で抜け出すくせがついてしまった。この手の書き方はたしかどっかで「よくないプログラミングスタイルである」とされていたような気がするんだけど、なにがまずいのかわからない。

(21:47)

山村浩二がアカデミー賞短編アニメ部門にノミネートされたんだって。新山はハタチを過ぎても「プチプチアニメ」とか喜んで見てたクチなので、この人のアニメ大好きなんだよねー。最近はぜんぜん知らないが、「パクシ」もよかったけど「キップリングJr.」が一番よかった。なにがどういいのかは口じゃ説明できないし、わからない人にはたぶん絶対わからない、そういうアニメである。だってパクシなんかあれ、まったくナゾでしょ? 謎のおじさんバルタザールっていうキャラがいるんだけど、そいつがでてきて「♪でーででんでんでーででん、でーででーででん!」って歌って、パクシがそれに気をとられて「うわーなにアレ…」という顔になって最後にはママから大目玉をもらう。文章で書いててまったく意味不明。論理を超えているが、ナンセンスで面白いのとは全然違う。でもこの人はこぢんまりやってるのが合っていそうに見えるので、あんまり有名になってほしくないな。

ところであるパイソナー (本当は Pythonian だって? こう呼ぶのが気に入ってんだからほっといてくれ) の方から、Python の re.sub はじつは関数もとれる、というご指摘をいただきました。ガーソ。知りませんでした。なので上の関数は必要ないことになる。つまり結論: オレはちゃんとリファレンス読めってことですね。なんかお返事がやけにテンション高くなってしまったかんじだがこれはたぶん眠いからだろう。