2004年 2月 (1)。

熊には蜂蜜で年寄には漬物。エジソンは電球。

Last Modified: Tue Feb 10 22:12:36 EST 2004 (02/11, 12:12 JST)

Feb 10 [Tue]


(09:27)
さて、久しぶりにノドモトな人生でも送るかな。

セキネさんに「(言語処理学会に論文を提出するほかの何人かの中で) きみが一番心配だよ」と言われた。 まあそうでしょうとも。

(11:38)
きょうはノドモトってるために OS の授業は休みます、ごめんなさい、 というメールをぐりむ先生に送ったら、「おう、論文がんばれよ」とのお言葉をいただいた。 この人、授業では厳しいがメールではやさしいのね。
(12:59)
げーーーーっ!! きょうカーニハン (あの) のトークがあるなんて聞いてなかったよ! でも行く時間なさそうだなあしくしく49
(13:33)
そこまですることないのにさあ、
(17:21)
ブーズー教。

おむおむ、おむおむおむおむおむ、おむ。

ところでオレは煮詰まってんだよ! もう!!

まあ締め切りは日本時間で 12日なのだが、 日本時間の 12日がこちら時間の 11日に相当するのに気づくのに、 ロケットサイエンスは必要ないぜ相棒。とっけろ! とっけろ!

そういえば「ロケット」を逆から言わせて十戒蹴る、という ほのぼのとした遊びが過去にありましたねこれは。

…ほのぼのだと? どこがほのぼのなんじゃあ! オレはこれで頭蓋骨が粉砕して急性虫垂炎で全治二ヶ月の逆転敗訴だったやつを 500人ばっか知ってるぞこのやろウソをつくんじゃなああぁ〜〜〜いい〜〜!!

ほのぼのとした?
おごそかな?
おさかな。

「ちぎれたみみずの研究」に一票。

いま眠くて頭が狂いそうにネムいのでもうこれは殺されておりますまた今度は今度

オレには高次元の才能があると思った (自分で思っちゃしょうがない)。

(20:45)
セキネさんをさんざん待たせ、遅くまで居残らせた結果、 どうやら明日中には提出できそうな予感と霊感。うそ

そんなのないよ

(やはり、その気になれば英語よりも日本語のほうが圧倒的に速くかけるらしい、 ダテに毎日ニホン語の特訓してないゼ!!!!1)

(20:49)
うわあ
なんか
ヘンなやつ
勝ってるよ

ボカン茫

(22:03)
つまりぼくは思うわけだよね、
貧乏人には貧乏人にふさわしい気品というものがあると。
それができてないやつぁいくらアレでもアレだと。
な!!!!!!

さて。論文をどういうスタイルにすればいいのか全然わからず、 じつは書式についての注意書きは本大会の要綱メールに含まれていることが判明したが、 web にはのってなく、しかもワークショップのみに応募した新山には送られてこないことが判明。 オイコラ。まったく誰だよこんなワークショップを開催しa?#$!$E$>.;?t?~

NO CARRIER

Feb 09 [Mon]


(09:55)
なぜ 8時にめざましを止めて時計を見ると、 9時なのか?
(10:32)
Linux カーネル 2.0.40 がリリース。 こういうメンテナをまだやってる人って、カッコいいよなー。
(11:52)
敗北主義者のことを英語で "defeatist" と呼ぶのだとしった (はて? なぜひらがなか? どうでもいいがオレはこういうどうでもいいことにコダ割りすぎるのだ!!)。 新山はよく「負け犬」とか「敗北的」とかいった言葉を使うが、それは何か具体的な勝負に 勝ち負けしているわけではない。これはおもに「自己肯定できていない」といったような意味を表す。 新山が敗北的だと思う人々の多くは自分に負けているのだ。 いっぽう、カッコいいと思う人はたいてい自分が肯定できている。 しかしこれは「意味もなく自信があっ」たり、態度がデカかったりするものではない (ちなみに新山は人からは意味もなく自信があるように見えるらしく、 おまけに態度もデカいらしいがそんなのはただの馬鹿)。

むずかしいことについて。本来、世の中にむずかしいことなど一つもない。 いや、「むずかしいとわかっていること」については。 問題はすでに与えられており、それは目の前につきつけられており、 あとはそれを解くだけである。むずかしいところはどこにもない。

問題は、「むずかしいとは思えないようなこと」にあるのだ! …と思う。

なにを難しく考えることがあるの
か?

(12:05)
どうでもよいけど Mozilla Firebird が
(12:05)
どうでもよいけど Mozilla Firebird が また名前を変えたらしい。 今度は Firefox だってよ。キツネかよ!! Firebird っていう別のオープンソースプロジェクトが あったからだっていうんだけど、もういっそのことだから絶対ありえねー名前 (FireCockatoo とか) にしたほうがいいんじゃないの?

ところで新山は Wiki ってあんまり好きじゃない。とくにコミニュケーションの道具としては最低。

というとちょっと語弊があるのだが…

ひとつの不満は、すべての人の書きこみが「等質」に見えることだ。 同じように blog のコメント機能もあまり好きじゃない。 どの人の書きこみも等質に見えるからだ。あくまで、見た目が、って話。 どれもおんなじ色だし、おんなじフォントだ。 そのページを支配しているのが一人だけなら別にどうでもいいんだけど、 それじゃただ HTML を書いてるのとおなじだ。Wiki の面白いところは コラボレーションにあるはずだが、現在の Wiki では (どんなやつでも) コラボレーションが行われているところを web 上で視覚的に見るすべはない。 あまりにもきれいすぎ、のっぺりすぎるのだ。そこが不満。

たとえば大学のホワイトボードなんかを見ると、とても汚いのだけど、 そこにはいろんな人がラクガキを加えていったのを見ることができる。 人によっていろんな字体があって、それを見ているだけでも楽しくなってしまうのだが、 現在の web ではそれができない。掲示板によってはユーザがフェイスマークをつけたり、 色を変えられたりといった機能があるけど、そんなのはしょせん子供だましだ。 高々 10数個のくみあわせを選んで楽しいか? しかし、ニホン人的には「みんなと同化しているほうがいい」という趣向もまた、 ありうる。でもだったら名前すら書けなくして完全な匿名のほうがすっきりする。

だもんね

(12:37)
ところで(てくるで) ブロイラー (broiler) ってすごいな。 なにがすごいかというと、これはふつうニワトリって意味だが、 もともとの語源は "broil (焼き肉) するもの" だからである。 でも broil するのは人間で、トリは broil されるほうでしょ?? 本来なら broilee とよぶべきだ。なのに、自分から焼き台 (?) に 上がっちゃうなんて…。(途方もない妄想、号泣)

きょうの英語学習:

そういえばむかし「ゲリマンダー事件」とかいうのを社会科の授業でやりましたね…。

(21:31)
いやーいいもの見た。nyc siggraph のアニメーしょん発表会を見てきたのである。 最初は技術的な発表会なのかと思ったら純粋にショーであったが、 まあそれなりに。去年の SIGGRAPH のやつなので、 T3 とかハーリポターとか再読み込みされた行列とかも含まれていたが、 こいつらは技術的にはスゴいのかもしれないが CG の部分だけ見ても別に大したことない。 やっぱりショートアニメではフランス人の作ったやつ 2つがうまいと思った。 名前は忘れたけど、ストーリーにひねりがあっていいんだよ。
(23:21)
だがしかしそれが資本主義というものなのだ、と。

ところで「駄菓子菓子」というバンドが存在するらしきことを今知った。 天知る、血汁、ステンシル (あほかおれはあほあほ)

をっとここで一言言っておくが。

多弁であれば (あるいは寡黙であれば) 敗北を逃れられるかというとそうでもないよ! lgjra,

(00:41)
また H嬢から電話がかかってき、エンコーディングについて長々説明するハメに。 今晩は大学に泊まるらしい。タフだよなー彼女も。それにしても、なんで オレはこうもお人好しなんだ? 彼女はこれからもこうやって男どもを 利用していくのだろうか… (差別的な表現だが、将来にわたってもこの手のことで 助けられそうなのは 9割以上がオトコだと思うので、そんなに間違ってはいない、 つうか、新山から見るとこれは気の毒だと思うのだが、 彼女にいわせると「男のほうがズバズバ物がいえるから好き、 女の子どうしはいろいろ難しくて」とのことだが以下略)。 ところで中国人や韓国人は既存の破滅的な文字コードに対して 何も問題を感じていないのだろうか。Latin 集合の研究者はどーせ何も知らないだろうけど、 アジア圏の言語処理をやっている人間は最低でも文字コードに関して なんらかの知識は必要だと思うのだが… (もっとも H嬢には問題意識なんて ツユほどもないので、彼女が自発的に学習するなどとはどだい期待してないけど)。 だってさ、たとえば 中国のどっかの有名人 (かなり有名らしい) は GB2312 じゃ表せない文字なんだぜ? NE recognition のとき困るじゃん! まあそれをいったら日本語でも うちだヒャッケンとか草ナギツヨシとかダメなのはいろいろあるが。 ところで“チョナンカン (が別名だということを今知った)”は KSC では正しく表示できるのだろうか?

Feb 08 [Sun]


(09:35)
もさっと

ずんた♪ ずんた♪ ずんた♪ ずんた♪
ずんた♪ ずんた♪ ずんた♪ ずんた♪

きょうは朝っぱらから親から電話がかかってきて、 ビデオチャットするから起きろという。 向こうは面白くて仕方ないらしい。で、こっちはまだ起きたばかりでボサボサなわけですよ。 ふんげあ。でもおかげで早起きできたからいいけど。

ところでインド人と生活してわかったこと。 かれらは一般的に日光を嫌う。Navneet でも、その友達が泊まりにきてるときでも、 彼らは朝からずっとカーテンをしめきっているのである。うちのリビングや Navneet の部屋は南東向きで朝は直射日光がすごいのだが、彼の部屋なんか まっくらだ。新山の感覚だと日の光は入れなきゃ損、ぐらいに思っているのだが、 彼らはときどきあまりに明るいと文句を言う。インド人は暗いのがすき。

(10:49)
sourceforge ってダメだな。日本も本家も。 本家 SF はあんなにプロジェクトがバカ多くなけりゃもっとまともに機能するんだろうけど、 いかんせんプロジェクトを増やしすぎだよ (自分もテキトーなプロジェクトをいくつか持っている身としては あまり人のこと言えた筋合ではねい)。
(11:19)
どうも、あの人々は、人生あんまり楽しくなさそうである。 それは、むかしは楽しかったが、今はもう楽しくないということなのか。 それとも最初からなにが楽しいかを知らなかったのか。 世界における事象はすべてある一定の枠組みの中で語られ、 それらがべつの価値をもつことはない。 それって、まあ、あの
(14:30)
見ないふり! (右側からみれば左側からみれば左右どちらの側から)

yu@gr~[28512]$ [utjpm
bash2: [utjpm: command not found
exit 127
yu@gr~[28513]$ python
...
yu@gr~[28514]$ rciy
bash2: rciy: command not found
exit 127
(19:22)
きょうは、夕方ごろになって、やや「負け犬化」してきた。 そんなような一日だりますがおとう様はいかがお過ごしであられられれますか。 あいかわらず (ピーー) は (ピーー) を (ピーーーーーーー) てるし。 オレは実験おわんないし。っっっ卓猛 (たくもう)。
(21:41)
満月まではあとすこし日があるが
オレはもう精神的に満月だ!!
(意味不明。オオカミになるってこと
か????)

さて、帰るとまたインド映画な夜であった。 音はアンプにつないであるので、すごいド迫力ステレヨ音声である。 ちょうど何やら女が死ぬ場面らしく Navneet が感動して泣きはらしていた (こいつもわりと影響されやすい奴である)。しばらくそれを見ながらメシを食っていたのだが、 「ケシェパケヨラチャシガ! カパドシュピハラジバ!!」とかなんとか 叫んでるのを見てもさっぱりわからんので、やめる。 カウンタは 133分あたりをさしていたが、ようやく "intermission" という 場面が出たところで、それはつまりまだ映画の途中を思わせた。さすがインド映画。 でもこいつ、やっぱインドが好きなんだなー。 インド映画はストーリー的にも民俗的にもかなりステレオタイプがあるっぽいのだが、 インドってみょうにヘンテコなわりにそこそこ綺麗であまり雰囲気が暗くならないからいいよな。 これがたとえばチベットだともっとずーとドロドロしてそうである (土地そのものが 荒涼としていることもあるしね)。でも新山にはインド的な美意識はほどんど理解できぬ。 だいたいストーリーは金持ち息子とかどっかの良家の娘が出てくるのが多いんだけど、 その「エリート同士」という筋書きにそもそも魅力を感じないのである。

どうでもいいけど、「男はつらいよ」は中国語で「男人之苦」と書くのか…。 ちょっとニュアンス違うなあ…。

(23:25)
けふは久しぶりに 5番街の BN と、Union Square の BN で たっぷり本の山に囲まれてきたので嬉しかった。なにを探していたのかというと、 まあひとつは計算機関連の本もあるが、なんとなくファイナンスに興味をもったので それ関係のアホみたいな入門書 (こっちの人ならわかると思うけど「IDIOT'S」シリーヅや 「DUMMIES」シリーヅ) を探していたのだ。でも、あんまりいいのがなかった。 新山はなにしろ貸方と借方もわからないほどのドアホウなので、 とにかく小学生向けレベルのやつからはじめないとだめだと思うんだ。 (オヤ? めづらしい語尾)。はっきりいって専門書に関していえば 5th の BN は そんじょそこらの大学図書館よりもずっとすごい。都会がありがたいと思える数少ない瞬間。 というか、東京でもこんなのないからな。計算機関連のほうは相変わらずの 支離滅裂式である。Windows まわりの話から始まって、なぜか CISCO の ルータ設定本を見る。ここは CISCO 関係の本がズラーと揃っているのですごい。 本棚 2つ分ぐらいがぜんぶ CISCO なんだよ。ちなみにセキュリティや暗号関連も 同じくらいある。あと、Windows の内部を学習するなら "Hacking Windows 2000 Exposed" みたいな本も 意外とこまかいポイントをつかむのに役立つかもね。そのほかに SQL かデータベースの基礎に 関するなにかを買いたかったのだが、あまりに沢山あるので疲れてやめた。 こういうふうに「おんなじような内容の本ばっかり沢山」という状況はとてもニガ手だ。 基本的に、新山は以下のものを買うのはわりととくいだ (得意、ってほどじゃもないが)。 なぜならこれらは基本的になにも考えず、“直感で”買うからである:

いっぽう以下のものはにがてだ。 見た目が似たようなのがいくつもあるくせに使い勝手はだいぶ違い、 おまけに値段が高く、買ってもすぐにはよしあしが判断できないからである:

(23:47)
「面白さ」とともに「面白くなさ」も重要だ。 しかしそれはむかつく。

Feb 07 [Sat]


(09:46)
どさっと
(15:08)
増えつづける python の自前ライブラリとスクリプトをどのように管理すればよいのか。 いまのところ、研究用で使う (そして明らかに一般的には役に立たないと思われる) ツールやライブラリは仕事用ディレクトリに入れているのだけど、 ときどきこれが「昇格」して一般的なライブラリになることもある。 たとえば S式の読み込みルーチンや cdb の操作 (新山は cdb を「一発頭出し可能なテキストファイル」として 使っているため、cdb の各レコードに対して awk のような作業をすることが多い)、イテレータ用のユーティリティなど。 しかし、研究用のやつもさまざまな実験用、何種類もあるフォーマット形式に対応するためのものが ごちゃごちゃしており、「あれはどこだっけ?」ということがよくある。 最近ようやくコーパスの 3年分ほどを「新山形式」に変換したので、 これからはわりと一元化した操作ができるようになると思う。具体的には、 以下のような操作がすばやくできるようなものが欲しかったのである。

これらができると「ある形の表現 (部分木) が現れている文章一覧」をずらずらと眺めたり、 「ある単語が含まれている記事数」の時間変化をグラフ化できたりして便利なわけっす (とうぜん py-gnuplot を使うのよん)。 しかしコーパスは全部で (といってもまだ 3年分だが) 4GBytes 以上あるので、 「フゴー的」に検索するだけではとっても無理なのだ。ここで cdb の出番となるワケですよ。 もとがこれだけデカいと、単語インデックスだけでも相当な分量になるのだが (さらに +4GBytes ほどがインデックスで食われる)、純粋な suffix array よりはマシってことで。 部分木の検索もけっこう大変。たとえばコマンドラインからある部分木を検索したいときに、 どうやって部分木を指定するの? という問題がある。英語の依存構造は日本語と違って 前置・後置修飾の区別があるので (日本語はカッコなどが入った特殊な例を除くと、 奇跡的にも「後置修飾」しかない変態言語である)、S式で表すと汚くなって×。 けっきょき、新山がヒントにしたのはインデントを使うことであった。 Sounds familiar, eh?

あと、python のライブラリを同時にコマンドとして使う (if __name__ == "__main__" して) ことも あってやっかいだ。これはちゃんと分けるべし。

(17:51)
下のほうまで外出ったが寒かった。 SOHO の Apple に iPod Mini が置いてあるかな? と思って寄ってみたのだが、まだなかった。どうでもいいけど この AppleStore は一見の価値がある。いかに Mac ユーザが外見しか気にしないバカかがということが よくわかるからだ。ここにはサポートセンターがあるんだけど、名前が「Genius Bar」っつーのよ? なにそれ?? で、壁にはジョンレノン (夫妻) や Feynman、King 牧師の写真なぞがはってあって、 ジョンレノンは (新山の中では) もとから負け犬っぽい存在なんでどうでもいいけど、ファインマンはこんなのと 一緒にされておかわいそうに。って感じだ。ま、それはいいとして、最近 SOHO って竹下通りみたいなもんだということがわかってきた。 ようするにほとんどがカネ目的になってしまい、来るのは田舎もん (日本人含む) ばっかなのである。 まあオラホウは田舎モンだけんな、基本的に。 5th Ave. は銀座ってとこか? まともな客を相手にしたいブランド店は Madison Ave. のほうに移っているらしい。 ギャラリーでいえば、さいきんは Chelsea だろう。オレは NoLIta がお気に入りだ。芸術街ではないけど、 道が石だたみで、あんまり人がいなくって、高いビルとかもなくって、 店とかもなんとなく欧米ふうのモノウゲな (ボサノヴァっぽい) 雰囲気が漂っているのがいい。なんかマンハッタンのくせにのどかなのである。 ちょっと下るといきなり混沌したチャイナタウンになるのも便利 (?) だ。 この雰囲気の格差はいつみても笑える。
(20:20)
annotation あきた

記事中に "Hibiya" って単語が出てきたので、 「ハイビヤって変わった名前だな、インドかどっかの地名かな」と思ったら、 それは「日比谷」のことだった…

(23:21)
最近 Weather Channel をよく見ている。 「気象学者 Jim Cantore の Storm Stories」という番組がけっこー好きなのだ。 これは世界のいろんな嵐や台風などを体験した人々にインタビューして 当時のスゴさを伝えるというのもあるが、ときどき天気予報とか災害防止のために 活躍してる人の紹介もやっててカッコいい。まあ「気象学者」という肩書きにシビレているというのもあるが。 このあいだは「ナダレ屋さん」、 つまり冬の雪山で雪崩が起きそうな斜面を見つけては大砲 (みたいなの) を 撃ちこんで意図的に雪崩を起こし、実際に人がまきこまれる危険を少なくする、 というプロフェッショナルの紹介をやっていた。カッコいいいー!!! 重要なのは、このチャンネルはいつも 天気予報を伝えねばならないため番組が 30分以内にかならず終わることである。 基本的に短篇集なので、見ててもあんまり長くならない (し、つまんないときは見ないだけ)。
(00:16)
また変なモノ (自分にとっては便利なのだけど) を考えだしてしまった。 正規表現用のラッパ reg.py である。 簡単な文字列の parse に正規表現を使うことはよくあるが、 新山はいままでこうやっていたのだ :
import re
HOSTPAT = re.compile(r"^http://([\w.]+)(/.*)?")
...
m = HOSTPAT.match(url)
if m:
  (hostname, dirname) = m.groups()

これが定石なのかどうかは知らないが、オレにはこれしか思いつかん。 しかし、こういうふうに「あらかじめコンパイルしたパターンを別の場所に保存しておく」のは どうも嫌いであった。なぜならパターンを定義する場所と使う場所が離れているからだ。 もちろん re.match() のように直接書くことはできるが、それだと遅くなってしまう。 それに「マッチしてから、いちいち groups() を呼ぶ」のもめんどくさい。

でもよく考えてみりゃ、re.match() みたいな関数は使うパターン文字列はどうせ毎回一緒なんだから コンパイルした regexp オブジェクトをパターン文字列と対で辞書にキャッシュしておけば速くなるじゃん (ハッシュの lookup にかかる時間は python 全体ではほとんど無視できるとする、 見やすさのほうが重要)。ついでに match と groups を同時に呼ぶような 関数のほうがいいよな。と思ったので、こう書けるようにした:

import reg
...
try:
  (hostname, dirname) = reg.extract(r"^http://([\w.]+)(/.*)?", url)
except reg.PatternNotFound:
  ...
指定されたパターンが見つかんなかったらどうするのかって? 例外を出すのである。 Python じゃ辞書の lookup に失敗しても例外を出すんだから、 ほんらいなら正規表現の lookup でも例外を出すべきだ (互換性の問題があるのだろうけdo)。これは Perl よりも簡潔になっていると思う (自画自賛)。 Perl でも、わざわざマッチさせてから $1 なんとかで取り出すというのが アホっぽくてしょうがなかったのだ…。Ruby ではどうなってんだか知らない。

まあ、あくまで re しか使わないのなら、こう書くこともできるだろう。遅いけど。

import re
...
try:
  (hostname, dirname) = re.compile(r"^http://([\w.]+)(/.*)?").match(url).groups()
except AttributeError:
  ...
この場合、パターンにマッチしたかどうかは match() が None を返すかどうか (そして結果的に None.groups() を実行し AttributeError になるかどうか) によって判断するので、なんか間接的で気持ち悪い。

Explicit is better than

(01:14)
仲人ですかい!! 出世しましたねえそれは〜〜
けっっ、
仲人ですかい!! 出世しましたねえそれは〜〜

(まあどうせ誰も知ることがないと思われるある日の会話であった)

google://くぬやろ/ (役387件)

Feb 06 [Fri]


(05:08)
またこんな時間に起きてしまった。というか正確には眠りが非常に浅くてだんだんハラがたってくる、 という寸法である (なにが寸法なのだ)

さいきん vi で python のコードをちょちょっと書くことが 多くなってきた。このぶんだと emacs 卒業の日は近いかもしんない。 というかメールも日本語書かないと vi で十分だしな〜。 新山は vim の拡張機能を使ったりはしないので、Sun などについてくる 素の vi でいける。でも日本語は化けるのでアレだけど。

基本的に、emacs 使ってる奴ってどっかセンスがないと、つねづね感じてはいたのだ。自分も含めて。 まわりで vi ユーザのスゴい人ばっか見てるからだろうが。

(09:28)
ネムい
(12:50)
Old Navy の T シャツを着ようとしたら、なんかおかしい。 ふつう Old Navy の T シャツには前にデカデカと「Old Navy」って 文字が入っているのだが、今日は(?) それがないのだ。 「アレ? 前後あべこべに着ちゃった?」と思って、着たまま腕をひっこめて ぐるっと回してみると (こういうアホな行為が新山は以外と好きである)、 こんどはあきらかにラベルが首の前に来てこっちが本当の前後あべこべだ。 「アレ? だとすると洗濯してるうちに文字がすりきれて消えちゃったのかな?」と 思ったが (もともとぼんやりした印刷だったので)、じつはこれは 裏表が逆だったのである。謎をとくまでにかなり時間がかかった オレってアホ。

さて、寝坊したのでころきあを寝とばしました。 さいきん、起きる時間が遅くなるとなにもかもが敗北な一日になる。 これではいけない。敗北な日になる確率は、その日の起床時間にほとんど 支配されているというのに、これじゃイカンじゃないか!

つまり

limなんか→∞ P(敗北 | 遅起き) = 1.0

(13:55)
きみは人生に意義を求めているが、人生の意義とは自分自身になることだ。
(14:59)
きょうは雨がふっていて、いきなり思ったのだが、 サザエさん (階層0) ちのタラちゃん (階層0) は、いったいどういう過程をへて、あんな「ですます調」の日本語を 喋るようになったんだろうか。あの家で敬語を使ってるのはフネさん (階層0) だけなのだが、 それ以外の両親 (階層0) が敬語を使っているようには見えない。だとすると学習したのは いったいどこなのか? あの家 (階層0) ではあんまりテレビを見てないようだから、 あきらかにタラちゃん (階層0) が磯野家 (階層0) のテレビ (階層0) にうつっている 「サザエさん (階層1)」を見て、そこで喋っている「内なるタラちゃん (階層1)」の敬語を覚えたとは 考えにくい。たとえもしそうだとしても、今度は内なるタラちゃん (階層1) がどうやって 敬語 (階層1) を覚えるようになったのかが謎 (階層0,1) になる。彼 (階層1) もテレビ (階層1) の 「サザエさん (階層2)」を見て学習 (階層1) したのだろうか。以下無限ループ (階層 0〜∞)。
(17:50)
何げなく過去の日記を読み返してたら、 http://tabesugi.net/memo/2003/63.html#240031 に 書いてある「日本の電話の呼び出し音がハヤい」というのをみて、 「なーんか、これ書いたのつい最近のような気がするけどなあー、もうそんなに時間がたったのかなあ」と思った。 ところが、じつはその記憶は http://tabesugi.net/memo/2004/11.html#020031 のほうで ほとんど同じことを書いたときのものであることが判明した。 この内容の類似性はなんだ! しかもなぜか時刻まで同じ (00:31) だし!! 著作権侵害で訴えてやる訴えてやる過去の自分。 謝罪と賠償! 謝罪と賠償! 謝罪と賠償! Apology and Compensation.

つうことで未来の自分にあらかじめあやまっときます。ごめんなさいませ。

(18:45)
/etc/termcap より。
VT100/ANSI/ISO 6429/ECMA-48/PC-TERM TERMINAL STANDARDS

0 = default mode (attributes off)
1 = bold
2 = dim
3 = italicized
4 = underlined

30 = black fg
31 = red fg
32 = green fg
33 = yellow fg
34 = blue fg
35 = magenta fg
36 = cyan fg
37 = white fg

40 = black bg
41 = red bg
42 = green bg
43 = yellow bg
44 = blue bg
45 = magenta bg
46 = cyan bg
47 = white bg
(21:01)
さふゐへう゛ぁ、きょうはヤトコに行ってきたのだった。 雨がふっていたので近場ですませることにし、またもや「チャイナタウンの床屋に行こう」計画は 達成されづじまい。一体なんなんだこれぁ。たるんどるのか。 (意味不明) しかしまあそんなにヘンな髪型にはされなかったからよしとする。 さいしょ、席に座ったらそこのおっさんがバリカンを取り出して 「丸刈り? 丸刈り??」というので、「んーーー…nnnno.」と答えたら その間がウケたらしく、終始ご機嫌であった。ところで、てくるで skk で「ゐ」「ゑ」をだすには「xwi」「xwe」と入力する。 いつも忘れて「whi」とか「wxi」とかいろいろためして時間をくうので、 これは ANSI 端末の色番号と同じようにさっさと暗記せねべねれめい。 てくるでっ、

これは日本・語????

(22:54)
今日の夕食はかなり成功だった。新山は小さいころからずっと 「大根の葉っぱを醤油とかつをぶしで炒めたもの」が大好物であったのだが、 最近はほどんどの大根が葉を切られて売っているため (葉を切ったほうが大根の鮮度が長持ちするんだそうな)、 東京などではなかなか作れないおかずのひとつだった。東京のスーパーなどでも、たま〜に有機栽培の ダイコンが葉つきで売っているのを見かけるが、たかいし、ましてや米国で売ってる大根は ぜんぶ葉っぱが根こそぎ (? 大根はそれ自体が根だと思うが、この表現は正しいんだろうか… ?) 切り落とされているものばかりである。チャイナタウンの路地にある青空八百屋でもそうだった。

だから今までこの鉱物がつくれなくてかなり不満だったのだが、 こないだ Sunrise Mart でカブ (株, Co. Ltd.) が葉つきを売っているのを発見した。 オレはじっと考えたね。ふむ、大根とだいたい同じようなもんだから、 これの葉っぱをつかえば似たような味になるのではないか? …というわけで今日はその実験。 新山はカブの料理ってあんまり知らないのだが、ふつうは漬物にするか、 カブの身も葉っぱも両方みそ汁に入れちゃうよね。しかし今日はみそ汁には身のほうだけを使うことにして (やや貧相な感じがしたので、ワカメを入れてみたりしたが)、葉っぱのほうはみじん切りにし、 醤油とかつをぶしでジャーっと炒める。うへへへへ。いい感じになってきたぜ。 ホントは、ここで料理酒かみりんをちょっと足すとぐっとうまみが増すのであるが、 残念ながら今はどちらもない。しかしわりといい具合になった。ちょっと 匂いが大根ほど強くなくてもの足りなさは残るが、まあここまでできりゃあオレとしては 満足である。

やっぱ人間、料理しなくなっちゃあおしまいですヨネ。

(23:13)
そして今日ぁ床屋もいったしセンタクもすませたし風呂もはいってメシもくったということで、 めづらしく余裕のある夜である。でもこういうときにくだんないことやってるとすぐ時間を無駄にするから、 さっさとアレすること (アレってなんだ?)。つーか、論文しめきりが。
(23:47)
MacOSX にある「言語環境」オプションに「アイヌ語入力モード」なる謎なモードがある。 なんだろうと思ってみたら、これは「ピカノ オカヤン」などのような 小さい発音文字を入力するためのモードなのであった。Unicode にこんな文字あったの?? ちなみに新山が知っているアイヌ語の単語はカムイとイヤイライケレだけである。 「なんとかのヌプリ」は山を意味するらしいけど、「ノ」ってのはこれ日本語の助詞じゃないよな。

Feb 05 [Thu]


(10:29)
ぎょっっ
(11:47)
いいヤツが好かれるとは限らない。 すくなくとも、新山からは。

ふん ダリ
けっ タリ

(18:30)
我らが Theo 尊師いわく: "It is just a crash."
(19:39)
自然言語処理をやっていて Pierre Vinken を知らないやつはいない。 かれは間違いなくこの分野での一番の有名人である。 ついでにいうと、かれは永遠に 61歳である。

Keep monking. (文句を言いつづけること)

(20:07)
けっきょくさあ、
プログラマが苦労してユーザが楽をするか
プログラマが楽をしてユーザが苦労するか
というちがいだと思うよ、けっきょく。

ケッキョキ

(20:33)
それは同期してあって、
それは同期してあって、
それはど,

,

(20:56)
"All I know is, any rule that makes a little girl cry has to be a bad rule!"
"(snif)"
(21:39)
まだ 6月じゃ〜〜〜ん。早く帰らしてよもう。ハラへってんだからさ、こっちわ。
(23:52)
きょうは敗北的な日であった、と言わねばならない。
(00:42)
「ステップ数」ってどんな単位?

Feb 04 [Wed]


(08:46)
あー眠い。 「韓国語を効率よく習うためには、通過単位の変更が必要」という夢をみた。 またもやこの言明の意味が自分でもよくわからんのだが、夢の中で得た知識を 正確に記すとこうなるます、
(12:11)
今朝のセミナーは Stern で統計学者やってる先生。カッコい〜! またもや激眠 (げきネム) な状態で出席し、途中死にそうになったが、 だいたいのところはわかった。たとえば温暖化現象を調べようとして 過去数年間の気温変化 (おっそろしくギザギザだ) が上昇しているか? について t検定をおこなうと、t=0.02 いくらで、そんなことはゼンゼンないことになる。 ところが、差分を取ってから同じ t検定を使うと、今度は t=22 とかになって、 おそろしく強い相関がありすぎることになる! いったいどっちが正しいのか? 正解: どっちも正しくない。つまり time series について統計的に推論するときには 気をつけろというんだな。たとえば random walk というのは本質的にランダムで なんの意味もない数列なのであるが、2つの random walk をとってきて covariance を 求めると、かなりの確率で有意な相関があるということになってしまう。これは r(t) = Σ εi (over t) と定義されるが、この εi とゆーのは なんかデタラメな数値なのであるが、Var(ε) ≒ 1 なので、 r(t) の variance をとると Var(r) ≒ t・Var(ε) ということになってしまい、t は無限に続くので つまり r は無限大の variance をもつということになる (こういう数列を stationary でない数列とよぶ)。 このような状況で correlation をとるのは意味がない。そこで統計学者は cointegration という概念を 考え出した。2つの r1(t) と r2(t) の相関を直接求めようとすると ダマされるが、これの差 r2-r1 とか εi をみるとか 視点を変えるとオッケーなこともある。それにしても t検定なんてもう忘れたよ。 つくづく統計をきちんと学ばなければダメだと感じる。はっきりいうと、言語屋で 統計的手法やってる人できちんと統計の勉強をしてる人ってほとんどいないような気がするので (みんな適当に実験して「ああ、出たあ」で終わりだ)、これは自戒な言葉もふくめてだる。つけやき刃。

きょうは NYCBUG (New York City BSD Users Group、「nice bug」と発音するらしい) で OpenBSD のセキュリティに関するトークがあるらしいんだけど、7時か。ちょっと無理そうね。

(12:35)
ところでてくるで、「Naked」というジュースがあるのだが、 こいつはかなり野菜である。そしてふつうは "SELL BY FEB. 14" などと 書かれているところに、"ENJOY BY FEB. 14" と書かれている。 が、どちらにせよかなり野菜だ。Carrot を買ったら、ホントーににんじんを 皮つきで食ってるみたいな味がした。まあそういうこと。
(13:11)
borland はスパム送るのをやめてほしです
(14:59)
きょうは、あたかい。現在 5℃もある。さすがに上着をきていないとサムいが、 手袋はいらない。なんだかとっても春の陽気だね。春になると頭のおかしいのがじゃんじゃん 出てきます。新山は一年じゅうおかしいのでべつに心配いらないけど、まあとにかく、 「匂いがもう春っぽい」のである。ほんらい 2月は一年のうちで一番寒い季節のはずではなかったか。 しかし今年は 1月がはるかにさむかったので、相対的に、もうだうでもヨシ。

そおそらく「忍者ハッタリ君」という名称は誰もが考えつくところだと思ふが。。。。。。。。>>>

(15:09)
眠くならないためには食うしかない。勝つためには食うしかなかった。 ところで「○て! ○つんだジョー!」という文字にはいろいろなものがあてはまる。

いまんの否定。とりけし。

(19:06)
あー、ションベンしたくてつらかった。新山はいつも水分とりすぎ君のため、 2時間トイレに行かないのはキツイのである。きょうは
(00:26)
きょうは日本人どうしで、米国に来てから日本がスキになった、という話で盛り上がった。 でもこっちに来てからアニメオタクになるのはどうかと思うよ。

てくるで、今日のせみなあ (もういっこのやつ) は 「XML を用いたオーバレイネットワークのパケットルーティング」という論文であった。 スピードよりも信頼性が非常に重要となる場合に、メッシュ状になったネットワーク状の ある地点からなんらかの情報をブロードキャストすることを考える。 オーバレイネットワークなので、基本的に TCP は通っているものと仮定。 このときにデータの最小単位として XML ドキュメントを使うと、ルータが 送信しているデータの中身を解釈できるので、必要によっていくつかの パケットをひとつにまとめたり、重要な部分だけを優先して送ったりできる、という話。 彼らはまた XQuery ベースのルーティングプロトコル DCP も実装した。 これによって信頼性とスループットが同時に得られるというのだが、 おおかたの印象は「ほんとに XML の必要があるんかい!」というまあ予想されたモノであった。 今日もぐりむ節は炸裂。とりわけこの実装は XML パーザにものすごく時間をとられている。 データ量はたしかに XML だと多いのだが、彼らは圧縮すれば通信量はたいして変わらない、 と主張するのだが、計算時間から逃れられるわけではない。おまけに、そんな状況で ほんとに「ウルトラ信頼性」を要求するようなアプリケーショんって存在するのか? かれら(論文)は ATC (航空管制) の情報伝達を例としてあげているが、 そんなミッションクリティカルなもんはふつう専用のネットワークを 使い、TCP などというプロトコルは使わない。 しかも、どこの馬の骨かわからんマシンなど中継に使うものか! …というのが今日出席したみんなのおおかたの印象だった。 でも今日はなんだか OS に出ていた連中がみんな来ていたので、 なんかぐりむ先生の疑問もふくめて、OS の授業の続きみたいだったなあー。 そうだ論文読まなきゃ。あしたの

それにしても所は変わって機械学習の授業で使ってる lush って perl 以上にヘンタイな言語だとゆうことがわかってきた。 基本的には lisp で、コンパイルして C なみの速度にできるということは知ってたのだが、 なんと C のコードをインラインで Lisp 中に書けるのである。 こんな具合:

$ lush
This program is free software distributed under the terms
of the GNU Public Licence (GPL) with ABSOLUTELY NO WARRANTY.
Type `(helptool)' for details.
+[/usr/local/lush/current/share/lush/sys/stdenv.dump]
 [lushrc.lsh]
? (defun malloq (n) ((-int-) n) (to-gptr #{ malloc($n) #})))
= malloq
? (dhc-make () malloq)
Preprocessing and parsing malloq ...
Generating C for malloq ...
gcc -DHAVE_CONFIG_H   -DNO_DEBUG -Wall -O3 -mcpu=i686 -pthread -I/usr/local/lush/current/share/lush/include
 -c /home/yusuke/C/malloq.c -o /home/yusuke/C/i686-pc-linux-gnu/malloq.o
= "/home/yusuke/C/i686-pc-linux-gnu/malloq.o"
? (malloq 10)
= #$81A9668
?
ほげえええ。「malloc も呼べますよ」というので、あきらかにこりゃ type safety のこととか なんも考えてねえんだな、と思ったので「GC はどうなりますか」と尋いたら、関知しないんだって。 まあ当然のことだけど。これじゃ Perl よりヒドイではないか。いや、でも文法は Perl ほど 腐ってないので、ある意味 Perl より「強い」かもしんない。これで正規表現処理と unicode ができたら 誰か言語処理に使い出しそうだな。
(01:31)
ハゲについて。いまのところ新山にはまだハゲの徴候は見られないのだが、 基本的にハゲを気にするのは日本人だけだし、しかも気にするのは男だけという話になった (あくまで男がハゲた場合の話ね、女性がハゲの場合はもうちょい深刻だろう)。 こっちでもいちおうカツラ会社が必死で煽ってはいるけれど、 もともとハゲ率が高いし、カツラ屋も日本ほどの宣伝力はないので、 ひっかかるやつは少ないとみる。それよりも日本はなんであんなに カツラ屋がえらそうなのか? 不思議だ。 しかし、「ハゲ = かっこ悪い」とか「ハゲ = もてない」とかいう認識は まるでおかしいとしても、やや真実かもしれないのはこれがどことなく「衰退」を感じさせるということだ。 自分の中の何かがピークをすぎてしまい、あとは衰えていく一方という…。 この心理的な打撃はたしかにでかいよね。 最初からチャーリーブラウンみたいな髪型だったら誰も気にしないんだけど。 基本的に新山は大学に入ってからという今のいままでちっとも自分の身体に変化らしきものを感じないので、 いまだに自分がいつか老いて死ぬということすら信じていない (「わたしは、死にっこないんだから」)。 でもハゲてきたらもうちょっと真面目に考えるかもよ。 そしてその時がやや楽しみな感じはする (と、何年後かのためにあえて書いておこう、うひょひょひょ)。 誰もがいつかはハゲるんだぜ麺 (everyone becomes bald, men と言いたい)。 そんなことより前に隕石にぶちあたってあっさり土佐右衛門化するかもしれないし、 なんともわからんことで。

ところで「はげぱんだ」という単語はなかなかにインパクトがあると思ったのだが、 すでに誰かが考え出していた。

Feb 03 [Tue]


(08:27)
いつのまにか接続が回復してた。謎
(09:55)
ぎりぎりでサマリー送った。締め切りは 10時。

坂本龍一って昔の実験的 CD (「千のナイフ」とか) は 結構わけわかんなくて好きだったのだが、最近は見る影もない。 ただ名前で食ってるだけって感じがする。 やっぱり人間、歳とるとああなるんかしら。やあねえ。 ああいうの (歳を取るにつれて丸くなるっつうか、溶けてくる) はいかにも 「アジア人的」な理想での歳のとり方という気がする。 やっぱジイさんになってもアグレッシブなのがかっこいいよな。 しかしそれは態度の問題であって、必ずしも生活が攻撃的なわけを意味しない。 一体オレは何言ってんだ。もう寝よ。ああまだ昼間か。トイレ行ってこよ。

(10:35)
ワガマミー (わがままな、というような意味か)

さればよ。 (それみたことか)

むこがねとさしがねは似てるよね (もう狂っている)。
むこがね + さしがね = むさしこがねい ≒ こがねむし

(12:11)
ラウンジを通ったら Eric と Michael がなにやらネットワークの トポロジー構造についてしきりに議論していた。 「(ネットワークを) 木でモデル化するのは適切じゃないよ!」というのがきこえる。 結局、いまのネットワークシステム屋が考えてることって ほとんどグラフ理論なんだよな。いかに現存のネットワーク構造を うまく利用する / デザインするか、という問題になってくる。 かれらの場合は P2P にも興味があるのでなおさらこの問題は重要らしい。 プロトコルにもかかわってくるし、しかも incremental deployment や bootstrap (機械学習でいう bootstrap とは全くの別物) がだいじなので、 まったくパズルってる。たとえば IPv4 では bootstrap がめんどくさい (ただ線だけ持ってきてもネットワークに参加できない、DHCP があるが、 あれはグローバルなネットワークには使えない)。IPv6 はこのへんについて わりとよく考えてあるが、今度は incremental deployment でコケている。などなど

たとえばネットワークの研究者にとってはシミュレーションは非常に重要な 実験なのであるが、このあいだのセミナーでやってた論文は 「どうやったら現実のネットワーク構造に類似した (もっともらしい) トポロジー/仮想トラフィックを 自動的に構築できるか」というものだった。驚いたことにこれにはすでに複数の手法が提案されており、 そのどれもが一長一短あるのだ。これはメトリクスの問題 (ネットワークの「よさ」を定量的に 測定するにはどういう尺度があるのか?) ともかかわっていて、これまた非常にパズル的である。 直感的に、どうも現在のネットワークの研究は建築や都市設計に似ているぞ。 どちらも理想的な構造があるのだが、それ自体よりも、 すでに広まってしまった現状とのかねあいのほうが重要だ。

(13:19)
で、それとはまったく別に、CG 屋のセミナーに出てきたのであるが…テンソルって何?

顔認識の話で、何人かの異なる顔をどうやって区別するかという内容。 従来は linear PCA をつかって人の認識をしていたのだが、 これだと viewpoint や illumination (視点や照明) の情報をとっぱらってしまうため 認識率が悪い (30% ぐらいしかない)。これに対して、viewpoint や illumination、 あるいは表情の情報までを考慮に入れた tensor (だから、テンソルって何…?) を構築すると認識精度が 80% まで上がった、というもの。この tensor っつーのが非常に重要らしいのだが、 どうやら n-dimentional な行列だということはわかるのだが、ふつうの PCA だと行列に分解 (eigen-decomposition て何ていうんだ日本語で) するところを、tensor をつかって n 次元で分解したって ことだが、これもやっぱり linear なことには変わりないよね? どうでもいいいいけれど、 「eigenface (固有顔)」って言い方は一般的な言葉なんだろうか。kernel-PCA で台風分析をしている人が まえに「eigentyphoon (固有台風??)」という用語を使っているのをみたが、 お前、なんでも eigen つけりゃいいって思ってるんじゃねえのか等々。

ggってみたら、「固有周波数分解」というのがあった…が、周波数じゃないと思う。

(17:32)
どうも今日はよく落ちるようで。
(20:55)
すこしばかりお砂糖。

Feb 02 [Mon]


(11:26)
おはよ。(やややけくそ気味に)

いやあ、狙ってやっているのだとしたら、さすがだと思う。なかなか、そんじょそこらの人間にはできまい。

(12:31)
またそろそろ W-2 の季節になりましたか。ぴぴよよ、ピピヨヨ

マンガとかでよくピヨピヨ (星が回る) なのを考え出したのって誰なのだろう。 いつもステレオタイプ (ステレヨ!) を最初に言いだしたやつはだれか? ってのに興味がある。

髪の毛がまたボサニストで、そろろそ床屋に行かねばならない。 このまま日本に帰るまで放っておいたらボサボサのバーゴン君なみになてしまふ

google://原人バーゴン/

(15:33)
予想外に時間がかかりますね。
(19:22)
はあ〜〜〜終わった終わった。 授業の始まる 5分前までスライドを作っていた。 ら、Ralph がきて「早くしろ、早くしろ」というしぐさをした。 一度も練習できなかったんで、もう発表はしどろもどろ。 しかし彼がドイツ語を読めるというのは始めて知ったね。 さすが移民系!

さてこれで明日の授業の予習しないと。またツっこまれるとアレだからな。

(20:46)
きょうの ESB は下がグリーンで、上がスカイブルーに グラデーションがかっていた。今日は何の日だっけ? 帰りがけにネギを買い、 ESB がライトアップされててとても美しかった (かならづしも因果的でない文章)。 ESB は昼間みるとダサイけれど、ライトアップされるとなかなかいい。 Chrysler Bldg. とかは昼キレイだが、夜になるとさらにキレイになるけど。 ま、それはそれ。今日はこの時刻でもまだ摂氏でとてもアタカイ。 道端の雪もかなりとけていて、とてもアルキヤなり。 さて、、、

(書くこと忘れた)

ああそうだそうだ日本食。今日はひさびすりにゆったりした日だった。 こういう日はなんとなく街をそぞろ歩きしてしまいたくなる。 しなかったけど。で、買うもの TODO: ナイフシャープナー (ってちゃんとしたの買うと高いのだが、なぜあんなに高いんだ?)。 それからハキモノかうこと。なんでだか知らないが、最近ベルトがユルいのですが、 これはオレがやせたのかベルトがのびたのka?? しかしベルトを締めすぎると パンツにシワがよってしまうので、もうちょい細いパンツを発見せねばならない。 こっちで売ってるやつってどれもウエスト 30in 以上しかなくって困る。 たまに 29 とかもあるけど数少ないし、まあベルトするからいいかと思って 買っても足のあたりがダブダブする。

(23:26)
あれ、また切れてるよ。

Feb 01 [Sun]


(06:50)
あーこりゃもうむりだ。
(13:16)
私信。了解。私信完了。
(18:22)
今日はあったかいなー。手袋なしでもいけるよ。
(21:03)
時間の矢はもう反転しているのか?

TODO: お椀 (のようなもの) を買うこと。at 3rd bazaar. トコヤ。靴を買うこと。味噌がもうない。

(22:40)
机の上よりヒザの上。
(01:20)
マリーアントはネットの名言シリーヅ その 120 (バックナンバーはこちら):

最後のはちょっとキツイぜおばさん。

(05:23)
ああそれにしてもだよ。 紅茶がこんなにもウマいものだとは知らなかった。 砂糖とミルクをたっぷり入れてごくごくと飲む。 唯一の問題は砂糖をうっかりシケシケにしてしまい、 ガチガチのコチンコチン (擬音が好きなのは頭悪い証拠) になってしまったことだ。ことだよ。 それにしても、オレは紅茶ののみすぎでもう頭がカフェ中になってるのではないか?

それにしてもだ。明日までに読まなきゃいけない論文を、 大学に忘れてきてしまったので、かわりにべつの論文を読んでごまかす。 ってごまかすことはできねえだろ普通。こまったものだ。 明日の授業で発表しなきゃいけないのにまだスライドも半分しかできてないし、 まったく、ダメダメ君じゃない、ねえ?


Yusuke Shinyama