2003年 6月 (2)。

覚えることと忘れることの平衡状態。

Last Modified: Fri Jun 20 01:24:03 EDT 2003 (06/20, 14:24 JST)

Jun 19 [Thu]


(10:47)
昨日の「さらし者アクセス」の波は過ぎ去った。ような、気がする。 そしたらこんどは mango の上でバカデカい java vm が動いていて、 しかも nice してない。おいおい。

彼らは代替フォントをつくりはじめたらしい。 あいかわらずなんでそんなに急ぐ必要があんのかさっぱり理解できない。 公開直後でまだ十分に広まりきってないならともかく、すでに大々的に広まった「あと」なんだから、 いまさら急いでも無駄っつうか、むしろ余計な問題を増やしてるだけという感じがする。 しかしまあ、やりたいっつってんだから、「はあ、そうですか」と思って見てるより しかたないんだけど。思想的な問題なら仕方ないですね (←あいかわらず無関心)。

なんでみんな (当事者じゃなくて、そのまわりが) こんなにどうでもいい「すじ論」にこだわって仕事を増やすんだろ? ヒマなのかしら。それとも「うわあ! 問題発生だあ! うわあ!」と 騒いでみるのが楽しいのかな (これはありそう、某掲示板ユーザとかはそういうの好きそうだし)。 しかしいま公開停止しても、インストールベースを減らすには最低 1、2年はかかるんだから、その間にも不正利用はされつづけるわけですよ。 すべての人が今回のニュースを重く見るわけではないし、 何年もディストリビューションを変えない人もいるしさ。 そこまで面倒見きれん、というなら、最初から何もしないのと同じだ、というふうに新山は考える。 ポーズをとるためにやるってのは好きじゃないんですわな、個人的に。 がんばってるところを見せれば今までのことは許してもらえるんなら、やるけど、 でもそもそも公開停止がほんとうに著作物を尊重していることの表明になるのかどうかは 向こうが決めることでしょう。 まあ、水をさすのはアレなんで「がんばってください」と言うしかないが、 この件についてはこれ以上言っても理解されなそうなんで黙ってることにしよう。

どうでもいいですが、このページではいかなる政治的な意見も述べないことにしております。 というポリシーはどうなったんだ?

(11:33)
しかし今回の自分の理解のされなさ (というか、意見のくい違い) を見ると やっぱ自分はアメリカナイズされたみたいだなあ、と思う。 日本人は「なにがなんでも規則を守る (スジを通す)」のが好き、という構図は、やはりありそうだ (たとえそれがほとんど実益をもたらさなくても)。 たぶんこっちの人だと「ルールを守っても誰も得しない場合は守んない」という立場だもんね。 これでは日本に帰ってから苦労が予想されるよ。

まあ、1〜2年も暮らせばまた思考が日本化してもとにもどるような気がするけど。

(14:29)
つまり、問題は、カサが必要か否かというコトです。 雨は降っていない。でも触(ふ)るかもしれない。それで何? といわれればそれまでなのだが、あの。
(15:21)
「役不足」と「役者不足」の間違いが多い、とかいう記事をみると心暗くなる。 というのは、このテの文脈で「本来の意味」とか「正しい表現」とかいう語句を使うやつはいつも 信用できないと思うからだ…。つまり authorized された一意的な「符号化方法」が存在するって 考え方らしい。どうにかなんないの? こういう人々はおそらく「的を得る」というと怒るのだろうが、 「せともの」という言葉を瀬戸焼以外に対して使っても怒るのだろうか。やってらんないな。言葉の意味なんてものはしょせん 「多数派の使ってるほう」という程度のものでしかない、というのは 統計的言語処理に影響されすぎでしょうか? しgにふぃe, しgにふぃe,

(もっとも「辞書的な定義」を知っているかどうかでそいつの 教育度をはかるという手はよくやられているようです)

しかし、単語レベルでの変化はわりと短期間 (数年から数十年) のサイクルで おこるのに対して、機能語の変化や文法の変化というのはかなりゆっくりしか 起こらないらしい。これには興味ある。

本日、新しい助詞「ろ」および助動詞「ぷ」が導入されました。
「ぷ」は「ぱ、ぴ、ぷ、ぷる、ぷれ、ぽ」と活用します。
使用例: 「今日ろ開けぷれば雪ろ降ぬ」

…という未来を期待します。あるいはそういう名前の地獄を。

(17:15)
頭痛と腹痛なら腹痛を選びます。
(17:37)
「リスト中の要素すべてがある条件をみたしているかどうか」を検査するのに、いままでずっと
len(filter(pred, elements)) == len(elements)
とかやっていたのだが、以下のようにすればよいことがわかった:
def forall(pred, elements):
  return reduce(lambda r,x: r and pred(x), elements, True)
def exists(pred, elements):
  return reduce(lambda r,x: r or pred(x), elements, False)
うーん、単純。

きのうの ISCII の無駄なあがきの結果をセキネさんに報告したら、 そんなもんに手を出しちゃあいかん、と言われる。たぶんいま米国で 最低 2〜3人はその問題にドハマってる人間がいるはずだから、とのこと。

(20:46)
re.VERBOSE オプショソというのはわりとおすすめだということがわかった。 たとえば今までこんなふうに書いてたのを:
  PAT_OPERATORS = r'[,|?*+()]'
  PAT_CALL = r'<[^>]*>'
  PAT_ITEM0 = r'[^\s,|?*+(){<\[":]+'
  PAT_ITEM1 = r'\[[^\]]*\]'
  PAT_ITEM2 = r'"(\\.|[^\\"])*"'
  PAT_NREPEAT = r'\{[^}]*\}'
  PAT_BINDING = r':[^\s,|?*+(){<\[":]+'
  TOKEN_PAT = re.compile(r'\s*('+PAT_OPERATORS+"|"+PAT_CALL+"|"+PAT_ITEM0+"|"+
                         PAT_ITEM1+"|"+PAT_ITEM2+"|"+PAT_NREPEAT+"|"+PAT_BINDING+')')
こうかける:
  TOKEN_PAT = re.compile(r'''
  \s* ( [,|?*+()] |                     # OPERATORS
        <[^>]*> |                       # CALL
        [^\s,|?*+(){<\[":]+ |           # ITEM0
        \[[^\]]*\] |                    # ITEM1
        "(\\.|[^\\"])*" |               # ITEM2
        \{[^}]*\} |                     # NREPEAT
        :[^\s,|?*+(){<\[":]+            # BINDING
        )''',
       re.VERBOSE)

そして気がついたらもう 9字。まえ。

(22:21)
そして木がついたらもう 10次。すぎ。
(23:59)
サーバ管理が楽しいのは「気分転換」だからで、それが仕事になったらもう楽しくない。

プログラミングが楽しいのは「趣味」だからで、それが仕事になったらもう楽しくない。

研究が楽しいのは「学業」だからで、それが仕事になったらもう楽しくない。

…とやって、どんどん切っていくと、最後に残るのは何だろう???

google://生きるのが仕事。/ (15件)

Owl lights reversed.
(00:29)
いまいきなり気がついた。のだが、。ツマヨウジ
こちらのツマヨウジは「泥棒削り」になっている。

ドロボウケズリ。

この「どろぼうけずり」という互換が、語感が、なぜか非常に好きだ。

-- まったく…なんぜ「互換」が第一候補になっているのだ、新山としたことが。許せん --

さあご一緒に。。。
「どろぼうけずり」
「どろぼうけずり」
「  ど ろ ぼ ー けずり」

こらそこー!

「どろぼー」じゃないの。「どろぼう」なの!
あ、「どろぼお」でもないよ。ついでに。「ドろボウ」なんてのはもっての他。

さあご一緒に。。。
「どろぼうけずり」
「どろぼうけずり」
「どろぼうけずり」 ピ ヨ ピ ヨ

なあ、それにしてもさ。
「ご趣味は?」
と尋かれたら、ためらわずにこう答えることができる!
「日 本 語 で す !」
オレはとってもアレだね。

(01:23)
ドシャブってきましたー

Jun 18 [Wed]


(08:55)
へえ。図書館ってそんなに(ベストセラア)作家からはきらわれていたのか。 知らなかった。…と思って Google で“反図書館”を検索してみたが見つからず。 “図書館問題”を検索するとすこしはみつかる。

しかしここにはいくつかの種類のバカがいそうだ。 まとめるとたぶんこうなる:

とゆうか、図書館の経営って何がどうなってるかまったく知らないのだが (うちの母のように「田舎の学校の図書館おばさん」の場合だと 予算配分や買う本の選択はほとんど一人でやってるらしいが、もっと大きな 図書館ではいろいろとでかい 懐疑 会議が催されるのだろう)、 流行りの娯楽小説なんか買っていたらマトモな蔵書はそろわないに決まってんじゃん。 アホかい、あんたらは。というかもっと「古くてもいいモノはいい」系のものに金だしてくれよ。 なぜそんなに新刊を買うのだろうか。そこまでして人気が欲しいのだろうか。 だいたい娯楽小説しか置いてない図書館ならべつに行く必要を感じないので、 個人的にはなくてもいいや (新山はミステリーとかをまったく読まない)。 図書館 (にかぎらず大抵の公共機関) の上のほうの人々というのが、ほとんどアホ役人 (キャリア系) ばかりで、 彼らはなんも実務をわかってないというのは推測できるのだが、 でも彼らはただの名誉職で、実際の決定にはかかわってないんじゃないの? (もしそうじゃないとしたら地獄だなあ、ドロボーすんのは給料だけにしとけと思う)

それに「一度読んだらもういいや」という本しか出さない作家つうのもアレで、 そんなんじゃテクノロジーの発展に負けて (映画やゲームに人気とられて) 当然っつう感じだ。 もう「新刊出して儲ける」という方法は崩壊してるんじゃないだろうか。 まあ連中は今までと同じ方法でずっといけると思ってたんだろうけど、アホだよなあ。 「トショカンではこんなに我々の本が貸し出されている… だからこいつらさえいなけりゃコンナニ利益が見込めたはずなんだあっ!」という 推論には笑える。図書館がなければみんな本買うって? そんなバカな。単に読者が減るだけでは? 単純に「カネを出してまで読むような本じゃなかった」というだけのことじゃないの? だいたい本当にいい本だったらたとえ図書館で借りようとも結局買ってしまうんだけどねえ… (新山はそういうの結構ある)。つーか、 単純に暇つぶしとしてなら、そのへんのしょうもない本よりもずっとおもろい文章がもはや沢山 ネット上にあるんだから、その程度の本が消えたぐらいで「文化的衰退」うんぬんを 懸念するのはおかしい。(ミステリーとかがネット上に あるかどうかは謎だが、随筆っぽい雑文に関していえばもう確実に本 << ネットであるな。 もっとも、本でしか読めない“いい文章”というのはまだ沢山あるけど、そういう本はちゃんと売れるでしょう)

でも一番タチが悪いのは、図書館やらなにやらにそういう要求をする利用者かもしれない。 「権利」を主張してね。…まあ、どうでもいいか。 というか、アメリカ人は野蛮だ野蛮だといいつつも、出版にまつわる文化でみると (あくまで利用者から見ての話、出版社の側は知らない) 日本とくらべて歴然とした「成熟度の違い」を感じる。 いや、NY は非常に特殊なので、ここでの現状をアメリカ全土に一般化するのは危険すぎるか。 そもそも nypl についていえば、あすこは図書館というよりも完全に 大学と同じような「教育・研究機関」という位置づけになってると思う。 彼らはこんなカッコいいビデオまで作っているが、 これを見ると彼らには「情報を提供することで人々を啓蒙し、結果的に社会をよくする」というご立派な目的意識があるらしい。 日本に教育機関と呼べるような図書館ってあるのだろうか(大学図書館は別としても)。 なんで意識にこれほど差があるのかわからないが、やはり「教養主義」によるものかなあ。

(11:14)
…とかいってる間に、すごいメールがきたので某ファイルの公開を停止する (しかし、この行為が「格好をつける」という以外になにか意味があるのかどうかはまだ不明)。 しかしこわいねえ。フリーソフトの基盤がこんなにもろいとは。 各ディストリとかはどうすんだろ (←この他人事な態度!)。

(追記: jun18, 22:55 EDT, 「格好をつける」というのは、RedHat の CD-ROM にも 含まれちゃってる現在、たかが数ヶ所のサイトで公開停止したところで (ポーズをつける効果はあるにせよ) 無駄なあがきにすぎないのではないかという意味です、 彼らが回収に応じるとは思えないし)

(11:32)
なんでみんなそんなに対応が速いの??
(12:51)
みんな一様にフォントの公開を停止したほうがいいと思ってるらしいことに驚く。 しかしいまいち説得力がなく、納得いかない。 そもそも、いちユーザからみれば、いまさら「問題あったんで配布やめます」ってのは なんだか無責任に見える。いままで何年間も何も言われなかったのに? それで罪が軽減するならともかく (具体的にメーカからそう要求されたなら話は別)、 どのみちもうやっちゃったんだから今さら何やっても遅いと思う、正直。 だったら正式な対応がわかるまで開き直ってたほうがトクじゃないだろうか。

つまり「清廉潔白さ」を重視するか、「実益」を重視するかの違いである。 もちろんこれはモノによってちがうんだけど、ことソフトウエアに関しては 新山はかなり実益重視なので、理念については「ほどほどに」しか対応する気はない (そりゃできる限りのことはするけど)。 それに多くの場合理念というものはだいたい後からくっついてくるもので、 あまりそれにばかりこだわっていると価値判断を見誤る (そしてそういう手合いは時々みかける、 GPL以外は使わんとか、djb信者とか、IPv6と心中しますとか、その他いろいろ)。どっちにせよバランスが大事なのは確か。 でも、バランス感覚ってやつはいつも習うのがむずかしい。 もちろん人のこと言えたわけではないが。

ちなみに新山が自分で自分を「djb信者」と呼んでいるのは、 そのようなカテゴリ分けをする人々を暗にバカにしているためですが、 そういう人々に「djb信者は不便な環境しか使わない」とか思わせておくのは楽しいよね (いや、別に大して楽しくもないか)。 でもこういう感覚って、前野さんとかには理解されないんだよな〜。 彼は「レッテルを貼られる」のは嫌らしいけど、それはまちがってますよ。 世の中「レッテルを貼るのがスキな人」が圧倒的に多いのです。 そういう人々にはさ、気前よく貼らせてあげればいいじゃん、と思う、個人的に。 ぺたぺたと。こっちもその手の人間を識別できていいじゃないですか。 でもこれはヒューマニズムにもとる悪趣味と思われるかもしれない。 まあオレはどっちでもいいんだけど。

(16:40)
その後べつのメールを受けとったら、自分が上で書いたことが いかにアホだったかが判明した。考えてみれば実際に公開している人とくらべて 自分はなにもリスクを負っていないのだ。文句いうだけなら簡単なんであって。 もうーーーーばかばかばか墓゛。

しかし自分のアホさ加減を示すためにあえて上の文章は残しておく。 バランス感覚が重要だと思ってることには依然としてかわりないですKedo。

それにしても、つかれる話題。

(18:23)
きょうは Devanagari と ISCII と Unicode との関係に反日が費やされた。いや半日。 一体なんなんでしょうこれは。つうか、ぼくは関わりたくないんですが。 なんで hi_IN.iscii とかいうロケールが定義されてないんだ? こうなったら勝手に定義しちゃえ、と思って、localedef で使う ISCII.gz の元となるファイルを (Unicode 対応表とかその他インド政府の資料をみながら) 書いたのだが、実際にはこのファイルだけではきちんと変換できないということが 作ってから判明した。 しかし Unicode ってやはり欠点があるのねえ。こういう合字が複雑な言語はとくに。
(21:11)
「〜にもとる (悖る)」って変な動詞。 絶対「〜にも」+「取る」と読むやつがいるだろうな、と思う。
(22:58)
ぐgえええ。そんな目立つところからリンクされていたとは。 というかいつから私 (わたくし) はあんなところに列挙さるるような有名人になったのですか? 観測は系に影響を与えるというのは量子論の基本ではないのですか? (←要はこれが言ってみたかった) …冗談はともかく、見るんじゃなかった。もうフテ寝しよう。

(しつこいようですがこのサイトでは Referer をとらないことをポリシーとしておりますので、 リンク元サイトを偶然見つけない限り通常は「なんかどっかからリンクされたみたい」程度のことしかわかりませんので、 どちら様も気がねなくお晒しくださって結構です、つうかポリシーなんてほど大したものじゃ全然ないんだけど)

しかし昼に出したメールに対してはやはりただのアホ電波と思われたのだろうか…。

Jun 17 [Tue]


(09:32)
またおかしな夢を見た。 なにかが事故るか攻めてくるかして都市は大パニック。 誰か知り合いがすげー苦労して食糧をとってくる。 起きてから、ちょっと 9/11 を思い出した。 夢でよかったよ。しかし、まだねむい。
(12:03)
きのうの「まるめた論文を持って憎悪に満ちた顔をして 7階フロアをうろつきまわる新山」の画完成。

これ。

(14:10)
やあ、こんにちは。オレは元気かい?

元気元気。 きょうのミーティングはみんな Hindi で忙しそうだった。 なんしろ締め切りが今月末だから「単調増加的に忙しくなって」いくらしい。 大変じゃね。Winston にまた Python スクリプトについてきかれる。 はっはっは。まかせなさい。しかし新山の病気は 他人の効率悪いスクリプトを見ると最適化したくなってしまう という病気だ。 とくに Output[len(Output)-1] とかいうの見るともう、これは…。 なあ、Python でうつくしいのは配列だよ、配列。

しかしこの開発期間の短さ (わずか一ヶ月) はある意味、新鮮である。 企業の研究開発でもふつうここまで短いのはあまりないんじゃないかと思う。 いままでの研究だと「もうワケわかんなくなってきたから今日はここまでにしとこ」ってのが できないのだ。おまけに、みんなヒンディー語をよくわかってないのにやってる (ネイティブ学生を除いて)。Ralph は「この週末に tagger をいじってみたが、 精度はウン% 向上したのだが、出力結果がよめないからどこがどう違ってるのかわからない」 とかいってるし。すげーな。ワハ歯

もともとこの DARPA のプロジェクトは「もし新たな国でテロ集団が発生したら、 そいつらの情報をいち早くキャッチできるシステムを作れるように (たとえそいつらが どんなマイナー言語をしゃべっていようとも)」という目的であるが、 こいつらは「国防」の名のもとにはどんなムチャクチャな研究開発でもやろうとするんだなあ。 本当に戦争に勝つためにはなんでもやる、この国は。恐いよ。 ちなみにこの前の「ぬきうち言語」は Cebulano (セブラノ語? フィリピンあたりの一言語らしい) だったが、 新山はそんな言語の名前すら知らなかった。しかし NYU のおそろしいところは、 そんなマイナー言語でもネイティブスピーカが数人は見つかってしまう、というところだ。 留学生数では全米一位らしいが、こんな利点があるとはね。これはいいのか悪いのか。

(16:23)
「あいざっく・むんぐ」氏の詐欺 spam はかなりしつこいです。 こんなんにひっかかる奴いるんかねー、ほんとに。

「何考えてんだか理解できないフシギな人」というのはときどき本当にいるが、 こういう詐欺にひっかかる人がもし本当にいるとしたら、かなり理解できない。 もっと入念に準備されたのにひっかかるんならともかく、こんなん だぜー? 穴だらけ。 (現物をお見せできないのが残念です)

(16:58)
そういえば「この景色は夢で見たことがある!」ってのはよくある (らしい、新山は未経験) が、 ってのはあまりきかないな。なぜだ。 基本的に、既視感というのは何か新しいものに対して起こるのではなくて、 「何の変哲もないよくあること」にしかおこらないのだろうと思う。
(19:28)
なんかやる気ねー。ので、まだ明るいうちに (といってももう7時すぎだが) 帰ってきてしまった。 ねむいし冷房が寒いし鼻がぐずぐずするので、こんなところで腐っているよりも サッサと家に帰ったほうがましである。おまけに喉もいたい。 が、これは風邪ではなく花粉のため。どういうわけかアレルギーでは 目がかゆくなる場合と、意味もなく扁桃腺が反応する場合があるようだ。

そして帰ってきたらまた手が「他人の臭い」になっていた。 電車の中でつかんだステンレス・パイプがまずかったらしい。

ところで新山が自分の腕の細さを認識するのは、 電車の中でパイプをつかんで立っているときらしい。 なぜならそのステンレス製のパイプと新山の手首は ほぼ同じ太さだからで、鉛直に立っているそのパイプを 横からつかんで立っていると、まるで自分の腕がそいつに T字型に溶接されているかような感じをうける。 でもオレの腕ははるかに弱そう。なんか衝撃がおこったら、 すぐにでもポキっといきそう。なので落ちつかない。 ちなみに新山は基本的にナヨナヨしている男も女も嫌いなので、 こんなことを書いたからといって決して誉められたことではない。 でもナヨナヨというのは態度のことであって体つきとは関係がないと思う。。。

Jun 16 [Mon]


(11:49)
"endless pool" っっってなんかコワそう…
(13:27)
きょう、ふと「心配する」という単語のおかしさについて気がついた。
「心配」は形容詞なのに、「心配する」って変。 「不安する」とはいわないのに。

ええ、もちろんぼくは心配しています。物を。人を。そしてそのどちらか。

しかしなにぶん自分は耽美主義ではないことに注意してもらわねばならない。 人よりも物よりも重要ななにかがあるという考えには賛同できぬ,ね。

でももしかすると、どっちもたいして重要ではないのかも。

よくあるエピローグ。「この物語のあと、かれらは〜」という説明に続いて 各登場人物の「その後」が紹介。 “うなりをあげる”! “得意気にふりまわす”!! これだ、この動詞!

部屋の中 (== 7解) はサムかった。

(14:34)
部屋の中 (== 7解) はサムい。
あいかわらず。

ここ何週間か気をぬいてたら OpenSSH まわりの変更がかなりたまっていたので、 かたづける。親から「なんか印税の振り込み通知がきたんだが、いつ本だしたんだ?」 という手紙。いつのまにか出たのデス。こっちもよう知らん。

(15:12)
「美しい」を「美味しい」とヨミマチガエテシマウオレハヅュウセョウデスえうか??!??
(17:34)
げーーっ。同じ規則をこんどは別のデータに適用してみたら、 性能がひどく悪くなった。5割しかでてない。がっかりである。がっかり、がっかり。
(20:04)
夕暮れ時に (といってももう 8時だが)、背中をまるめ、憎悪に満ちた顔をして、 やたらと天井のほうの様子をうかがいながら、7階フロアをうろつきまわる男がいた。

手には、まるめた論文を持っている。

ハエとの (名誉をかけた ← こっちが一方的に) 戦い。

一瞬ハチかと思ったが、ハエだった。しかもでかい! ふつうビルの 7階ではあまりハエを見ないのだが、とにかく蝿。 なんか漢字が「縄」と似てる。でもそんなこたーあどうでもいい! とにかく殺生! 天誅! 病原体キャリア!!

…というわけで 5分ぐらい格闘のあげくしとめたが、かなりずうずうしいやつだった。 とにかくでかい。2センチちかくある。そのくせ、部屋からなかなか出ていかない。 蛍光灯が好きなようだ。そういえば NY には東京よりも蚊がすくないためか、あの 真夏に店先などで紫色の蛍光灯でバチバチやってる「電気イス式蚊殺戮器」が見あたらない。 あれもまた日本の風物詩のひとつだ。しかし正式にはアレ何て言うんだろう?

(20:52)
そういえば「カラスの女王」で思い出したが、JSQ にはときどき「オウムおじさん」がいるのを見かける。 いつも色とりどりの (といっても一匹だけだが) オウムを肩にのせて誰かと世間話してるか、あるいは オウムと一緒に改札口をのぞき込んでいる (JSQ 駅は PATH にしてはわりかしモダンな駅なので、 改札に降りるエスカレータの周囲は吹抜けなのです、 参考写真)。 オウムに向かって話しかけている場面にはいまだお目にかかったことがないが、 たぶんあれはもうかなり教養を身につけたオウムで、べつに言葉を教える必要なんてないのだろう… (きっとシェイクスピアなら新山よりよく知っている、そんな顔だ)。 あれがカラスだったらさぞかしかっこいいだろーに。 しかも奴はオウムにくらべて目つきが鋭そうだしな。 つうかどこが目なのかよくわかんないだけかもしんないけど、黒くて。

「黒人はカッコよく見える」ってのと同じような心理でしょうか??

(23:05)
書くことワスれたっすよ

Jun 15 [Sun]


(10:22)
こういうのを寝坊という。
(12:27)
こういうのを激寝坊という。
(13:21)
ここで一句、
ミネラルヲーター
ないから言って
めんつゆにペリエ入れちゃダメ!
ゼッタイ!
(14:39)
$ find ~ -name a.py | wc -l
       5
(これは本当じゃありません)
(22:05)
それらは夜。

うん、たぶんね・・・。

(23:25)
このまえ「web サイト閉鎖症が多い」と書いたが、 そもそも「web サイト 後悔 公開」というものをみんな 本当にやりたくてやっているのか、と思うときがある。 まあ、たぶん「ちょっとやってみました」ということなんだろう。 しかしちょっとやってみただけでも恥をかけてしまうというのは、 ある意味残酷なメヂアだかもよな。、それほんと。

これもまた。

Jun 14 [Sat]


(09:29)
なんだか目がしょぼしょぼする。
(12:20)
二度寝しておかしな夢を見た。

例のプロセスはまだ動いている:

 12:40pm  up 50 days, 15:00,  3 users,  load average: 1.34, 1.15, 1.10
87 processes: 84 sleeping, 3 running, 0 zombie, 0 stopped
CPU states:  0.0% user, 12.6% system, 87.3% nice,  0.0% idle
Mem:  4057732K av, 3984432K used,   73300K free,     632K shrd,  246848K buff
Swap:  257000K av,    5720K used,  251280K free                  984056K cached

  PID USER     PRI  NI  SIZE  RSS SHARE STAT %CPU %MEM   TIME COMMAND
 8652 yusuke    20  19 2411M 2.4G  1996 R N  93.9 60.8 10461m python
18987 yusuke    14   0   972  972   756 R     2.3  0.0   0:00 top
 2465 root       9   0     0    0     0 SW    0.7  0.0  11:17 nfsd
 2462 root       9   0     0    0     0 SW    0.5  0.0  11:25 nfsd

最終的に prec=86%, recall=80% までいった。 しかし「正解率 8割!」といえば聞こえはいいが、 「5000個のデータのうち 1000個がまちがっている」というと なんだかまだまだのような気もするな。統計のトリック。

(14:40)
本当に頭がいい人間はだいたいどっかおかしいが、その逆は成り立たないのだった。残念。不幸。
(19:06)
前回までのあらすじ: 比較言語学者のウルスラ・山崎・G は古代言語の発掘をなりわいとしていたが、 彼女の発掘する言葉はいつもそれまでの教科書の歴史を大きくぬり変えてしまうため、 人々は彼女を「ゴッドハンド」と呼んで溺愛していた。あるとき、印欧祖語よりもさらに古い言葉を 発見したウルスラは、それが現代人にはもはや決して感じることのできないある種の感情 (第3次π平行交流トランス状態) を表現していることをつきとめたが、彼女の発見は でっちあげであるとして学会から糾弾された。しかしその後、シベリア奥地の ある部族のシャーマンが用いている呪術用言語 (lingua occultus) に 似た体系をもつものがあると聞いたウルスラは調査の旅にでかけることにするが、 出発の前日、それまでほとんど顧みることのなかった娘イシマキが ネットワークゲームのやりすぎで発狂状態に陥る。彼女の担当であるカルデラ医師は、 彼女の言動が通常の言語規則を大幅に逸脱していることから「地球外生命体が カレー南蛮 (そば) を要求している」との決断を下す。かくしてウルスラは 究極の蕎麦粉を求めてギアナ高地におもむくのだが、そこには幼なじみである フダつきの不良、ゲンブ岩吉(がんきち) がバナナの皮をもって待ちかまえていた。 感動の再開にウルスラはもう栃木県民のふりをするのはやめようと決心し、 彼の仲間であるエドガー女王 (なぜ男子名なのに女王なのかは聞かないこと) とともに 太平天国の乱を企画、某有名テレビ局にもちこむが、あえなく玉砕。 帰りに大名行列をしていると、墓から出てきたゾンビ息子に食われて一巻の終わり。二巻目。

今回からのあらすじ: ウルスラ・山崎・G の G はゴキ郎ではなく 「ごっつぁん」の略であることがあとがきで判明する。 しかし登場人物はすでに死んでしまっているので、復活して作者の家におしかける。 殴る、けるの暴行。ところがその一部始終は mpeg 化されて携帯電話で配信されていた! 泣きさけぶもすでにあとの祭り。やっぱりカメラのレンズははずして火をつけるのに使おう。

(19:59)
まあ、アノー、そのー、あれでsyよ, are!

Q. ある人のことをあまりに嫌いすぎて頭がいたくなってきました。どうすればよいのでしょう。
A. その頭をかち割りましょう。平和です。
Q. 血が出てきたのですが。
A. それは質問ですか????

あなたがた偽善者は、「自分はフリーソフトしか使わない」といっておきながら、 数年前まではフリーでもオープンソースでもない Netscape Navigator を ふつうに使用し、おまけに配布していました。

(01:47)
おっと。

Jun 13 [Fri]


(09:22)
夢の中に "patient" という文字が書いてあった。なぜ?

夢に文字が書いてあるんです。

(13:31)
ごますり大会。
(16:29)
輪講。きょうの論文は "kernel method をつかった関係抽出" というやつだったが、はっきりいって何やってんのか全然わかんなかった。 Kernel method というのは今はやりの機械学習アルゴリズムのひとつで、 SVM や Voted Perceptron がこれに含まれる。 この論文は Journal of Machine Learning に掲載されたらしいのだが、 彼らはふつうの自然言語屋さんじゃないらしい。 だから書き方が標準的じゃないんだな。

やりたいことは、たとえば 「新山祐介 (長野県出身、かなりのアホ) が 28日に変死体で発見された。 (いかんいかん、研究で殺人の記事ばかり使ってるもんで、いざ例文を 考えるときも『絞殺された』とか『遺体で発見された』とかいうものばかり 思いついてしまう)」とかいう文章から “新山祐介 = 長野県出身” “新山祐介 = アホ” “アホ = かなりの” という関係を とりだすというタスク。これをコーパスからの機械学習によっておこなう、というものだが、 まず問題のインスタンスが何で、何を答えとしているのかがまずよくわからない。 おまけに、そこに載せられている構文木はとってもヘンテコである。 今日はまず最初に「この図が何を意味してるかわかる?」 ということでみんなひとしきり悩んでいた。で、結局ようわからんのだが、 とにかく「なんかの文章を shallow parsing して、その結果を機械学習にぶち込むと、 欲しい答えが魔法のように現れる」ということらしい。 でも学習から得られた答えをどう使うのかきちんと書いてないのである。 基本的には SVM をふくむ kernel method というのは与えられた例が positive か negative かを判定する機能しかなくて、2値しか返さないのだ。 だからそこから実際になにやら使いものになる答えをひきだすためには、 その2値をいかにうまく利用するかが鍵となる。しかしこの論文にはそれが ちゃんと書いてない。

さらに問題なことには、この論文の要旨としてはどうも 「kernel method サイコー!」と言いたいらしいのだが、 よく見るとある問題によっては従来手法のほうが性能が上なのである。 しかも実験に関する説明は非常にとぼしく、ちっとも説得力がない。 Dan なぞは「こんな論文がなんで通るのか!?」と怒りだしていた。 けっきょく、新山が今日学習したことというのは、 この手の人々のやり方というのがいつもきまって

  1. 何か既存の問題をみつける。
  2. それに SVM を適用。
  3. 性能がすこしばかり (通常 2〜3%) 向上しました。
  4. 論文を書く。
  5. 業績ゲット。
というパターンだ、ということである (実はNAISTの某研究室とかもそんな感じかもしれない)。 こういうのはつまらんな。本質的なところに手を出せない人々が、 どうでもいい部分に手を出してお茶をにごす。そういう光景はよくあることだ。 しかしまあオレは自分なりにやればいいだけの話だから別に他人のことはいいんだけど。

体制に文句を言うことで、団結を強める人々。 つまり体制にはいつも文句を言っていたいと。

(17:01)
ところで、BogoMIPS を「ボゴミ」と呼ぶのはオレだけですか??
(17:35)
もうなんちゅうか、この…眠いときにさ…。やめてくれよそんな…。

例の Hi-Ho の CM の歌が頭にこびりついて離れず、 ずっと「♪夢のインタアネエーット〜、ふっふっふっ、そぅーの名はハイホゥ〜」と流れている。 流れつづけている。困った。

(18:37)
なんか今日はいろいろ ジャマ 雑用 が入ってあまり自分の仕事ができなかった。 つうか、ぜんぜんできてネー! ざけんな。くそ。ざけんな。samba め。 おまけになぜか早々と kernel-2.4.21 にしたが、alsa のコンパイルが通らんぞ。 いや、通った。どっちだ。あしたはきっとパラダイス。
(19:00)
むふふふf。Python でまたナイスなアイデアを思いついてしまった。
うへへへへh

スクリプト言語のうまみは「データがプログラムになる」ということだが、 今日発見した (というか気づいた) のは、introspection を使えば プログラムもまたデータになる、ということである。 たとえば、パターンマッチングをするプログラムで、 「あるパターンの出現を発見したら (それに対して) 特定の手続きを実行する」 というような処理をおこなう場合、 ("パターン" → 手続き) の対を データベースとしてあらかじめ大量に用意しておきたい。ところが、 Python のクラスを使うとじつにこれが簡単に書けるのだ:

class MyPatternSet(AbstractPatternSet):
  pat_aa = "a* (b* | c*)"
  def act_aa(self, seq):
    # ... pat_aa にマッチしたときの処理 ...
    return

  pat_bb = "c d e"
  def act_bb(self, seq):
    # ... pat_bb にマッチしたときの処理 ...
    return

ポイントは対応させたい各パターンとメソッドを それぞれ pat_Xact_X という名前でそろえるところにある。 こうしておけば、このクラスオブジェクトを受けとって、 dir()getattr() を使うことで 各パターンとそれに対応する手続きの対を得ることができる。 もちろん Scheme のマクロを使っても同様の処理はできるだろうけど、 Python にはマクロはないからね。

(22:23)
ところで「不思議の国のアリス」という文字列をみて いきなり思ったのだが、「アリス」とカタカナで書くと別に どうということもないのに、「ありす」とひらがなで書くと なんだかみょうにあやしい、まるでどこかのホステスの源氏名みたいに見える。 これはなぜだろう。オレの偏見なのか。まあ世の中、偏見だらけ。 かな漢字偏見。

google://漢字偏見/ (2件)

やばい! こんなところにまで!

(00:36)
あらかじめ予告。ほぼ7月いっぱいのあいだ日本に帰るため、 そのあいだこのマシンは落とすことになりそう。

つーか、なんで自分のマシンを落とすのにいちいちアナウンスせにゃならんのだ。 ムカつく。でも web をみていると、ときどき予告もなくいきなり「閉鎖しました」とか書いてある サイトがあって、なんともいえない不安定さを感じることがあるので、そういうのはやりたくない。 なんか「サイト閉鎖症候群」とでもいうべきものがあるように思える。 もしかすると一種の自殺みたいな気分を味わえるのかもしれない。 あるいは「サイバーリストカット」 (うげ)。 ちなみにこのページには明示的に書いてないがじつは隠されたポリシーがあって、 それは「しぶとく続ける」というものである (隠してないじゃん)。 なぜなら自分自身、「しぶとく生きつづけているページ」というものを 見ると安心するからだ。やたら頑固なものは人を安心させるが、 同時になんだか笑える感じもする。 誰も見なくても続けてやるからなチクショウ。

そういえば「人が丈夫である」ことをあらわすのに、 「臼で挽いても死にそうにない」って表現はかなり気に入っている。 そりゃー丈夫すぎだって。ワハハ。 願わくばそういう人間になりたいもんだ。 都会に住むのはある種のしぶとさを身につけるのに役立っていると思う。 もっとも、田舎に住めばまた別種類のしぶとさが身につくのだろうけど。 いずれにせよ「しぶとさ」がなくなったら自分はほとんど死んだも同然だろう。 ゴキブリはすげー嫌いなのだが、やつらはたしかに尊敬に値する。

どうでもいいけど中国人は一般的に非常にしぶとい。 チャイナタウンが好きなのは彼らのしぶとさにシビれているからかもしれない。 つーか、もし世界の終わりまで生きのびる人間がいるとすれば、それは中国人だろうと思う。ぜったいに。 まるでゴ(以下略)

つーか、218.44.76.90 (はてなアンテナ) のしつこいのはどうにかなんないんですかね。 あるとき調べてみたらこいつは日に100回ちかくも GET していた (よーするに「アクセスログ」にある cur.html のアクセスのうち約半分がこいつということになる)。 HEAD じゃないですよ、GET ですよ。アホか? 設計者は一体何を考えているのだろう。 てゆーか、一種のパラノイアだな、ここまでくると。 オフラインになってもやりつづけんのかなあ。迷惑千万。 しかし接続拒否するのは敗北っぽいのでやらない。 悪いのはオレじゃないと思う。

またこーゆーつまんないことで腹を立てて眠れなくなるんだろうか…オレは

Jun 12 [Thu]


(07:11)
ぐちぐち、及び、めそめそ。
(08:04)
まあ、自分がこういう性格なのはわかっているのだが、 それにしても自分はおそろしいことをやっている:

まあ、一時的な病気ということで。 もしくは恒久的な。

(14:14)
大学の付属医院から「鬱について」というパンフレットをもらってきました。 とくに自分がそうなわけじゃないのですが、なんとなく興味があったので。 (ハテ? なぜ「ですます調」なのだろう?)

自殺についてかなりのページがさかれているのがおもしろい。

そして「助けを求めるのは弱さの証ではありません、 むしろそれは強さの証なのです」と書いてある。 このへんがアメリカっぽい。

(15:38)
うわーオ。 LL1-discuss で紹介されていた SuperX++ という言語はすごい。 これは XML によるプログラミング言語なのだが、Hello, World がこんななのだ:
<xpp>
  <xout>Hello World!</xout>
</xpp>
ほかにも Water などという XML アプリ(=言語)もある。こんなん誰か使ってるんかい、と思ったら 本も出てるしユーザグループもあるんだって。おどろき。

ちなみにたいていの ML はろくでもない議論ばかりだが、 この ML は参加する価値あり。 Paul Graham や Guy Steele などの大物が議論に参加している。

ところで (てくるで)、 さっき grape でホームディレクトリ上のファイルをいじってたら 突然プロセスがロックしたのだが (他のプロセスは普通に動いている)、 これはマシンの時計が狂っていて NFS 上で時間がおかしくなっていたために 起きた現象だった。NFS つかうときは時間はきちんと合わせること! つうか、いつのまに ntpd 止まったんだろ…。

(16:28)
きのう思ってここに書き忘れたこと。

ちがう研究グループの人と会っていると、 同じ computer science でも、どうやら分野によって微妙にカラーに差があるような漢字。 どうも自然言語屋さんはなんかオトナシイ人が多いような気がする (新山はおとなしくない、などと言わないように、普段は猫かぶってるんですよ、これでも)。 これに対してネットワーク系の人々はなんかいかにもアレ的だ。

アレって????????

(17:19)
やたらと蒸し暑い今日という火。それは白い。

wxwxwxwxwxwxwxwxxx

(00:23)
Owen と Pete's Tavern に行き、 いま帰ってきた。ここは O. Henry がよく利用していたというところで、 Seinfeld をはじめとしてかずかずのドラマや映画の撮影にも使われていたという 新山にしてはミーハーな選択である (でも Owen は O. Henry を知らなかった… ので、「賢者のおくりもの」と「最後のひと葉」のあらすじを話して聞かせた)。

「ニューヨークで一番古いバー」とうたっているだけのことはあり、 外観もテーブルも古めかしく、壁には O. Henry の写真や手紙や草稿などが飾ってあった。 といってもべつに歴史があるからといってお高くとまっているという感じでは全然なくて、 店内は現代的なロックが流れ、若者がテレビの野球中継に大声をあげていた。 食事しに行ったのだが、あとで Owen と「ここは純粋に飲みに来るほうが楽しそうだな」という 結論になる。時間がたつにつれて店内は会社帰りの人々でごった返してきた。 あまりにウルサイので食事後店を出て、どっか別のとこに入ろうか? と思ったが 雨がふってきたので、大学オフィスに戻っちゃえ、ということで 2人して NYU に行きお茶をのみながら 11時すぎまで語りあかし、いま帰ってきたとこである。 きょうは夕立ち後もひどくむしあつい。とにかく楽しかった。 Owen が結婚後につくる子供の人数から、Diffie-Helman 鍵交換までのこらず話しこみました。 待合わせに 30分ちかく遅れてきたことは許してやろう。

しかし、結婚かあ。これについての新山の意見はここには書きたくない。ので書かない。 が、慣れない外国で所帯をもつということに加え (彼の場合は日本人よりもずっと障害が多い、 その苦労は想像するにあまりある)、Owen はひじょーに責任感が強く、おまけに完璧主義で、 いわゆる「厳格なボス型」の性格をしているのだ。こういう性格では、 結婚にたいする責任はかなり彼にとって重荷になっているように見える。 大変だろうになあ、えらいもんだ…。

人生って何だろうね? と考える。やまぐち人生。(沈黙、5.7秒間)

彼もまた同じようなことを考えたかもしれない (さすがに山口人生は知らないだろうけど)。 新山は人生を物語としてとらえるのが好きなのだが、だとすると いったい今自分はどこらへんにいるんだろ。さっぱりわからんね。 そしてそれはいったいどういうお話であるのか。それはおそらく日本語で書いてない。 書いてあったとしても助詞の使い方がまちがっっている。 なにがおそらくなのか?? もういいよ、もういい。寝る

(02:07)
あんたが悪いわけじゃないさ。

文章のあとに句点をつけるときと、つけないときがある。 わざと不安定を出すために

Jun 11 [Wed]


(09:32)
時代はダンテですよ、ダンテ!

と、言ってみる。なにげなく。

トイレ行ってこよ。

(10:03)
時代はマックス・ヴェーヴァーですよ、マックス・ヴェーヴァー!

本当は「ヴェーバー」が正しいらしいのだが、どっチでもいい。 しかしなぜこいつは「マックス」とか「ヴェーヴァー」だけで呼ばれないのか。 「マックス」ってのは、 「どもるガン」の「ド」とか「ふぉんノイマン」の「ふぉん」みたいなもんなのか。長すぎる。

「お前はさっきから、ド、ド、っていうけれど、そのドっていうのは何かい?」
「知らないわ。あたし好きなの」
「この花はドいやな色だね」

そしてですねー、「ヴェーヴァー」って書いてあるのをみると、 なんだかとてつもなくだらしない口の開き方を連想させるのでいやだ。です。ニホン語、不得意。

ところで「プロテスタンティズムと資本主義の精神」ってなんですか?
間になにか紙きれがはさんであるやつですか?
そんでもってそこには恐しい詩が書いてある。

見返り美人
うそつきピジン
クレオール

消毒! (それは C6H4(CH3)OH)

ああ、ひとあんしん。

wtksdesyone...

(14:05)
P2P 勉強会に出る。きょうは中華料理だった。

最近なんとなくわかったのだが、いま米国ではアプリケーション層の ネットワークとして DHT (Distributed Hash Table) が熱いらしい (でも検索したけど日本語の文献はほとんどなかった…)。 代表的なのは Chord Project で、 これはよーするに P2P の基盤技術となる分散ストレージとデータ冗長性を実現するものである。 DNS なども DHT の一種といえるかもしれないが、これは centralize されている (root-servers がある) のに対して、DHT には基幹となるサーバがない (decentralize されている)。

現時点でまともに動いている P2P 技術といえば Gnutella や KaZaA (これって Kwanzaa に似てるよな) や Winny なのだが、これらには以下の特徴がある:

Napster では検索は centralize されていたから速いが、これは簡単にやられてしまった(裁判で)。 しかし Gnutella などは分散化されてはいるものの、 検索にはえらいネットワーク帯域をくう。なぜなら N個のネットワークノードに対して、 最悪の場合 O(N) の query が必要になってしまい、中間ノードはこれをすべて中継しなければ ならないからだ (Winny がどんなつくりになっているかは知らない)。 DHT はこの検索そのものを分散化するというこころみで、その名のとおり 「ハッシュテーブルがもしもほんとにうまく分散化できたらいいね」 という期待のもとに研究されている。究極的には 「DHT を使えば IP アドレスはどうでもよくなる」ということらしい。 なぜならデータがどこに置いてあるかという“場所”はどうでもよくなり、 かわりに内容をあらわす「キー」を知っているかどうかが 重要になるから (これは Winny などでは実際にそうなりつつあるように見える)。 将来的にはデータの store も retrieve もすべて IPアドレスではなくキーを使って行うようになるであらうと。 でもそれじゃストレージ目的にしか使えなそうだけどなあ。ま、いいか。で、研究の目的は どうやってこれらの P2P の長所をこわさないようにしながら短時間で (できれば Google 並の) 検索を実現するか? ということである。 したがって新規研究の多くはデータ構造とネットワークトポロジーや帯域を考慮した議論になっている。

きょう発表されてた論文は、 「検索キーワードをいかにノード間で分散させるか、vertical がいいのか horizontal がいいのか」 というものだ。DHT においてはいかに検索キーをストレージ間に分散させるかがカギなのだが、 これには大きくわけて 2つのやり方がある。

Google は horizontal な方式をとってるらしい。つまりドキュメントごとに 各サーバをわりあてる方式ね。しかしこれだと検索はひとつの query をすべてのサーバに 投げる必要がある。ネットワークが分散化されている状態では、これはおいしくない。一方 vertical では 真の分散検索が実現できるが、こんどはドキュメントを新しく追加するときに 「それがふくむすべてのキーワード」分だけドキュメントを replication する必要がある。 ここに効率のトレードオフがあるのだが、 この論文の要旨は“archive 的な目的にかぎっていえば”データの変動よりも 検索要求のほうが大きいので、vertical 型の分担ほうが効率がいいであろう、 ということらしい。で、それのシミュレーション結果。

しかしこの検索がほんとうに「使える」ものなのかどうか? は依然として疑問である。 ある先生いわく「で、このアーキテクチャでどうやって Google みたいな使いものになる PageRank を実現するんだ? また Altavista にもどるのはオレはいやだよ」 「でも曲の名前検索ならべつに単純マッチングでもいいんじゃない」 「どっちにせよそれは違法だ」…うんぬん。きょうはあんまり荒れずに終わった。

自然言語屋さんのオレがなんでこんなことに首をつっこんでるのでしょうか?

(18:04)
「新ウイルス発見・今年最悪に」とか書かんでほしいですね、たかがコンピュータウイルスに。
(18:33)
きょうは自分が郵便受けを 2つ! 持っていることを発見した。 ひとつは「NYU の PhD学生 新山」としての郵便受けで、 もうひとつは「ぶろーどうぇい 715 番地の新山」としての郵便受けである。 で、今まで自分は 715 のほうの郵便受けだけを使ってきて、 学生用の郵便受けがあるとは知らなかった (というか 715 のほうが学生用だと思っていた)。 ところが、けさ通知表 (履修課程の進捗状況をしらせる手紙みたいなもの) を 各学生用のポストに送ったよーん、というメイルがきたので、自分のポストを見てみたが入ってない。 それで事務室に入ってみたら Rosemary は 23日までお休みで、別の人に言うと 「そんなの知らん」という。それでもしつこく文句を言っていたらそのうちに 学科長 (おばさん) が出てきて、「まあ、あんた! 今朝ポストに入れたってメール送ったじゃないの!」 と言われてしまった。「入ってないっすよ」「下のポスト見た?」「いや、ぼくのオフィスは broadway のほうなんで」「あなたのポストはこのビルにもあるのよ!」「ええ? このビルに*も*あんの!?」 …というわけで恥をかきました。

さて、いざ手紙をみてみたらただの薄っぺらい紙が入っており、 「お前はまともにやっているみたいだから、来年度も奨学金やるから」 とだけ書かれていた。あら、sondake..

(ちなみに成績が悪いと奨学金がうち切られ退学を余儀なくされる)

(20:57)
電車の中で、"Acupuncture Today" という風変りな新聞を読んでいる人をみかけた。 自分はいままで "acupuncture" を "archpuncture" と覚えていたことを知った。

家に帰ってポストをのぞくと証券会社から「Ms. Liu」宛にかかれた手紙をみつけた。 Liu (劉) というのは Owen の中国語名だが、この名前には一箇所まちがいがあります。

(21:38)
ところで、まえに Bowery の Remote Lounge で流れていた Hi-Ho の CM らしき動画は これ だったということが判明した。たしかに、こりゃ、すげーわ。しかもちゃんと最後に「Panasonic」って言ってるしな。 これがオルタナ系外人の「ハイテク漫画国家・日本」のイメージなんだろうか。
Yusuke Shinyama