2005年 8月 (3)。

Last Modified: Thu Sep 1 00:49:59 EDT 2005 (09/01, 13:49 JST)

Aug 31 [Wed]


(11:16)
8がつは 31にちまであったのか。昨日はバカナコトを書きすぎたんで今日は軽くするぞ。

そういえばゆうべ大学につながらなかったのはルータが落ちただけで、 マシンの電源自体は落ちなかったらしい。あーー〜、よかった。

(13:03)
台風はかなりすごいことになってるらしいよ。 盗難が。 ガキんちょどもが、無人になった店から洋服やら拳銃やらを つぎつぎと盗み出している映像を CNN でやってた。 「ニューオリンズは人の住めない街になっている」とも。

どうでもいいけど (= よくないか)、 きょうの New York Post の一面は "Our Tsunami" だった。 米国では tsunami という単語はべつに地震で起きた波のことではなく、 ただたんに「デカい波」のことを tsunami っていうらしい。 (追記: もしかするとこれは比喩表現で「こないだの津波とおなじくらいの被害だよ」って 意味かもしれなかった)

NYTimes では「テキサス州がニューオリンズ難民を受け入れ」とか書いてあるし。 難民かよ。たしかにそういわれりゃそうだけど。 (追記:英語の refugee には「避難している人々」という意味もあるようである。)

(16:15)
ガーーソ! 「千夜千冊」って 1000冊超えたあともまだ続いてたんだ?

…しかし、まえから思うのだが、このサイトって「ポインタの集合」としてはいいけど 内容自体はたいして面白くないよな。「オレはこんなに知的だ」という押しつけがましさに 満ちているし、レイアウトも細くって読みにくい。 「言葉を使っている」のではなくて「言語に使われている」人の典型的な文章のようにみえる。

(17:16)
アップルはいつまでも客に spam を送るのをやめてケロ。
(17:43)
ネムいので 17分間睡眠。わずか 17分の間にも夢は見るnda。

なんか、やたらと蒸して生暖かい風が強くなってきたぞ。こりゃ夕立ちくるかな。

(21:23)
むし暑いな。あんまり食欲ニャーよ。

…ふと gimp で落書きしたい気分になる。その結果できたのがこれ:


“あんまり食欲ニャー”です。よろしくね。

ちなみに、こいつは猫ではない。かつお節である。

いかん! このサイト名は「たべすぎ.net」なのに、 こんなに食事的にネガチブな画像を置いていては!!

Aug 30 [Tue]


(17:12)
なんかさー、このビルの電源がなにかアホってて、 今日の夜中に停電があるかもしれないって話なんだけど…。

もうさー、ぬんぬぬ? ぬんぬぬ? (なんなの? なんなの?) いくつかのマシンで実験プロセスを走らせてる人が何人かいるのだが、 みんな停電のことを知らずに帰っちゃっタ。マシンを止めたほうがよいのか、 よくないのか。オレ一人に判断させるのはやめてくれーー!

UPS ほしい。こんな環境で UPS 使ってない奴のほうがめづらしいと思う。 この建物は非常に電源が不安定なので、停電よけ以外にも UPS を使う利点はあると思っている。ハードディスクがあれだけよくブっこわれるって、 ぜったい何かあやしいよ。呪われてるぜ。クーーール!

(20:51)
きょうはお昼に Falafel を 2個くったのだが案の定、量が多すぎた。 (注意:「案の定」と「量が多すぎた」の間に読点はぜったい必要である、 なぜならそうしないと「案の定量が多すぎた」となってしまい、「あんのていりょう」ってなんだ? といういらぬ疑問を読者の脳内で培養することになるからである。) おい、いまこの部屋にハエがいるぞ! チクショウ。 それはいいとして、McDougal St. 周辺には Falafel が 1個 2ドルの店が 新山の知るかぎりで少なくとも 4件ある。きょうのところ (YATADAN とかなんとか書いてある店) は 他のところ (Mamoon とか) にくらべて Falafel 部分が多かった。 しかしこれって 1個だとちょっと少ないけど 2個だと食いすぎるよな。 おかげでまだお腹イッパ。

てくるで、ニュースを分析していて気づいたのだが、 いまじゃ defcon って AP でもとりあげるほど有名になってんだね。 時代は変わったもんだ。 ちなみに www.defcon.org は publicfile をサーバに使ってるサイトの中では一番有名なんじゃないかと思う。

(23:29)
そういえばセキネさんがKDD-2005つー学会 (電話会社とは関係ない) に行ってきたらしいんで、その話を聞いたんだよ。 なんでも知識抽出とデータマイニングに関する学会だったらしいのだが、 結局、テキストからのデータ抽出は「自然言語処理をちゃんとしなきゃね」という論調だったらしい。… オイ、ちょっと待て。参照が循環してる。 そもそも現在の自然言語処理はほとんどデータマイニングになってるじゃないか。 つまり「知識さえ集めればなんとかなるだろう」ってな状況ね。 そこへきてデータマイニングには自然言語処理が必要? ヨッパラってるんですか? そして、これはセキネさんにも言ったのだけど、 ただのテキストデータのかたまりを「知識」とか呼んでる時点で終わってます。 たとえそれが 100TBytes あろうとも。彼らはたぶん常識的なあるひとつの事実に気づいていない。 それは、この世界には「書かれていること」よりも「書かれていないこと」のほうが 圧倒的に多い、ということである。たぶん。書かれていないからどれくらい多いのか比べられないけど、 その差は 10倍や 100倍の比じゃないだろう。おそらく、1 の「書かれていること」を理解するためには その何倍もの「書かれていないこと」の理解が必要で、「書かれていること」の理解を 増やそうとすれば、「書かれていないこと」の必要もそれに比例して増える、といったぐあい。 unsupervised learning やデータマイニングをやっている大抵の人というのは、 データを沢山集めれば、そのうち「データ自身が語りだす」状況になる、つまり 核融合における break-even (訳語あるの?) のようなことを期待しているのかもしれないが、 素朴に、常識的に考えて、そんなウマい話あるわけナイじゃん! だいたい、これは核融合とは違うよ。個人的に、「フツーーの自然な思考」ができなくなった研究者つうのは 終わってるような気がするのだが、まあせいぜいがんばってくれ、と言うしかない。 G社のような企業がデータをすべて使いつくして、 それでもまだ大したことができなかったとき、 彼らがどんな言い訳をするのか楽しみである。 まあ、どうせ言い訳は今から用意してあるだろうけど…。 (それは研究者の重要な仕事のひとつだ、いや本当に)

まだ腹へらない。どうすんの

(01:15)
やべえ! 大学につながんなくなってる。もしかして、キチャッタのか??
(01:59)
そろそろめし食うか。

きょうはまた新聞記事のニュースを分析した。

8月12日付の米国の新聞で 3紙以上に掲載された記事クラスタ:

  1. イランが核処理の中止を求める EU の要求を却下。
  2. ブリティッシュ・エアウェイズ、従業員ストライキによりヒースロー空港からのフライトをキャンセル。
  3. 「ダラス」のエリー役で知られる女優バーバラ・ベル・ゲッデス氏、死去。82歳。
  4. NASA、火星探査機を打ち上げ。
  5. ジェニーヌ・ピロー氏、ヒラリー・クリントンはニューヨークをホワイトハウスへのドアマットとしてしか見ていないと発言。
  6. ロビイストのジャック・アブラモフ氏、6000億ドルの横領罪を宣告される。
  7. いくつかの州がラムズフェルド長官の空軍オフィス閉鎖に不満を表明。
  8. 最高裁判事候補ジョン・ロバーツ氏、中絶擁護団体は広告をとり下げるべきと発言。
  9. 逃走中のハイアット氏夫妻、オハイオ州コロンバスで逮捕される。
  10. レバノン当局、イスラム原理主義者のオマール・バクリ氏釈放を決定。
  11. "Looking for Mr. Goodbar" の作者で知られるジュディス・ロスナー氏、NYU付属病院で死去。70歳。
  12. ...

まあ、新山のやろうとしていることは、さしずめ 「新聞記事に対するデータマイニング」みたいなもんだが、 これにもデータマイニングと同じ原則があてはまる。 たとえ CIA かなんかが世界中の新聞記事をあつめて翻訳して いま地球上で起こっていることをくまなく把握しようとしても、 新聞には地球上で起きたすべてのことが報告されているわけではない。 あくまで新聞社が「売れそうだ」と思ったものしか記事にならないのだ。 言語を扱う人間 (研究者や、それを使うユーザ自身) は 書き手/話し手のこのような主観からはどうやっても逃れられない。

結局のところ、情報検索の技術というのは「書き手が提供したいと思っていること」と、 「検索する側が知りたいと思っていること」が“偶然”一致したところでしか成り立たない。 そう、これはあくまで“ぐーぜん”なのである。 べつに必ず起こると保証されているわけではないのだ。 新聞の場合、読者は「新聞」というメディアを選択することによって、 あるいは新聞社を選択することによって、この“偶然”の起こる確率を 上げているともいえるが、同時にそれは自分の知りたい範囲をすでにかなり せばめてしまっている、ともいえる。ここで今さら 「いろんなニュースから情報が抽出できまっせー」といってみたところで、 得られる結果はどうせ正月にモチ詰まらせて何人死んだか、みたいなことしかわからない。 しかも、モチ記事はお約束だから検索できるけれど、 「肉まんを詰まらせて死んだ記事が読みたい」といったところで、 そんな記事は存在していないんだから情報検索のしようがないのだ。 高機能ザル開発。 つうわけで、だんだん新山の研究は 自然言語の研究というより「新聞記者の言語の使い方、あるいは彼らがどう世界を記述するかに関する研究」みたいな 雰囲気 (ふいんき) になってきた。まあ学位のためだからしょうがないと思う。

…つうことで、どうせ毒ならば皿までということで、 さいきん新聞社の「Style Book」というものを買ってきたんだよ。 これは特定の新聞社が記事を書くときに どのような語彙、語法を用いるかをこまかく (単語ごとに!) 記したもので、 新聞社で実際に使われているマニュアルであるらしい。 新山が買ったのは NYTimes のものだが (ローカルな名前がけっこう載っているから)、AP のやつも売っていた。 自然言語処理で新聞記事を扱うなら、これは見ておいて損はない本だ。 新聞社にはその新聞社なりの既定スタイルというものがあり、たとえその新聞そのものを 対象としなくても、参考になることが多い。 英語の場合だと、ある単語をキャピタライズ(大文字で書く)するかとか、 省略形を使う、特定の用語を使うべきかそうでないか、などの規則がある。

たとえば New York Times では "CIA" という単語は、記事中にはじめて現れたときは "Central Intelligence Agency" とフルネームで書き、2回目以降は "C.I.A." とピリオドつきで省略形を書くことになっている。 でも San Francisco Examiner 紙では最初から "CIA" で、ピリオドはない。 ところが NYTimes でもテレビ局を呼ぶときは "ABC" や "CBS" などピリオドをつけないのだ。 これは固有名詞の認識精度にかなり影響してくると思う。 この本はこういった単語が辞書形式で書かれており、 通して読むものではないのだけど、ぱらぱらめくっていると結構楽しい。 とくに用語によってはアメリカ人が神経質になっている部分がよく出ている。 おもしろいのを抜き出すと、こんな感じ:

abortion (中絶): 要注意単語。中立性を保つため "pro-life (生命尊重派)" や "pro-choice (選択尊重派)" といった言葉を使わないこと (ただし個人の発言から引用される場合は除く)。批判されない用語としては "abortion rights advocate (中絶権称揚派)" と "anti-abortion campaigner (反中絶派)" がある。 "pro-abortion (中絶賛成派)" という用語は、 「中絶に反対しているわけではない (が積極的には賛成していない)」人々から 文句がつくことがある。"mother (母親)" と "baby (赤子)" という表現は感情的になるので、 かわりに "woman (女性)" と "fetus (胎児)" を使うこと。

a k a: "also known as (…とも呼ばれている)" の略。各文字の間には小空白 (thin space) を入れること。

The Associated Press (AP通信): 省略形は "A.P." あるいは "The A.P." ただしクレジット行で使う場合は "(AP)" のように書く。

Eskimo(s) (エスキモー): もっとも知られているアラスカ及びカナダ地方の先住民の呼称。 しかし現在、特にカナダでは "Inuit (イヌイット)" が好まれる。

God (神, 超越的存在としての): 大文字。ただし、he, him, his, thee, thou, who および whom などの代名詞は、たとえ神 (あるいは "Jesus (イエス)", "the Holy Ghost (精霊)", "Allah (アラー)") を表すときでも小文字にすること。

heaven (天国): 通常は小文字。ただし "I thank Heaven." という表現のときだけは大文字。

November (11月): 後に数字がくるとき ("Nov. 11" など)、あるいは図表の中では省略形 "Nov." を使ってよい。

O. Henry (O・ヘンリー): ショートストーリーの書き手 William Sydney Porter のペンネーム。"O'Henry" ではない。

ここに書いてあるのは、あくまで NYTimes が選んだ「スタイル」で、 べつにこれが正しいとされているわけじゃない。 でも、こういうのが本として売ってるってのはすげえことだよな。 日本で朝日や読売が社内で使ってる文体ガイドなんか、本屋で売ってるかね? あるんなら読んでみたいけど。

Aug 29 [Mon]


(11:55)
なんだ、「この二人はなんでずーーーっと翻訳しないんだろうなあ?」と思ってたら ワザと最後までねばってたんじゃなくて忘れてたのか。

ところで、いまさらだけど 「日本病」について。 新しい流行語なのかと思ったら、Google すると出所は 1箇所しかなかった。 どうやらこのために特別に設計・開発された固有名詞らしい。 しかも、このネタっぽい文章にバッチリ釣られちゃったりしてる人もいて笑える。 まあ、しかし、この元ネタとは関係なく OSS で「日本病」と呼べば呼べるような現象はたしかに存在する。 それは日本人の多くが「遠慮するのが美徳」だと思っているということだ。 これは日本人どうしの間ではたしかにそうなのだが、それはお互いに「言わなくても推測してくれるよね」という 暗黙の了解があるからであって、外人とやりとりするときにはこれは通用しない。だから たまに英語の ML などで変に遠慮して言いたいことが言えてない日本人をみると、他人事とはいえ 「もっとストレートに要求を言えばいいのに」と思うことはある。 これは日本人がほとんど生理的に身につけていることなので“病気”といってもいいと思う。 これを克服するためには「遠慮しないでズバズバ尋ねる/頼む訓練」とでもいうものが必要だ。 どうでもいいけど、python.jp に投稿されたあの電波コメントはなんで消しちゃったんだろ。 とくに帯域を消費することもなさそうだし、あれが別の電波を誘発したりすることもなさそうなので、 そのまま残しておけばいいのに。電波の出現もふくめて python の世界なのだと思う。 まあ、DDI。(ど○で○い○)

(16:51)
きょうの占いクッキー:
:) You will have good luck in your personal affairs. :)
Daily Numbers: 2 1 01
Lotto Six #'s: 16 18 32 21 5 17
ワーーオ! いまやロットの番号まで載っている! これ外れたら訴訟起こされるよ絶対。 あやしい中国語入門のほうが好きだったのに。

てくるで、なにげなく NIST の機械翻訳コンテスト 2005年の結果 を見ていたら、いつのまにか google も参加していて、 しかもすべての分野でトップになっていることが判明した。 他社を大きく引き離している。すごい!

…と思ったが、よくデータを見るとなんかおかしい。 この試験には 2つの言語 (中国語、アラビア語) があって、 それぞれの言語で「LDCが提供したデータだけを使っていい部門」と 「地球上にあるどんなデータでも使っていい部門」があるので、 合計 4つのセクションがあるのだが、google はそのすべてに参加している。 でも、常識的に考えたら「なにを使ってもいいよ部門」のほうが 「限定されたデータのみを使った場合」より点数が高くなるはずだよね? しかも google は稀にみる「データもち」のはずだ。ところが、そうなっていない。 google の得点は LDC のみを使ったのとほとんど変わらないか、 中国語ではむしろ下がっている。これはどういうわけだ? まあこの翻訳のスコアに使っている BLEU っつー尺度がそもそもインチキくさいのだが (それを言いだすとこの結果はすべて無意味になってしまう)、 あと、これって去年までは匿名評価 (社名を出さない) だったと思うのだが、 なんで今年からいきなり社名を出すようになったのかもナゾ。 まあ、とにかく、google が宣伝目的のために出てきた「一発屋」なのか、 来年もひきつづき出場する気があるのかどうかに興味ある。そのときには Yahoo や MS も出場してほしい。 でも、たぶん一年やそこらじゃそう大きく結果は変わらないだろうから、 今回みたいに目立つ可能性がないかぎり出ないような気がする。 Summer of code にしても、あれってどれくらいの割合でうまくいったんだろうな (lispnyc では途中で脱落した人がけっこういた)。あれも来年続けるのかどうかナゾだな。 なーんか、この会社は堅気な商売よりも話題づくりに必死になっているって感じが 最近いよいよ強まってるが、きっと株のせいかもね。誰かが slashdot で 「Google は企業としてはまだピークでないかもしれないが、Google ファンの 幻想はすでにピークを過ぎた」と書いていて、なかなかウマイと思った。

あ、ライブドアも似たような戦略だな、きっと。つうかあっちのほうが露骨。

(17:38)
うげーーー。疲れた。

このところ、ずっとニュース記事の分析をしている。 Webstemmer で米国内のメジャーな新聞 12紙 (といっても NY 周辺の地方紙が多いが) を カッパラってきて、それを手製のクラスタリングツールで分類し、複数の新聞がとりあげている 記事をさがすのである。目的は「“よくある”タイプの記事における言いまわし」を 自動的に学習させることにある。が…

8月2日の米国の新聞で 3紙以上に掲載された記事のクラスタ 30個:

  1. サウジアラビアのファハド国王が 82歳で死亡した。
  2. スーダンの暴動で 36人が死亡。
  3. ブッシュは大統領権限でボルトン氏を国連大使に任命。
  4. 中国のCNOOC、ユノカルへの 1840億ドルの入札を取り下げ。
  5. ボルティモア・オリオールズのラファエル・パルメーロ選手、10日間の出場停止。
  6. ブッシュ大統領、ディスカバリー号の乗組員と電話で会話。
  7. 行方不明の子供3人、車のトランク内にとじこめられ窒息死。
  8. ニュージャージーで 18歳がおとなりの 16歳を殺人。
  9. 絶滅したとされていた ivory-billed woodpecker (象牙色くちばしキツツキ?) の生存が確認される。
  10. ハーバード学長ローレンス・サマーズ氏の給料 3% 上がる、これに反対して理事会のコンラッド・ハーパー氏辞任。
  11. テレル・オーウェンズ選手、契約に不満。でもトレーニングに出る。
  12. NASA がスティーブン・ロビンソン飛行士によるディスカバリー号の修理を決定。
  13. 米政府が台風見込みを修正、今年は 11〜14個ほど多くなる予想。
  14. 温暖化は台風をより激しくしているという研究結果。
  15. 北朝鮮、核はまだあきらめないと発言。
  16. 米海軍の兵士 6人がイラク西部で殺害される。
  17. 民主党のフェルナンド・フェレーラ氏が上昇、ブルームバーグNY市長の強力なライバルに。
  18. ロシア政府、チェチェン関連の番組放映で 米ABCテレビ の認可を取り消すと発表。
  19. ポーカー世界大会 2005 がラスベガスで開幕。
  20. ブッシュ大統領、CAFTA (中米自由貿易協定) に調印。
  21. カリフォルニア州高等裁、ゲイのカップルに対する差別の是正を要求。
  22. 「まだブラッド・ピッドを愛している」とジェニファー・アニストン。Vanity Fair のインタビューで。
  23. イランが核関連施設の再開を宣言。EUは懸念。
  24. ロンドン地下鉄テロの容疑者のうち何人かがローマで逮捕される。
  25. ジョン・ロバーツ判事が扱った判例のいくつか。(民主党が彼の任命に反対しているので)
  26. 6 と同じ。(本来 6 と同じクラスタに入るはずであるのに漏れてしまった)
  27. 16 と同じ。(本来 16 と同じクラスタに入るはずであるのに漏れてしまった)
  28. ビル・フリスト上院議員が幹細胞研究を支持する立場に転向。
  29. 生物学者が今年になって海辺の生態系で奇妙な現象を発見。
  30. ゴア前副大統領が設立した Current TV の紹介。

これを見ると、「うがーーーーーーーーっ」っと言いたくなる。 なぜかというと、ここには「よくある」タイプの記事がほとんどないからである。 「よくあるタイプの記事」とは、大ざっぱにいって「名前や数字を変えれば別の記事になるような記事」である。 たとえば「1. サウジアラビアのファハド国王が 82歳で死亡した。」は、 どこかの国の要人が歳で死亡したということで、これはまあ「よくある」タイプといってもよい。 しかしその他になると、なんだ。「6. ブッシュ大統領がスペースシャトル乗組員と電話で会話」これは よくあるタイプの記事か? 「小泉首相がスペースシャトル乗組員と電話で会話」「金じょんいる主席が労働1号の乗組員と電話で会話」 なんてのは、そう頻繁には出てこないタイプのような気がする。 しかししかし、もし「乗組員」というのをもっと一般的な名詞にすれば、これはありうる。 「小泉首相が森氏と電話で会話」なんてのはいくらでもある。では、どこまで一般化すべきなのか?

一般化の問題は他にもある。上の記事には「ファハド国王の死亡」のほかにも人が死んだことを報告している記事として 「2. 暴動で死亡」「16. イラクで死亡」「7. トランクで窒息死」があるが、 これらは同じ「死亡」タイプのニュースとみなしてよいのか? たぶん新聞記者的には違う。 国王の死亡はふつう「おくやみ」記事が載るだろうけど、 トランクで窒息した子供は載らないよね。それに、常識的に考えて 「トランクで窒息死」はイラクで殺されるのとは明らかに記事のトーンが違ってくるだろう。 さらにヘンなのは「9. 絶滅したと思っていた種がまだ生きていた!」という記事である。 この記事は「よくある」のか。あるとしたら、どう「よくある」のか。 「絶滅したと思っていた 500ml缶入りプラッシーがまだ長野県では生きていた!」とかか? しかしこの手の記事はふつう「科学」のセクションには分類されないだろう。 記事を見て気づいたことだが、「殺人」や「台風」という、 ほぼ確立した事件の型以外にも「ある特定のテーマだけに関連した型」というものが存在しているようだ。 たとえばイラクとかディスカバリーとか北朝鮮とかである。 米兵が殺されたってニュースは「よくある」が、 今ではイラク以外で米兵が殺されることはほとんどない。 すると「イラクで殺される」というのは、新宿かどっかで殺されるのとは別に、 ひとつのよくある死に方を確立したといっていいのではないか? (そういえば Adam がまえに「"彼はイラクへ行った" というのは "彼は死んだ" の言い換え表現と考えても いいんでは?」といっていたのを思い出す) これらの型は短期的に現れては消えるが、それが存在するあいだは たとえばイラクなら「イラクでのニュース」という、ひとつの独立したジャンルになってしまうように見える。

この「新しい型(ジャンル)の生存時間」にはいろいろある。たとえば一時期 Terri Schiavo に関連することは なんでも記事になっていたが、その型はもう消えた。スペースシャトル関連もすぐに消えるだろう。 これに対して、まだしばらく続くだろうと思われる「型」に 「ゲイの人権問題」がある。さいきん米国ではとくにこのニュースは増えてきて、 「オレゴン州は同性の結婚を許可!」「オハイオ州は却下!」といった記事をよくみる。 そしてこの手の属性があるかないかで「ニュース的価値」が変化してしまう。 たとえば 21. のカリフォルニア州高裁の判決、これは「ゲイ問題に関する判決」だから 記事になったのであって、そうでなければ普通は全国的な記事にならなかっただろう。 「10. ハーバード大の学長給料 3%アップ」も、普段ならドーでもいい記事であるが、 これが記事になったのは、彼が差別的な発言をしていたからだ。 すると「ゲイ問題に関連している」というその属性だけで、すでに事件性をもっている ということになる。ここでは最低でも 3紙以上の新聞に現れた記事だけを対象にしているから、 これらの記事の「ニュース性 (newsworthity?)」については、すくなくとも 米国の新聞記者の間ではある程度の合意が得られているといっていいだろう。 そう考えると…。

うげーーーーーーーーーーーーーーーーーーーーっ。

(20:31)
狸汁ってぼく知らない。

今日はやや暑かったな。というか、暑いな、今も。

(21:46)
こっちもイワタさんに負けじと鼻の写真をとってみる。

鼻の写真 (50kbytes)

ブレたので全体的にボヤけてしまったが、 変にシャープな映像より感じがいいのでこのままにする。

ゆうべはカツを揚げたので、きょうはあまったカツを玉葱と濃縮つゆで 炒めて玉子とじにしてご飯にのっけて食べる。これを日本語では カツ丼という。うまし。このありがたみはローソンが近所にあるような 生活をしてる連中にはわからないだろ。しかし、日本でもマトモな味のする カツ丼を食うのはローソンへ行くほど簡単ではない。

Aug 28 [Sun]


(23:20)
人々が台風にボコられているようだが、こういうときに、つくづくアメリカって広いなーーと思う。 フロリダあたりで人が死んでいようと、1000km以上離れたここではまさに、文字通り どこ吹く風? ってかんじだ。しかし今日はやや蒸して暑かったが、 あれは台風のせいなのか。そんなこたねーやな、きっと。 (日本でいうところの九州と北海道くらい離れているのだ)

どうでもいいが google map で縮尺がついたのはだいぶ前に知っていたが、 じつはこれは「伸び縮みする縮尺」だということを知らんかった。これはメルカトル図法なので、 つまり緯度による縮尺の違いを反映するように自動的に調整されるのである。 あったまいい! しかし南極や北極よりも外側 (?) へ行くとおかしな値を表示しだす。

Aug 28 [Sun]


(00:53)
誰もが当たり前だと思ってることを図解してみるシリーズ。

日本語の文字コードの場所効率はどれくらいでしょうか? 日本語と英語 (いわゆる半角英数) だけからなるテキストを仮定すると、こうなります:

まあ、考えてみりゃあアッッッタリマエなのだが、 大量の日本語文を Unicode で保管しておきたい場合、 英数字の割合が半分より少ないときは (たいていの日本語文では 10% 以下だろう、 変にナガシマ病にかかっている人でない限り…)、 UTF-8 より UTF-16 のほうが効率がよいわけだ。

ちなみに、「ナガシマ病」とは、

``Japanese の document で unnecessarily に English を use する people.''
のことです。もう一度カタカナでしつこくくり返しますと、
``ジャパニーズのドキュメントでアンネセサリリーにイングリッシュをユーズするピーポゥ。''
ということになります。誰とは言いませんがね。

型エラー: 「人々 (people)」は「病気」でない!

おやすみ。

Aug 26 [Fri]


(11:05)
さて、いきなりだが、今日のバカスラ決定: Microsoftがウィルス(本物)に感染

またもや CowboyNeal がコテンパに叩かれている。 こういう記事ばかり喜ぶオレは、とーーぜん東スポとか NYPost (ニューヨークの東スポ) とか Wired (オタクのための東スポ) とか じゃいスポ (jaist のための東スポ) とかが大好きだ。

てくるで、けさ Flash 関連の bookmarklet をつくっている Jesse Ruderman から返事がきて、 シークバーの javascript を vnc2swf に含めて (GPL で) 配布してもよいとの許可をもらった。 やったね!

(15:07)
Consistency と coherence のニュアンスの違いがわからん。
(16:28)
自然言語処理に関する考察。おそらく現在のこの分野が、 お互いにしょうもないことばかりやりあっている (そしてホメあっている)、 という認識はおそらく正しいと思うのだが、問題なのは 誰も「いやこれらは確かにくだらないが、でも必要なことなんだ」と (政治的にではなく、工学的に) 言いきる人がいないということである。なぜいま「言語」なのか? 新山が観察したかぎりでは、現在の自然言語処理がどんなことに役立つかというと、2つある。 ひとつは「なんかスゴいことやってます」といって一般人を脅して金をとるという方法。 もうひとつは、ろくに動かないものを騙して売りつけることによって金を儲けるという方法。 それ以外に何も役立てる方法がない。みんなこれは科学じゃなくて工学だというが、 それなら工学的な (実生活に役立つという意味での) 利点をあげてみろ、 といっても、誰もはっきりとは答えない。「これを名目に予算がとれる」とか 「少なくとも買う人はいる」とか、あるいは単純に 「これができるとウレシイじゃん」という程度の意見はよく聞く (ああ、はいはい、できたらね)。 けれども、これらが説得力ある理由とは思えない。 あるいは「楽しいから」とも。この人達がほんとに「楽しい」と思っているのかどうかそもそも謎なのだが (だいたい多くの“工学的”な研究者は、言語にたいして興味がないのである… 彼らは研究をあくまで肉体労働として“楽しい”といっているのかもしれないけど)、 それは「工学」って呼ぶのだろうか。非常に疑問を感じる。べつに「金を無駄づかいしてけしからん」という 意味ではなく (もともと研究なんてそんなものだ)、あまりに自分たちの 立場について無頓着だ、というその姿勢に対して。そしてどうせやるならもっとウケを狙え、とも。 自然言語処理のダメさ加減を通して人々に言語のむずかしさというものについて考えさせる、 という目的があるのならそれはそれでいいけれど、今はそれさえない。自然言語処理には何の目的もない。

あ、なんとなく今、ラーメン食いたくなった。

(18:19)
きょうの LWN で知ったのだが、 KDE Tenor ってのが計画中らしい (LWN はときどきこういう「おッ、そんなソフトウェア今まで知らなかった」っていうのに 言及してくれるからいいよな)。「Context Link Engine」というのは ただの文字列検索ソフトではなくて、より一般的な条件でファイルを検索する (たとえば「去年の夏ごろ、誰それの電子メールに添付されてた画像」といった条件で) ようなものらしい。まだ計画段階のようだが、KDE ってすげえよな。 GNOME は Novell 傘下なだけあって企業向けな「いい子いい子した」感じになってて、 基本的に Windows や OSX の二番煎じに終始しているのに対して、 KDE はなんか独自のカラーが出ている。ほかにも MP3 プレーヤを Wikipedia と連携させて アーティスト情報が出るようにしたりとか (Amarok)、ヘンなこと結構やってるし。 彼らのほうが圧倒的に理想主義っぽいのだが、見ていておもしろい。 開発拠点がおもに米国ではなくてヨーロッパというのも注目。 まあ、オレは単に昔から GNOME よりも KDE のほうが好きなんだけど。
(01:49)
てくるで、ふと思いだしたのだが、Winny の裁判ってどうなったんかね? google で検索してみても見つかるのは 1年も前の記事ばかりだし、 ツウちゃんねるの人々による“応援ページ”の多くは not found になっている (まあ、どうせツウちゃんねらーはそんなもんだろうと思っていたけど)。 おそらく、ほとんどの人は「飽きた」んではないかと思う。 かの国では「あるニュースにいつまでもこだわっているヤツは、時流に乗れないダメな奴」という 風潮があるために、いまさら時代性もなくなったニュースについて とやかくいう必要もないのかもしれない。オウムと同じようにこんなもんは さっさと忘れて、かわりにあとからあとから湧いてくる新しい“問題”を話題にしよう、 そのほうがカッコいいから、ということなんだろう。 かくいう新山も結構どうでもいいが、オレの場合は 普段から日本の騒ぎを見ていないために、こういった事件にまつわる印象は たぶん日本にいる人よりもゆっくりと衰退するように思える。 だから、正直にいえば、まだそんなにどうでもよくない。 それにしてもこの裁判では弁護側が「P2P開発を罪にしたらニッポンの国益が」 という論調らしい (asahi.com の記事など読むとそう見える) のが、じつにいやだな。 何がいやってその米軍っぽい考え方だよ。 つまり、これは役にたたないソフト開発だったら逮捕されようが投獄されようが別にどうでもいい、 ということの裏がえしに聞こえる。こういったことを不穏に思うのは オレだけなんだろうか。

またアメリカの悪口になるが、共和党でも民主党でも (あれ、skk辞書には「ミンシュ糖」ってのが入ってないや)、 アメリカンは基本的に「強い、正義のアメリカ」像が好きだ。 というか連中の頭ん中にはそれしかない。ケリーだってスローガンには "Stronger America" って書いてあったしな。ここはヒーロー指向の国なので、 もうこの傾向はどうしようもないのである。「国益」って言葉を使う人は あきらかにこの強弱の概念を念頭においているように見え、したがって うさんくさい。この手の人々に大声を出させるとろくなことがないように思うよ。

Aug 25 [Thu]


(09:41)
ゆうべは身体的・精神的にグッタリ来ており、翻訳もせずにサッサと寝てしまった。

Pygame 実況中継を置いていた vnc2swf.sourceforge.net が帯域制限された。 それも、なぜか.swf ファイルだけダウンロードできないようになっている。 くそったれ。 せっかく unixuser の帯域を使わずにやろうと思ったのに、そのモクロミは見事にくずれた。 しょうがないので unixuser に置かせてもらって、 Coral 経由でアクセスしてもらうことにする。 でかいファイルだと、気をつかうんだよな〜。こうゆうのはどこへ置けばいいんだ。 しかし、敗北的なのは、これがそんなに爆発的人気なファイルでもないということである。 Python と pygame に興味をもつ人が日本に何千人もいるはずがない。 そのために、いちいちホスティング環境を買うというのもアレだしな。

どうでもいいけど、sourceforge で AdSense を貼ってるページがあるけれど、 あれって規約違反だと思う。おまけに「↓ Please Click」とか書いてある。 まあ、どうでもいいな。

(12:06)
いまこの部屋にいるオレ以外の生物 (= ハエ) を殺す。覚悟しろ。 つうかなんでここにお前がいるんだ!
(14:55)
英語によるネットワーク管理入門:

つぎの文章を早口で 10回以上言いなさい:

  1. The gateway's address is 192.168.0.1.
  2. 10.0.2.14 isn't responding.
  3. No, it shouldn't be 127.0.0.1!
IPあどれすを瞬間的に言うのはすげーむずかしいです。 日本語なら簡単なんだけどね。

きょうは 27℃ぐらいで、非常にややこしい気候。 もっともビルの中はサムいが!

(17:59)
tekurude (tookorode), こないだ日本に帰ったとき デジカメを Canon から Panasonic のやつに変えたのだが、 Canon のデジカメでよかったのは「パノラマモード」であった。 Photostitch というツールがついてきて、数枚の写真をつなぎあわせて (パノラマモードで撮った写真はたぶん絞りなどが統一されているのだろう) 一枚の長い写真にすることができた。まあほかにも Canon のほうが色合いがよかったとか (Panasonic のは、どことなく蛍光灯っぽい)、 広角だったとかあるのだが、その後、デジカメを変えてから しばらくこの機能は忘れていたが、今やフリーの photostitch ともいえるソフトが 存在していることがわかった。Enblendだる。 しかもアホな GUI とかなしで、コマンドラインだ! すばらっし。

床屋いってこよ。

(20:13)
帰宅してすぐにシャワァ〜をあび、チクチク地獄から解された。

きょうの床屋は Bayard St. にある「巴西髪型屋 (Brazil Barber Shop)」というところにした。 なんかアヤシゲな地下への小階段をおりていくと、そこではオッサンたち 4、5人が 世間話をしながら髪を切っていて、もうそこは完全に英語禁止の世界。 蛍光灯の明りの下で、ラジオからは中国の古めかしい民謡っぽい曲が流れ、 なんだか 60年代に逆行したかのような気分をあじわう (チャイナタウンではこういう気分になることが多い、もっとも新山は真の 60年代など知らないが!)。 で、入り口付近の愛想のいいオッサンに頼んだのだが、この人はまったく英語ができないということが 判明した。まだ英語がわかるほうだったオジサンも、普通に会話できるほどではない。 「とりあえず普通に切ってくれ、あんまり短くしないで」というこちらの要望を伝えるのに 3分ぐらいかかる。しかし一度意志疎通してしまえば、あとは早い。 あいかわらず水もつけずにいきなり電動バリカンでザクザクと切りはじめる。 だが、このバリカン、表面がメチャクチャ熱かった。 なんか内部抵抗がイカれてんじゃないか? というあつさ。まあいい。 とにかくまたもや中国人髪型にされ、値段をきいたところ、 破格の 5ドルだった。個人的な安さ記録更新である。シェービングは後のみで洗髪なし。 そのあとチクチク地獄で PATH WTC 駅から帰宅するが、 ついでに大根かってくりゃよかった。

ちなみに、こういった床屋のカミソリは明らかに消毒なんかしてない。 剃る前に布でゴシゴシふくだけである。毎回、カミソリ負けするんじゃないかと ドキドキしているが、こっちへ来てからは一度もなったことがない (日本では 1、2度あった)。 ほかにもいろいろ心配なところはあるが、とにかく 「なに、オレは中国人と同じくらいタフなのだ」と信じることにしている。 設備をのぞけば彼らはたいてい腕がいいが (Astor にある $12 の床屋よりも)、 この安さはなんなのだろう。彼らは違法労働者なのかもしれないな。 ちなみにチャイナタウンにいる中国人は完全に中国語だけで生活できており、 英語を覚えなくてもやっていけるようだ。 そういえばこのあいだ village で日本人がやっている美容室をみつけたが、 カットだけで $30 と書いてあった。

Aug 24 [Wed]


(18:48)
今日も打ち合わせ。づがれ゛だ〜〜

「まっこす X さーばぁ」って、実はまっこす X とはまったく違うのね。

Aug 23 [Tue]


(15:06)
オデはサポーート係じゃねーーえぞおお!!
(21:09)
「やあこれはパロディーだね、なかなかよくできてるよ、いや皮肉が効いてるねアッハハハっは」といったあとに、 実はそれがパロディーではなくてマジだったときのダメージを想像してほしい。 頭が割れそうだ。

Aug 22 [Mon]


(08:26)
きょうは打ち合わせがある。さっさと行かねばならない。

学生だからいつもネボってばかりいると思ったら 13% 間違いだ!!

(10:11)
てくるでさあ、Firefox の機能拡張にある noscript (Javascript を禁止する) っていいんだけどさあ、 これで有効にしたサイトには tab browser preference の設定が効かなくなってしまうようである。 おまけにこいつはなぜか flashgot.net とか googlesyndication.com とかのサイトをブロックしない (これらの値が「つねに許可」でプログラム中にハードコーディングされている)。 なんで結局はずした。もっと簡単な実装でいいのになあ。 しかし人はこれらの機能拡張を何も考えずにインストールするが、 はっきりいって、機能拡張自体が悪さをする可能性もかなりあると思う。 いまは Flash からも javascript が呼ばれたりするからな。 世の中、ますます安心できない。
(15:44)
ねみーーーー。もうネムくて死煮層。もうゆるして怪廊 (ケロ)。 このように人生眠くなると人生思考論理が少し狂ってくるのでありますが (だります)、 そもためにかへってまともになるかもしれない。 まあそれもこれもこのように广广。(くりかえ
しますけれど、中国語ではありません)

オリジナルの/背理にみちた/ずさんな/十徳の/埋まりつつある/ あけすけな/ひきもきらない/管理的な/すなおな/現世利益の/ 甘やかされた/片割れの/足をそなえた/けるくふの/あぼがまりしに/ 観自在菩薩の/神秘な/こっけいな/当世風の/あまがぼしりに/ 吹き抜けの/誰も見てない/落花的の/地下茎で/6月の/急降下している/ 二度手間の/うだつのあがらぬ/かりそめの/無味無臭なる/90分の/けりほぽの/ 多勢に無勢で/こじつけに/を/

オリジナルとオルジナリは違がううよ!!

(18:32)
でーんでん関係ないが、ふと maps.a9.com というものを見つけた。 これ、スゴイね。なにがすごいって写真が。マンハッタンの通りはほとんど入っている。 しかも衛星写真じゃなくて、通りをあるいて撮った写真だ。10メートルおきぐらいに 通りの景色がすこしずつ変わっていくのがぜんぶ見える。しかも、けっこうな画質だぜ。 これ、どーやって撮ったの? というか、マンハッタンのすべての箇所を歩きながら撮影していったに違いなのだが、 これは信じらんない作業量だ。すごいというかこわいよ、これは。 しかしインターフェイスがよくない。たぶん、これだけのことをやっているんだから Google のインタフェイスをまねしようと思えば明らかにできただろうが、 わざとそれをしなかった、という感じだ。でも Google Maps のほうが単純で好きだけどな。 なんにせよ、MapQuest はただ黙ってやられているわけではなかった。 さいきんの Google はもう完全に「逃げる側」に回ってしまっていると思う。 しかも追いつかれるまでの時間が早まっているような気がする。 でも、もし Google がどっかに抜かれるとしても、その後釜が Yahoo か MS か Amazon のどれかというのじゃ、未来は非常に暗いね。 「どの党が政権とっても一緒」っていう選挙みたいなもんだ。

てくるで、今日はじめて XServe の実物を見てきたんだけど、あれってすげえデッカイのね。 しかし Apple、サーバのデザインにまでこだわるこたないだろうに。

Aug 21 [Sun]


(16:18)
さいきん、仕事で UCW (Uncomon Web) を使ってみたのである。 これは Lisp で書かれた継続ベースが売り物の web アプリケーションサーバで、 バックエンドに Apache + mod_lisp や aserve (AllegroServe) を使うことができる。 グラフィックスの仕事はどうしたのかって? あれは一段落して、そのうち ボスが「お前、web アプリとかもある程度わかんのか? それじゃこいつがどれくらい使えるのかテストしてくれ」ということで、 いきなり ucw になった。Lisp しか信じない師匠なので、 とーぜん Apache なんか使わないのである。 いまはとりあえず OpenMCL + portableaserve だが、実稼働時は ACL とほんものの aserve を使うことも考えてるらしい (ほんものの aserve には Franz のサポートがある)。 まあ、オレとしては短期間のうちに いろいろやらせてもらえるほうがありがたいのでいいけど、 インストールがヒジョーーに大変だった。はっきりいって 開発がものすごく活発らしく、 ドキュメンテーションがぜんぜん追いついてないのだが、 ボスにそのことを言ったら「いや、オレは開発がずっと止まっているプロジェクトを いままでにいくつも見てきたが、活発すぎるってのは止まっているよりも ずっといい徴候だ」というので、結局やることに。Lisp のライブラリって だいたいドキュメンテーションが貧弱なのが多いんだよね。ソース真理教らしい。 でも UCW には作者の Marco がつくった チュートリアル用ムービー (50MBytes超) があって、これはなかなかよくできており、これにしたがっていけば すごく初歩的なことはわかるようになる。ちなみにこの人は150MBytes もある Slime のムービーも作っていて、これもよくできてる。

ところで、 Lisp で継続ってどうやって使うんだ? と思ってソースを見てみたが、 ほんものの継続を使っているわけではなく、エミュレーションだった。 これはよく書いたなあ、と思わせる代物 (だいぶつ)。 結局のところ、 (言語のサポートなしで) 継続をエミュレーションしようと思ったら、 ほぼ Lisp インタプリタと同じものをふたたび Lisp 内部で実装する必要がある。 Viaweb でも同じようなことをしていたらしい。 しかし、かれらは 「継続を (セッション情報の一部として) ディスクに保存しておきたい」という 目的があったようなので、どのみちこの意味では Scheme の継続も使えまい (継続をシリアライズできるという Scheme は聞いたことがない、 PLT あたりがやってても不思議じゃないが)。 (追記 aug 22, SISC という Scheme ではできるらしい)

てくるで (ところで)、Python で(擬似)継続を実装した人はいないんだろうか。 Stackless じゃなくて、あくまでふつうの Python でやるのである。 たぶん、そんなに難しくないと思う。Python は述語が少ないし、 構文解析はライブラリがもうできてるんだからね。

しかし、正直なところ、slime のインテリセンスに慣れてしまった現在、 Emacs で Python を使っていると非常にさみしく感じるときがある。 それは "urlopen(" などと打ちこんだときに、画面下に "urlopen(url, data=None, proxies=None)" などと出てくれないことだ。 インテリセンスはこれまでそんなに必要とも思っていなかったが、 これが出ると安心感が違うということがわかった。 これって、Pymacs とか使えばできんの? つうか、emacs lisp を編集しているときでさえそう思う。 お前、emacs 上なんだから、それくらいやれよ! という具合。

(18:59)
今日は久しぶりにかなりあつい。

もう 8月も 2/3 が終わってしまったんですが、ご存知でしたか? うるうる

田中ヤスオが神道をでっちあげるのは別にどうでもいいが、 この党名は気になる。名前が「日本」ってナンだ。混乱するだろが。 もういっそのこと新党「それ」とかにしちゃえよ。

(20:39)
コンピュータに関することになると、ほとんどの人はマゾヒストだ。
-- John Naughton
(03:56)
ようやく pygame 実況中継の第二弾ができました。 もう寝ます。 最後のほうは声がかれてる。
Yusuke Shinyama