2005年 5月 (1)。

Last Modified: Wed May 11 01:28:05 EDT 2005 (05/11, 14:28 JST)

May 10 [Tue]


(11:14)
今日もいそがし日。
(13:08)
ふーん。そうかそうか
(13:44)
情報なんて検索できないほうがいいという考え。 とりわけ、自然言語なんてコンピュータには絶対わからせるべきじゃない、という考え。 それは理解できる。 なぜなら、もしそれが可能になったら、おそろしいプライバシー侵害が可能になるからだ。 たとえば、なぜ人はインターネットの盗聴は心配するのに、電話の盗聴は (それほど) 心配しないのか? といったら、それは盗聴したあとの音声データが使いにくいからだ。 結局、無事盗聴できたとしても、そのデータは膨大で、 何をいっているかをぜんぶ人手で聞きとらねばならない。 だが、もしかりに完璧な音声認識ができたとすると、誰かが電話でしゃべったことは 全部テキスト検索可能になる。おまけに、完璧な自然言語理解ができたとすると、 誰かが特定のことについて批判していることがすべて検索可能になる (すでに CIA などはこれを実験しているだろうし、うちのグループの研究もあきらかに同じ路線上にある)。 そして検索エンジンによる個人情報流出。 Winny による個人情報の流出はすでに有名だが、同じことは検索エンジンにもあった。 ある論文 (Fu, et al. 2001) によれば、むかしは Google で "cookies.txt" などで検索すると、何人ものクッキーを ガッポリ見つけることができた (これがいかに危険かというと、 多くの web サイトではパスワード情報をクッキーに記憶させている。 だからある人の cookie ファイルにアクセスできれば、そいつの web メールなんかはやりたい放題だ)。 Google や AltaVista は彼らがそのことを知らせてから気づき cookies.txt の全インデックスを削除したが、同じような例はきっといくらでもある。 だから、というわけでもないが、新山は自分のやっている研究にあまり 工学的な興味を感じない。しょせん検索など情報が多すぎるために生じた冗長な作業であって (どのみち検索で好きな情報のみをあつめたところで人間の脳で処理できる限界などたかが知れている)、 多くの情報などじつは必要ない… (すくなくとも、新山の人生には)。 じつは世の中を悪くするための研究ではないか、とさえ思える (“よかれと思って”)。 それよりも重要なことは、より罪の少なそうな、科学的な探求としての自然言語処理 (人間を模倣するのではなくて理解するという方向) だと思っており、 この確信はこのごろますます深まるばかり。Python や Scheme に興味をもつのもそうだけれど、 オレの人生はいつもミニマリスト的だ。あるいは儒教的なのだろうか、これが?

てくるで、やっぱ Lessig のいちばんの傑作は CODE であってコモンズじゃないよなあ。

(16:19)
…のような考え。
…のような考え。

W. SQ. にいったら卒業式の準備たけなわ。 まだあと 2日もあんのに、あんなに占領しちゃってていいの?? 前後にもおまつりイベントがいくつかあるようだが。

てくるで、気づいてみたら 大学のホームペエジ が変わっている! いつのまに!! しかもまた意味なくこの JavaScript 要求だ、くそったれ。

(19:11)
やっとしけんおわった。とりあえず全問完答。 これから lispnyc
(00:15)
いま きたく

きょうも「日焼け牛」で飲んでた。だいぶここも常連化してきたな (店の人は「また来月!」といってくれる)。 きょうのトークは Axiom という 数式処理システムをつくりだしたおじさん (というより、もう「おじいちゃん」って風貌だ)。 Axiom は Maxima ほど有名ではないが、とにかく古い。もう 30年以上も開発が続いている。 もともとフリーで始められたプロジェクト (というか、当時はそもそも ソフトウェアはフリーが当然だったので、「フリーなソフトウェア」という概念自体がなかった) だが、 ずっと Lisp で開発されていて、37年前の Lisp コードがいまだに動いてるんだそうな。 「このモジュールを書いたのは 1967年です」とかいってんだもん、びっくりしちゃったよ… (ちなみに Lisp の最初のバージョンが開発されたのは 1956年あたりとされている)。 当時はとーぜn Common Lisp なんてまだなかったから、もう方言だらけなのな。 そんで、今日のトークは「どうやって複数の Lisp の差異を吸収したか」ということがメインだった。 あとは数学的な話。会場には古い世代の人 (つまり 60歳ぐらいの人々という意味だ) が 沢山きていて、みんな何か昔話で異様に盛り上がっているのだが、その製品名とか聞いても ほとんど新山はもうわからない。むかしは IBM は偉大だった。 まだまだ書きたいことがあるのだけどねむすぎてもうだめ。ゆるして

May 09 [Mon]


(13:20)
はちみっチブ (hachimitchive … はちみつ的な、という意味)。

さいきん、新山が急激に消費するようになった食品として、はちみつがある。 なぜかというと、夜ねるまえとか読書するときとかに何か飲みたいときがあるのだが、 オレは酒は飲まないし、カフェインの入っているものだと眠れなくなるしで (かといって decaf のコーヒーはまずい!)、しょうがないからこれまではハーブティーとか飲んでいた (ラヴェンダーとか、安眠系のやつ)。 しかしあるときふと「レモネードってどうよ?」と思いたち、それからは結構 レモンとはちみつを消費している (レモンはビン詰果汁のみでは全然香りがダメなので、生のやつを切って搾るにかぎる)。 で、はちみつオタクへの道をめざしているのだが… 欧米で使われているはちみつには実にいろんな種類があるのだ。 日本人がふつう「はちみつ」といって連想する味は もっぱらシロツメクサ (クローバー) だが、他にも数種類は売っている。 とーぜん、オレはあらゆる種類をためした。まだ全部について知っているわけではないが、 おおまかにわかった個人的分類を記しておく:

まだラう゛ぇンダーは試してないが、あれもなかなかキツそうだなー。

(15:21)
てくるで (ところで)、来年の NAACL はニューヨークでやることになっている。 NAACL というのは、自然言語処理で一番デカい「お山」であるところの ACL の北米バージョンであり (人が多すぎるから分けたらしい)、まあ基本的には ACL 本会とさして変わんない。で、セキネさんから その web master をやる気ないかと尋かれたが、なんかポリシーが合いそうにないので、 できればお断わりしたい。どうも、彼は「カッコいいデザイン」にこだわっているようで、 たとえば Yahoo みたいなのは地味すぎてダメと考えているらしいのだが、 新山はそんなのよりもむしろインターフェイスにこだわるべきと思っているので、 意見がまったくかみ合わない。Yahoo! いいじゃんあれ。オレは使わないけど、よく考えてあると思うよ。 だいたい、セキネ社のページを見ればもうダメなとこばっかりで、 これを「いい」と思っているところがすでに終わってる。たとえば:

おいおいこれは企業のページだぜ? けっきょく、「お客様への配慮」が足りんのである。 オレが客だとして、もしこういうページをみせられたら、きっと発注しない。 Web デザインの基礎からやり直せ! といっても、べつに新山は「Web デザインの基礎」など わかってはいないのだが、図形的なデザインよりも全体的なインターフェイスのほうが web ではずっと大切だと思う。いくらロゴに手をかけても他がダメならしょうがないのだ。

新山がこういうところで影響を受けているのは、Apple の UI ガイドラインだが、 Web でもその多くは適用可能だ。たとえば GUI のボタンの名前 (Web でいえば、 リンクのアンカーテキスト) は簡潔で極力誤解がない表現にしなければならない。 そしてそうした表現をみつけるには工夫が必要だ。スペースは限られているし、 ユーザの集中力も限られているので、デザインする側としてはテキストの ひと文字ひと文字まで考えぬかなければならない。 よく思うのだけど、インターフェイスのデザインは図形的センスばかりあってもだめだと思う。 言語 (この場合は、日本語) に対しても気をつかう必要がある。 ほかにも Apple のガイドラインでは、 「ここで終了すると変更内容は失われますが、保存しますか?」などの質問に対して、 「はい」「いいえ」ではなく、「保存する」「破棄する」などの選択肢に しなければならない、といっている。そういえば htmllint でも似たようなことで、 href のアンカーテキストに「ここ」などを使うと怒られたよなあ。 Mac は 84年当初からあんなことまで考えてたんだから、やっぱスゲーーよ。

同じようなことは他人のプレゼンを見ていてもいえる。 だいたい、プレゼン用のスライドが下手な人というのは、 「見た人がそれを一瞬で理解できるかどうか」考えられてないスライドをつくるのが多い。 表現が長すぎるとか、誤読しやすい単語だとか、話の流れとマッチしてないとか、 矢印の種類が一貫してないとか (それを見て「この矢印の違いはなんか意味があんのか」と余計なことで悩む人もいる)、 穴がいっぱいある。オチなし

(16:33)
ようやく動いたが、なんか間違ってるぞーーーこれ。 nominal がムズいのはともかく、なんで人称代名詞がモノを指すの?? これはあきらかにできると思うのだが (wordnet まで使ってんだから)。
(21:56)
みんなでラウンジにあつまって明日の試験勉強をする。 つかれた。やはり米人とワイワイ議論するのはむずい。
(00:58)
きょうも帰りが遅くなっちまった。夕食は残り物。 きょうはバグをいくつかつぶしたので、それなりに有意義な一日だったと言わねばなるめい。 webstemmer が、ずっと走らせていると時々落ちることがあるので、 その原因をさぐっていたのである。こういう「2、3時間走らせないと再現しなくて、 しかも確率が 100% ではない」バグってのは追跡が厄介なんだよな。 Python 2.4 なのがまずいのかと思って 2.4.1 に上げてみたり、 マルチスレッドなのが悪いのかと思って threading をやめてみたりしたのだが、 結局のところ原因は本家 httplib.py のバグだった。Bug tracker には報告されているが 解決されてない模様。調べてみたら、サーバ側が HTTP/0.9 の response を返したときに インスタンス変数が十分に初期化されないままコンストラクタを出てしまうことが判明。 1行パッチで直った。これはあきらかに実行パスのテスト不足だが、 まあこんなマイナーなケースで文句いっても仕方あるめえ。 それにしても世の中にはいまだに HTTP/0.9 を返すサーバもそんなにあるんかなあ…。

どうでもいいが (よくないが)、 きのうの Firefox のバグはじつはかなり深刻だったらしい。 やっぱ JavaScript は使いたくねえよ。そもそも JavaScript を on にして 意味のあるサイトって、 Google Maps 以外どこにもないのに、 それでも多くのサイトで無駄に JavaScript が要求される。やめてくれと言いたい。

(02:26)
「リケンのふえるわかめちゃん」というのはあるが、
「リケンのふえるタラちゃん」というのがあったら怖そうだ
な。

May 08 [Sun]


(11:58)
この漂うベーコンのにおいはなんだ…

計算機による日本語の影響について再考。 よく考えると自然言語というのは時間とともに曖昧性が増えるようにできているのだろうか? たとえば、ひと昔前なら「カメラ」という言葉はほとんど銀塩写真のカメラしか なかったが、いまじゃデジタルカメラの意味で使われることもかなり多いと思う。 でも、標準的な日本人 (あなたのことです) の場合は、 銀塩カメラのことはただの「カメラ」で、デジタルカメラのことは「デジカメ」ってよぶのかな? 「メール」は横文字だったために、「手紙」を置き換えることはなく、自然にこれらが混在できた。 米国でもまだ mail と email は同一ではない。 Microsoft は「2010年ごろまでに "book" といえば eBook のことを指し、紙の本はとくに "paper book" と呼ばれるようになるだろう」と予言していたけれど (その後この予言がどうなったのかは知らない)、この年代推定はともかく、 「追い出された語義」がどういう形態をもつのかは興味あるところだ。 しかし日本語ではこれも「本」が置き換えられることはなく、 「ブック」になりそうな気がする。 しかし本当にカブってしまったカメラについては、 一般的な日本人 (あなたのことです) が銀塩カメラのことを 特に指したいとき何というのかよくわからない。 「ふつうのカメラ」かな? 「ただのカメラ」か? それともやはり 「むかしのカメラ」になってしまうのだろうか。

話は戻るが、もし自然言語がつねに曖昧性を増やすように進化していくのだとすれば、

  1. 自然言語処理は時代がたつにつれて難しくなった。
  2. 太古の昔には、おそろしく単純で直接的な「原始言語」が存在した。
しかしこの 2つはどれもウソだろう。自然言語は生物が進化するのと同じようなもので、 言語は分化と絶滅を繰り返してきただろうし、ある特定の言語だけをみても、 言語表現は分化と絶滅 (= 死語化する) があると思う。オレはなんでこんな一般論を。 オチなし
(19:00)
firefox にまた穴がみつかったんだと。見るとそれ自体はそんなに危険でもなさそうだが、 けっっ、せっかくこないだ 1.0.3 コンパイルしたばっかなのによー (うちの redhat では glibc が古いためバイナリは動かない)。 まあ、JavaScript を許可しているかぎり安心して眠れることはないわな。 今回の穴は自動アップデートがらみの悪用だが、 だいたい自動アップデートを許すとこのテの問題からは避けて通れないような気がする。 結局、いつもみんなやってるのは、コードに何らかの特別な刻印をつけて、 「このコードは安全ですからどうか信じてくだせえ」ってわけでしょ。 Firefox の場合はこの「刻印」としてサイト名を使っており、MS の場合は コードに電子署名しているわけだ。でも、それが本当に安全かどうかを、 ユーザが確信するすべはない。ただそのブランド (=署名) を信じるか、信じないか というだけだ。コンピュータセキュリティでいちばんの問題は結局ココだと思う。 ダウンロードしたコードをなんらかの形で「検証」したり、コードを sandbox で (制限つきで) 走らせる、 といった手法はすでに提案されているけれど、その検証ツールや sandbox をこれまた ユーザがほんとうに信頼するすべはない (同じことは暗号にもいえる)。 これが物理的な機械、たとえば自動車やなんかだと、潜在的な危険性はたしかにわかりにくいが、 あまりに明白な危険 (e.g. ハンドルが刃物でできている、など) は一目みればわかるし、 その「危険さ」というものをおおまかに理解することは可能だ。 そして「悪意をもった機械」というものは本質的に作りにくい or 運びにくい。 ところが相手が計算機のソフトウェアの場合、その「おおまかな理解」すらない。 どこまでいってもユーザは自分がよくわかっていない、 不透明なアヤしいなにかを強制的に信じなければならない状況におかれる。 そしてこの問題は今後ますます確実に増大する一方なんだが、 みんなこの恐怖と向きあう覚悟はできてんのかな。 オレはやだな、そんなの。

正直にいえば、firefox をいちおう使ってはいるものの、GUI のブラウザでは これが相対的に一番ましな選択だからという理由にすぎない (まあ、adblock は便利だが、Lynx だとそもそも絵が出ないから adblock 必要ないわけだし)。 ぜひとも使いたいブラウザがあるとすれば、それは自分で書いたブラウザってことなのだけど。

Google などはおそらく「ブラウザも web サービスでできたらなー」と 考えていることだろう。そりゃ無理だ。でもとにかく、 今やブラウザは OS と同じくらい重要な基幹コンポーネントであることに変わりはない。

May 07 [Sat]


(12:05)
牛乳のかわりに豆乳を使ったヨーグルト "WholeSoy" を食ってみた (こちらでいうところの『厳格なベジタリアン』 Vegan 用のヨーグルト)。 甘味をつけてあるのをのぞけば、これってユルイ豆腐とどう違うんだ?? おまけに Nutrition Facts をみると砂糖が 17g (=全体の10%) も入っている。 こちらの人々は、基本的に「動物性タンパクさえ取らなければ健康 & スリムになれる」 と信じているらしが、こいつらなんかみんな糖尿病でポックリいけばいい (訳注: 糖尿病はポックリいくのには非常に難しい病気です)。 もちろんこの国では砂糖なぞ使わなくても人工甘味料が山のようにある (スーパーなどではそっちの売り場面積のほうが多いくらいだ) が、 そういう問題じゃないんだよ。 アメリカ人からみると日本人の日常生活はロボットのように見えるだろうが、 食事だけをみれば日本人のほうがはるかに「人間」で、アメリカンは「家畜」だ。 かれらは肉と油で身体を荒らしたあとに、強制的に人工物と栄養剤を服用することで生きのびている。 しかしこれは新山が「正しい食生活」をする家で育てられたからで、 日本人でも平均はもっといいかげんなのかもしれない (日本人もマック食ってるしな)。 けれど、どちらにせよ、いまの新山の食生活は「正しさ」からはほど遠い。 考えてみると、食生活というのは信仰のようなものかもしれないな。 ノイマン (フォン・ノイマンではない) が言っていたように、日本人の信仰というのは、祈りや墓参りをとおして現れるのではなく、 「食生活」をとおして現れるのだ。 彼は日本の諺に、「腹」を「心」という意味で使うものが非常に多いことにおどろき、 これは日本人が「食うこと」を人間性の中心と考えていることの証しだろうといっている。 日本人にとっての食事は、中国人にとってのような「楽しみオンリー」なものではなく、 もっと厳格な儀式としての食事、というものがあるのだろう…。

そういえば、米国でも厳格なキリスト教の家庭では、食う前に十字をきって 「いただきます」に相当することは言うらしいが、「ごちそうさま」に相当することを 言うとは聞いたことがないな。

新山が「ムーミン」を好きな理由のひとつとして、あれを読んでいると、 ムーミンの世界には「食い物の好き嫌いでヒトを判断する」という風習があるかのように見えるところだ。 飛行おに (巨大) がジャムとパンケーキを食っているのを見て、ムーミンたちが 「ジャムとパンケーキをおいしそうに食べている人に、悪い人なんていませんものね」と考えたり、 どっかの革命家 (似非インテリ) が「好物はじゃがいものプディングとニシンなんだが」というのを聞いて、 スノークの彼女が「げーーーっ! ムーミンならそんなもの食べないわ!」と言うところをみても、 そういう感じがする。

(15:16)
Traiss で "photo" を「写真」と訳していて気づいたのだが、 いまどきの日本語圏の web では人々はむしろ「写真」よりも 「画像」のほうが一般的なんかもしれない。 ネット (というか、計算機) の普及が日本語の用法にあたえた影響、 というのは沢山ありそうだが、これもその一例といえそう。

計算機の普及以前には、「画像」なんて言葉は「静止衛星画像」ぐらいにしか使われてなかったはずだ。 この例でおもしろいのは、「画像」はべつに写真とは限らないということである。 ふつう、こういうふうに意味の曖昧性が広がるように言語の用法が普及するってことは、 あんまりないのではないか? 実際、カメラで現像した写真は「画像」とは呼ばない。 英語ではいまだに photo とか picture が一般的な気がする。image というといろんな意味がありすぎるし、 すこし専門的なにおいがする。

(17:39)
Donnel。そして Kebab。
(20:01)
個人的なことについて相談される。オレにそういう相談しないでくれよ〜。 新山はそういうことについてまったく経験も免疫もないので、 なにか相手を安心させるアドバイスをいうことができない。 しかも英語ではなおさら限界。 相手を煽ってさらに不安にさせるのはすごく得意なんだけど。 また暗くなってしまった。
(23:33)
企業というものはバカなものだ。 たくさん資源を使ってもいい研究ができるとは限らないのにね。

clap to crap.

(02:09)

きょう図書館で借りてきたインタビュー本が非常におもしろく、一気に読んでしまった。 印象に残った部分を引用。長すぎる?

陳平原 「…広島は不愉快なところでした。専攻の関係で歴史についても研究しているのですが、 ここは日本でもっとも重要な軍港だったのです。中国を侵略した日本軍の軍艦の多くはここから中国へ向かいました。 ただ私が原爆記念館で見たときは、市民がどれほど悲惨な被害にあったかが書いてあっただけで、 対中国侵略の軍事基地だったという加害者の立場にはなにも触れていないのです。 …私が長崎に着いたときはちょうど雨がしきりに降っていました。 まず平和公園に行くと、そこは平和への祈りをメインテーマにしていました。 私は、広島では (原爆の) 告発がメインだったことを思いだしました。長崎のやり方は はるかに共感を覚えやすくなっています。平和を祈るのに反対する人はいないでしょう。… 原爆や戦争について、日本の学者と話すことはできますが、深く つっこんで話したことはありません。日本人は内心では相手のいうことを まったく認めていないということを、私は知っていますから。… もちろん、 反省するのはたいへんな苦痛です。私はよく自問するのですが、 もし私たち中国人が日本人の立場だったら、どのような態度で反省するのだろうかと。 中国人はこのような事を考えるのが得意ではありません。はっきりいって、 中国人の傲慢さは日本人とすこしも差はないんです。ただ、ここ百年ぐらいは 中国が被害者の役回りばかり演じてきたおかげで、中国人は堂々としていられます。 かりに中国人も第二次世界大戦の加害者の一員だったら、罪を懺悔するだろうか、 と私は思うのです。… 今や中国人はどこででも迫害・抑圧されているイメージが あるように思えます。あってはならないことですが、もしわれわれがあの一員だったら、 私たちはどのように歴史を見たらいいのでしょう。私が福岡に行ったとき、 地元の日本人は元寇の侵略跡に案内してくれました。 そこで私はやはり自分にこう問い直さざるをえなかったのです。…」

梁暁声 「…商業化社会を迎えるためにはいくつかの環境整備が必要です。まずひとつは平和であること。 日本は第二次世界大戦後、いろいろあったにせよ、平和でした。…アメリカと特殊な関係を結んで、 後見人の役割を果たしてもらっています。その強力な後見人を得て、 国内政治の安定を維持することができたのです。つぎに、政治を完全に政治家たちの仕事にしたこと。 あるいは政治家の役割を限定したともいえましょう。日本の政治家たちは株価の上昇や下落を 招くことはありますが、国情や社会システムを大きく変えることはもはや不可能です。 この 2つの条件をクリアした日本では、一般の国民は戦争と平和に関する問題、政治や社会に関すること、 さらに社会的不平等などの問題をほとんど考えなくてもすむようになりました。 こうすることにより彼らは経済や商業の発展に力を集中できるのです。…」

梁粛戒 「…1944年、私が国民党地下組織の責任者であることがばれてしまい、憲兵に逮捕されました。 日本が降伏する前年のことです。当時、日本人はなにかというと中国人を逮捕していました。 しかし偽満州国で司法官をつとめる私の場合は、司法大臣の許可なしには逮捕できないのです。… 起訴されるまでは、給料もそのまま支給されました。特務課に拘留されていたので、取調べが 一段落したとき、家族の面会も認められました。ちょうどその日は祭日で、わが家にはビール 6本、 パイナップル缶詰 1個の配給があり、妻はそれを持って特務課にきました。取り調べ担当の 小西という憲兵が、一緒に飲もうと声を掛けてきたので、『よし、飲もう』ということになりました。 ところが酒が入るや彼は文句をいいだしました。『ちくしょう、俺は警佐で、日本人だぞ。 俺の家にはビールは 1本しか配給されないのに、満州国人のお前は検察官だから 6本も支給されるんだ。 なのにどうしてお前は抗日するんだ』 …」

-- 莫邦富 「中国人は落日の日本をどう見ているか」 草思社

ところでこの本には、「政治」や「治める」の「治」という字は、 もともとは「治水」の意味だったと書いてある。 つまり、黄河の氾濫を治水する者は一国の領主たりえたという意味らしいが、ホントウかな?

May 06 [Fri]


(10:22)
テッシかうこと。かならず。買わなきゃ許さない。
(13:54)
よーーーやくきた。昼食はまたもインド料理。さいきん、インド料理を食う回数が非常多い。なぜだくゎ?
(21:42)
ネット上の幻想を利用したイメージ戦略、という考え。 ネット上で存在感を示すには、ただひたすら太い回線を買い、サーバを増設し、そこそこの管理者を雇えばよい。 こうすれば「大企業」の誕生である。 実世界とちがってでかいビルを立てたりスーツを着て会見したりする必要はないのだ…。
(22:01)
あっ! slashdot.org が落ちてるっ!
(22:36)
もう戻りやがった。つまんねーの

May 05 [Thu]


(09:48)
midtown のどっかで爆発 (ぼくはつ) があったらしいが、 まあ、マンションが脱線したりボウリングが電車したりするのにくらべればマシだから。

どうでもいいが、Google より悪なのは Amazon だと思うが、あんまり目立たないな。 いま気づいたが Google の強引さ (とアヤしさ) というのはライブドアのようなもんかもしれない。 ただしライブドアがまともに仕事してない (少なくともそう見える) のに比べて、 Google はまともに仕事している。しかし本質的な性格は同じだ。 連中がもとからうさん臭かったのか、あるいはデカくなってからうさん臭くなったのかは知らないが、 まあだいたいこの手の会社にはどこも同じような臭いがただよっている。 いやー昔のヒトはいいこと言いました。“タダより高いものはない”とね。 これ、いったいどこの諺なんだろ? 本当に日本か? でも考えてみればアレだ、理論的にいえば Yahoo も同じくらいうさん臭いはずなのに、 こっちはあんまりそういう雰囲気を感じさせないよなあ。なんでだろ?

(12:24)
でれでれん

ワオー! すげーな。いま Slashdot のほうがほとんど翻訳済みの状態だよ。 これも Traiss 参加者のみなさまのおかげです。つっても、あと 1時間もすれば またドバっと未訳記事が増えるのだろうけど。 まるで翻訳マラソンだ。しかも相手は休みなしだ。

どうでもいいが、いまスゴい意訳を思いついた: slashdot の "fp" を "2" と訳すのである。

(14:25)
パイソナーのための Java 備忘録その 4954:

新山がなぜ Java が嫌いかという理由が上の 2行に示されている。

ところで (てくるで)、 comp.lang.lisp での Kenny の議論を読んで、 なぜ Lisper 達が「マクロはよいものである」と主張するのかがわかった。 とくにマクロは安全なプログラミングに役立つのだ。 「マクロといえば #define」と思っている身からすると これは信じられないが、問題はC の人間と Lisper との間で、 「マクロ」という言葉のもつひびきがかなり違っていることだ。 Lisper のいう「マクロ」は #define のように単純なものではない。 Lisp では、マクロを使うのは簡単だが、C とちがって マクロを作るのは並大抵のことではないとされる。 しかし正しく設計されたマクロは本当に役に立つ。たとえば次のような C のコードを考える:

FILE* fp = fopen(...);
...
fclose(fp);
ここで、fopen の対になる fclose絶対に必要である (まあ、たてまえは)。 だが、ときにプログラマは最後の fclose を忘れることがある。こうしたバグはけっこう多い (はず)。 ところが、Common Lisp ではこう書けるのだ:
(with-open-file (fp fname)
 ...
)
with-open-file はマクロである。 この変数 fp のスコープはこのフォームの中でのみ有効で、 ここから出るときにかならずファイルは閉じられることが保証される。 つまり「カッコの対応」さえ守れば、ユーザがファイルを close し忘れるという事態を ふせげるのだ。こういう例は実は沢山ある。たとえば、OpenGL なら、 glBegin() のあとには glEnd() がかならず必要だ:
glBegin(GL_POLYGON);
...
glEnd();
これも Lisp のマクロならこう書けるだろう:
(gl-define-primitive (GL_POLYGON)
 ...
)
つまり、プログラマが「対になっている呼び出し」をいちいち覚えておく必要がない。 これは Lisp のマクロが単純な文字列置換ではなくて、ブロックの前とうしろに 文字列を追加できるようになっているためだ。Python でもクラスを使えば 似たようなことはできるだろうが、煩雑になるし直観的でもない。 しかしかりに Python で似たようなマクロを導入しようとしても、 すでに構文的な制約がきつすぎて不自然なものにしかならないだろう。 つまりここでは Lisp の「なんでもカッコだけで構文が区別できない地獄」は 逆に有利な点として働いているのだった。 これはおどろきだ。やっぱり Lisper はあなどれねー。 しかし、それでも新山は Python だけど…。
(15:15)
covert ←→ overt
covert ←→ overt
(23:25)
いま帰ってきた。ハラがへりすぎて死ぬ。

今日の馬鹿スラ: ライトセーバーのしくみ

自分で紹介しといて (しかも自分で翻訳しといて) ナンだが、 新山はスターをーズは全然好きじゃないし、スタートれっくも全然好きじゃない。 昔もいまも「男の子向け」の話がぜんぜん好きじゃないのだ。 といって女の子向けの話が好きなわけでもないけど… (しかし少年漫画はぜんぜん読まないが、少女漫画は多少読んでいることを考えると、やや女寄りなのか?)。 ついでにいうと銀河ヒハガはまだ読んだことない。

てくるで、ライトセーバーでもやはりコンニャクは切れないんだろうか?

May 04 [Wed]


(09:44)
オデの知ったこっちゃなかりせば。かもねむ
(14:56)
やったーー。ネクタイひとりで結べた。(本当) オレも成長したものだ
(17:02)
終はっった。。。。。 (困憊的疲労的なんとか) dan の質問が長くてあせった (しかも一番イタイところをかれました)。 しかしまあとにかく発表は終わったのである。これでしばらくは大丈夫だろう。

あっそうだ、来週はコンピュータセキュリティの試験があるんだった。

あっそうだ、今日の夜はコンピュータセキュリティの補講があるんだった。 この授業は習うことが非常に多い。今回の授業で読んだ (というか読まされた) 論文をかぞえてみたら全部で 34本もあった。しかも各々が全然違う研究 (でもシステム屋のあいだでは有名な論文) なのだ。

知ってるよ。けっっ

(18:39)
ふとなにげなく気づいたことだが、 日本語と英語で微妙に名前の異なるものがある。

日本では「ハードディスク」「ビデオカード」という言い方がメジャーなのに対して、 米国では「hard drive」「graphics card」という言い方が (graphics のほうは拮抗しているが) メジャーだ。

(21:40)
長い一日だった。まぢあす先生の補講は当初 1 時間の予定とアナウンスされていたが、 たっぷり 2時間続いた。

Kerberos は基本的に欠陥プロトコルである (彼の偏見入り)。 にもかかわらず MIT はいまだにこれを使っているのはなぜかというと、 リプレースが面倒というのもあるが、MIT では AFS (CMU が開発した分散ファイルシステム) がいまだに使われていて、これが Kerberos と密に統合されているかららしい。 たしかに、いまだに分散ファイルシステムっていったらまともに使えるのは NFS か AFS (か、その後釜の Coda) か、 CIFS しかないもんな。WebDAV はファイルシステムじゃないから却下。 で、さらに Kerberos ではあらゆる認証が最終的には KDC で管理されていて (だから暗号化通信は SSH のように簡単にはいかない)、まちあす先生はあきらかにこれが嫌いなのだが、 一部の人々は Kerberos KDC の集中管理がほんとに好きらしい、という話。

だった。

だた。

(21:51)
しかし今日 Dan からきいた話は本当か? なんでもブログロのコメント欄の文章はあるひとつの事柄について 似たようなことを言っている文章が多いので、言い換えの抽出に使えるということだった。 だがコメントにほとんどまともなクオリティの文章はアテにできないと思われる… (たとえ米語でも S/N 比はそう高くはない)。 そんなことをいうんだったら、たとえばツウちゃんねるで「JR酉日本 氏ね part49」とかいう スレッドをさがして「JR酉日本」に対する言及を集めれば言い換えコーパスができるよな。 っていうか、中傷ばっかりだろうけど。いま思ったのだが、ツウちゃんねるは 「日本最大の誹謗中傷コーパス (あるいは世界最大かもしれない) 」として使えるようの気のする。 さらに思いついたけど、もっと面白い使いかたもできるぞ:
  1. 「悲惨な 1のいるスレッド」集からスレッドをたどる (このシリーヅって、いまでもまだあんのかな)
  2. 「>>1」に対する表現を集める。
まあ間違いなく「氏ね」と「母でございます」は取れるね。 そんなことして何の役に立つのかは知らないが、論文の一本ぐらいは書けるかもしれない。 もっとも最近のツウちゃんねるの状況を知らないので (なんか、もう小学生あたりに占領されてそうな気がする)、 いまだにこういう気風があるのかどうか、わからないが…。
(23:36)
なんかやっぱり Google は悪っぽいよなあ。なんだよあの accelerator って…。 彼らは (MS なぞよりは) 人々の印象がいいのをよいことに、 普通ならまず叩かれるような横暴なこともけっこうやっている。 彼らの勧誘は spam そのもので、ああいうやり方はキライだ。 あのうさん臭さはいったい何なんだろう? たぶん何年か後には結論がでるのだろうが。

てくるで、研究者はじつは考えるのがキライなんではないか、という話。

研究者というと、普通は頭を使う職業のように言われているけれど、 実際には彼らは本当には考えていない。 与えられた問題、与えられた枠組みのなかで、パズルを解くような 問題に取りくむのが好きな人は多いらしいが (誰とは申しません)、 彼らはべつにたいして頭なんか使ってはいないようだ… 少なくとも新山のいう「頭を使う」という意味では。 パズル解きというのはほんらい機械的なもので、基本的には反射の世界である。 そこに内容的な深みを見出すことは (よっぽどの達人でない限り) むずかしい。 つまり、なんて説明すればいいのかな、 「問題から一歩引いて、それを外からながめる」ことができない人が多い。 若輩のオレから見てもそうなのだから、いわんや達観した人から見ればなおさらそう見えるだろう。 みんな自分の問題が本当の問題であるかのように考えているが、 はたしてそれは本当の問題なのか。結局、みんな問題の解法について考えるのは 大好きらしいが、問題そのものついて考えるのはキライなんではないか。 結局のところ、大部分の研究者は与えられた知的なエサを食うだけで終わるのである。 そうでなければ、あんなどうでもいい研究ばかりが量産されることはないはずだ。

ふとそう思った。 まあ、彼らが貴重な人生をどう使おうがオレの知ったこっちゃない。

マイノリティーの血。

May 03 [Tue]


(11:43)
胃の調子÷。ふんげあな感じ。

google://kebaber/
google://kebabist/

てくるで、あいかわらず Kookle は「々」を検索語から無視しやがる。 日本語のわかるヤツが作ってないことの証拠だ。 これは句読点じゃねーっていってんだろーーが! この点のみは Yahoo の勝チだな。

(16:36)
終ワッタヨ。

ニューヨオーク・POST の読者登録ができねえよオー。 ここはいわゆる日本でいうところの「東スポ」的新聞で、 ここから言い換え いんちき表現をとってこれたら 楽しいだろうと思ってクローラを走らせているのである。 しかし今まではタダで記事が取り放題だったのに、2日ぐらい前からいきなり (他の有名新聞と同じように) 登録制のサービスに移行した。 登録はタダなのだが面倒くさい。そしていまは移行時でものすごい負荷がかかっているらしく 登録しようとしても「ごめんなさい」エラーばかりでる。くそったれ。 負荷テストぐらいしろ。

(00:22)
いま帰宅。つかれ太郎。

プレゼン練習につきあっていたらまた hobokenized された電車になてしまた。 明日は Ralph がいうところの「マラソン」があるので、たいへんだ。 今日は早く寝ないと。明日の具体的なスケジゥルは以下のとおりである:

(ぜんぶ本番)

May 02 [Mon]


(10:45)
この國には ゲートウェイなんてものはありません。
(13:53)
ふう〜〜、ようやく昨日の腐ったコードが (DISPLAY なしでも) 動いた…。

きょうの教訓: Swing には純粋にデータ構造のみを扱うモジュールもある。 たとえば javax.swing.tree とか。 しかしそれを java.awt.datatransfer とまぜていたので、話がややこしくなっていた。 それにしても Ralph もよくこんな複雑な API 使うよな〜。 彼はあの歳で Java をゼロから覚えて GUI も書くし Drag and Drop も サポートするしでたいしたもんだと思う。ちなみに、Java に行く前は バリバリの CommonLisp プログラマだったというから、やっぱりスキなんだろうね。。

このプログラムにはもうひとつ問題がある。それは出力が sgml (モドキ) なことだ。 GLARF の出力は S-exp だから、いままではそっちだけ扱っていればよかったが、 これからは sgml と s-exp の出力を両方読んで、統合させなければならない。 おまけにこっちは Parser も dbparser で違う。全部でいったいいくつのソフトウェアが からんでいるんだか、もう数えたくないが、こんだけあるとセキネさんのように 全部を統合したシステムをゼロからつくりたくなる気持ちもわからんではないね。 しかし、彼の oak は使いたくないが…。あれは言語処理についてはある程度知っているが、 ソフトウェアを知らない人がフレームワークなど作ろうとすると必ず起こる不幸のひとつだ。

(14:57)
todo: LispNYC: Tuesday, May 10th from 7:00 to 9:00 at Trinity Lutheran Church.

くそー、また試験と重なってるじゃねーーーか!

(15:15)
「午後のメランコりー」開始です
(17:47)
今日は鼻の調子最悪。なぜか室内で。 外にでるとさむい。

明日の todo: I-20 とパスポート持参、OISS。

(18:23)
げーーーっ。あめあめだよチクショウ。早く帰っときゃよかった。
(22:57)
traiss-todo: きちんと 404 not found 返すこと。

今日はすずしかった。夕食はあまりものでスープをつくる。

(23:43)
日本におけるネット関連会社のカタカナ濫用性のまずさに対する苦言。

またライブドアだが、「ウォレット」というのはどうにかならなかったのだろうか? どうしても「ウォシュレット」と読めてしまう。そもそもあの会社はなんでも カタカナ名にしすぎだ!

なぜ Google は日本法人を「グーグル」にしたのか? 「…グル」という響きがよろくなき。日本市場にむけては 「ぐーぐる」とひらがな表記で登記すべきであった。 絶対、みんな (= 新山以外のすべての日本人) は「さすが Google、名前の選び方もススんでるなあ〜」といってくれるだろう。

google://カタナカ/ (46,50件)

さて、以上のは戯言。これからが戯言。

言い換えについての考察。 以前、「なぜ人は言い換えるのか」という疑問を呈した人がいたが、 むしろその逆を尋くべきだね。「なぜ人は言い換えないのか??」ということだ (これは Austin がずっと前に研究しているらしい)。言い換えは語義の曖昧性解消とじつは 表裏一体をなす問題であるということにだれか言語処理屋は言及しているだろうか。 これに言及しない言い換え研究はインチキである。なぜって、 「同じこと」を「異なる言い方」で表現したものが言い換えだと人はいうが、 世の中には、「違うこと」をわざわざ「同じ言い方」で表現したものもあるじゃないか! たとえば、古典的な例として

という表現を考えてみる。そもそも顔は天気じゃないんだから、曇るわけねーだろーが! 集合理論の見地からみて、これは許されざるデータ型の混同である。しかしなぜ人はこの表現を許すのか。 最初に「曇っている」などという表現を顔に対して使う気になった奴はどこのどいつだ! みんなしてそいつを袋だたきにすべきだろ。そんな例は無限にある: 「内定」は物理的な「もの」じゃないんだから、蹴れるわけねーだろが、ばか。 ここでも問題は、なぜ「蹴る」という表現を本来の「蹴る」以外にも使う気になったのか、 ということである。この 2つの「蹴る」の間には共通したものがあるのかって? それをいうなら「蹴る」と「殴る」の間にだって共通したものはあるジャン。 なぜ「蹴る」と「殴る」は区別するくせに、「内定を蹴る」と「ボールを蹴る」は 同じ「蹴る」を使うんだ。すべての行為をちゃんと区別しろ! 「内定をケ゜ぎョる」という動詞をあらたに導入するべきだ。 しかしこれを言いだせば、ボールを「蹴る」行為と人を「蹴る」行為は明らかに別物である。 だって実際に動きが違うから。だから「人を蹴る」と「ボールを蹴る」には 別々の動詞を与えるべきだ。もっといえば、「サッカーボールを蹴る」と「野球のボールを蹴る」のは これまた動きがちがう。だからこれらも区別しないとね。さらにいえば、 「暑い日にボールを蹴る」のと「寒い日にボールを蹴る」のは根本的に動作が違うのは自明であるから、 これらも区別しなければならない。さらにいえば、ボールを蹴る動作は人と時期と気分によってすべて違う。 つまり結論: 言語は不可能である。ということになる。

…なに、区別しすぎだって? それじゃー今度はまとめる方向で考えてみよう。 「内定を蹴る」のと「ボールを蹴る」のはおんなじだ。まったく同じ動作であり、 寸分も違う部分はない。 おまけに「殴る」と「蹴る」もじつはまったく同じであり、したがってこれらは 「蹴る」に一本化するべきだ。ついでにいうと、「蹴る」と「食べる」もまったく同じだね。 だから「今日のお昼は、スパゲッティーを蹴ったよ」というべきだ。 つまるところ、日本語に動詞は一個しかいらない。 なぜなら、どの動作もぜんぶ同じなんだから!

これでも不適当だとするなら、どの動作を「同じ」とするのはよくて、 どの動作は「違う」べきなのか説明せよ。なぜそうであるべきなのか。 動作の「同様性」という量が存在するのか? (それらはコーパスで数を数えればわかるのかもしれないね!!) 同様性が 50% を超えた動作は「同じ」動詞を使うべきで、 そうでない動作は「違う」動作を使わないといけないのかもしれない。 そしてそれは誰が決定するのだろう。どこかの法律で決まっているのか?

自然言語に関しておかしなことのひとつは、すべて個人によって解釈が違うようでいて、 じつはすべての人間が「何か」にあらかじめ同意しているように見えることだ (「何か」とは文法のことではない、この「何か」は世界中すべての人間にあてはまる)。 これはプログラミング言語では考えられないことだ。 ではその「同意」は、誰によって埋め込まれるのだろう。 たぶん生まれてから保育器の中にいるあいだに注入されてるんだね! オレの知らないあいだに!

「言い換えとは、同じ内容を異なる表現で表わしたものである」 (×)
「言い換えとは、異なる内容を同じ表現で表わしたものである」 (○)

bullshit.

イヌイットの言葉には 200種類以上の「雪」をあらわす助詞があるといいますし、
ベドウィン族の言葉には 4.2e+23 種類以上の「ラクダ」をあらわす句読点があるといいますし、

ウィトゲンシュタインに言わせれば「それは違うじゃないか」 「いえ、まったく同じようにやっていますよ」ということなのだろう。 あなたはそれを「同じだ、同じだ」と言い、オレはそれを「違う、違う」と主張する。 この結着は永久につかないので、モンティ・パイソンのように、リングに上がって…

あれってどっちが勝ったんだっけ? 最後。

May 01 [Sun]


(12:33)
朝だからといってカフェインなわけではないよ! (12ji 33pun)

どうでもいいけど、Lenovo のデスクトップパソコンは "Tianjiao (天驕?)" シリーズっていうのな。カッコいいな、なんか。 なぜ日本のメーカーは日本語名をつけないんだろ? (答えは知っている) しかし「速そう」な名前はみんな JR の列車名にとられているような気もする。 「やまびこ S40」とか「ハイパーにちりん 3200」とか「苅萱道心 560X」とか「グスコーブドリ-neo」とか とかゆう PC あったら絶対イイと思うのだが。 さらにまったく必然性がないが (おまけにどうでも飯-ii)、ロシアで PC ができたらぜったい名前は「ドミートリイ」だね! (個人的に好きなのはイワンなのだが、かれは名前的にインパクトがないので没)

てくるで

「苅萱 (かるかや)」っていう響きはとってもスキである。 ちなみに長野駅前には「かるかや山」なる地名がある。 なんやら善光寺に関連する地名らしいが、くわしいことは知らぬ。

(16:36)
プログラマのための常識チェック:

問 1. 以下の問いに○か×かでお答えください (10点):

  1. Unicode とはつねに 16ビットの範囲に収まる文字コードのことである。
  2. 一定の範囲をもつ n個の整数を最大 O(n) の時間でソートするのは (Church-Turing の定立にしたがう限り) 原理的に不可能である。
  3. 現在の電子計算機が内部で 2進数を使っているのは偶然にすぎない。
  4. 共通鍵暗号とは、暗号の鍵を世界中の誰もが共有できる暗号方式のことである。
  5. メモリの細切れ化 (フラグメンテーション) は、複数のプログラムが同時に走っているコンピュータ上でのみ起こる現象である。
  6. 同じ IP アドレスのついているマシンが世界中に 2台以上ある、ということが許される場合もある。
  7. C言語において、NULL ポインタの正式な定義は ((void*) 0) である。
  8. TCP は信頼できないネットワーク接続であるので、送受信された内容はチェックサム等で検査する必要がある。
  9. 一般的に、深さ優先探索は幅優先探索にくらべて使用メモリが少なくてすむ確率が高い。
  10. あるアプリケーションにまったく同じデータを与えてもエラーが再現しない場合、必ずハードウェアに問題がある。

問 2. 上の問いのうち、プログラマの常識を判断するのに使う問題としてふさわしくないものを すべて選び、理由とともに書きだしてください (90点)。

問 1. の答え: 解答があるなどと思っている奴は失格。

問 2. の答え: ぜんぶ不適当。理由は明白。

(18:32)
まぐにたふぉん

まぐにたふ ぉん

たべすぎ?
たべすがない!!

(19:23)
また Google で変態的なキーワード (といっても、ああいった意味での「変態的」ではない、 誰も検索しそうにないキーワードという意味である) をさがし、ついに 自分の電波的基準に合致するページをみつけた…と思ったら、false positive だった。 ざんねん。
(22:25)
Ralph と David のかいた照応解決プログラムをいじっていたら ワケわからない状態になり、憤怒。これは Java で書かれてるのだが、 どっかで Awt か Swing のメソッドを呼んでいて、 このため X がないと動かないのだった。おいおいそれじゃ困るよ。 Windows で開発してる人には関係ないかもしれないけど、こっちは バッチで走ってくんないと困るんだからさ。というわけで画面制御関係を 削除しようと思ってたのだが…。 なーんと! ある種のデータ構造 (木) は、じかに Swing の Tree だか なんだかを継承して書かれていた! これじゃロジックと画面処理が分離できねーじゃねーか。 くそったれ。しょうがないからあちこちを自前のルーチンで置き換えるが、 もともと全体の構造を把握してないので何がどーなってんだかもうワケわかんなくなった (このシステムのソース全体はすでに 4万行近くある)。 ああああーーーーーーーーーーーもう!!!! フンヌ。

やはり言語処理屋にまともなコードを期待したオレがバカだった。ちくしょう

(00:30)
やっと帰ってきた。path が遅くなったのでいま着いたのだ。ああ、腹へった。 これからご飯つくって風呂はいって寝なきゃ。 明日月曜からまたネボっていてはフグがギョってしまう。来週は提案が (も) あるのだ! (とかも)

きょうの アホ slashdot: すべての時間旅行者が 過去・未来から 2005年 5月7日に集まる大会。 まあ、ホラふき大集合だろうな、これは。 むかし Yahoo! オークションでタイムマシンを売った奴がいたのを思い出すが、 あれはどこまでいってもイタズラっぽかったのに対して、これは少なくとも 論理を通そうとしているところが何つーか、まじめにアホだ。

ちなみにこの slashdot の書きこみで知ったが、米国にもこのタイムマシン男と同じようなことをやった John Titor なる人物がいたらしい。


Yusuke Shinyama