2004年 4月 (1)。

Last Modified: Sat Apr 10 21:05:30 EDT 2004 (04/11, 10:05 JST)

Apr 10 [Sat]


(07:22)
皆様おはようございます。

もー、こんな早起きちゃ、夢の世界のヒトがおちおち眠てらんないじゃないの。

やばい、また二度寝しそうだ。

機械学習の実験をやってるときに、とにかくムカつくのは自分の組んでいるロジックに説得力がないことだ。 「この項はなんで必要だっけ?」「ここで正規化する必要あったっけか?」とか思いつつも、 式をあれこれいじってるうちにそのうち何を計算してるのかわかんなくなり、 それでも性能は上がったりする。で、やってる本人もなんだかわからんうちに 「性能がいいからいいや」ということで許されたりする。バグがあっても実は 誰も追試しなけりゃ最後まで気づかれなかったりする。恥を知るべきだね…。 機械学習の理論的な研究はまだいいとしても、アプリケーションはあんなもん学問とは 認められない。そういう意味では、じつは新山は Google がやってるような 「簡単な方法だけを使って、あとはとにかくデータ量で力ずく勝負」には ひそかに期待しているのだ。なぜなら、それがうまくいけば今あるチマチマした 研究の多くはどうでもよくなるから。頭のいい人をこんな不毛なことに のめりこませてはいけないよ! オレはアホなのでどうでもいいが。

これは物理なんかの自然科学の研究とは根本的に違う。 あれはある程度、法則が確立されてるし問題もはっきりしているが、 こっちはほとんどなんにもないのだ。 「こんな方向で進めばうまくいくだろう」という指針さえない (昔はあったらしい、醍醐世代)。 こういう状況で、このレミングスの群れの先頭にいるやつは一体誰なんだ出てこい! …と怒ってもしょうがないので、ねよう。

(08:23)
ところでこないだ電車の中で iPod Mini つかってる人をみたが、 ぜんぜんほしくならなかった。どうもあれって大きさが中途半端でやだな。 あれもまた日本で大ウケしてしまうのだろうか? アメリカでウケたというだけの理由で?? なにしろ日本人はあのネムたげな顔をしたファービーですら買ったわけだからな。 あんなセンスないキャラクターなのに。あれにはびっくりだ。 それでテレビじゃ松井を応援し、牛肉輸入には反対するのだろうか。 で、「英語を話せると、 1000000000000億人と話せる」ってわけ? プリオン輸入してもしなくても、どっちにしてももうオカシクなってるからいいよ。
(13:54)
人間、政治的に利用されるようになっちゃオシマイだよなあ。
(17:32)
読んだ論文をメモっておく。月曜にプレゼンしなきゃいけないから、それの資料作成という意味もあるが。

Sanda M. Harabagiu, Razvan C. Bunescu, and Steven J. Maiorano, "Text and Knowledge Mining for Coreference Resolution"

概要: They tried to address coreference resolution using various kinds of knowledge, basically acquired from an existing small corpus (MUC) and WordNet graph mining.

彼らが使ったリソース:

評価: (Table 4.) , but why the precision also improved after boostrapping??

これからさらにスライドを作らねばならない。 しかしこんな論文で追試できんのかな…。

(18:32)
あーやっちまったよ。lock out myself。この国に来てからこれで 2回目である。 このアホがこのアホが!! さて、腹へった。
(19:16)
実験的な「茹で野菜スパゲティ」なるものを作ってみた。 ダイコンがあまっていたのだが、本当はオロシにしたいところなのだが、 これはもう生では食えないほどまずい (香りが全然なくなってる、やっぱりダイコンは チャイナタウンで新鮮なのを買わなくちゃだめだな) ので、なんとかしてこれを茹でて 利用することを考える。前回のベビーキャロット君と、ホウレン草の切り身 (?) を一緒に茹でて バターをからめてかつをぶしと海苔と醤油をかけたらそれなりに食えるのではないか? という論理。タマネギは匂いがキツそうだから今回はパス。結論: まあまあ。 でもダイコンはもっと小さく切ったほうがよかった。

細菌、ヘルシーなものを食うことが多いなあ。

ふと思ったこと:

(20:26)
センタクが終わって、「さて、今日も靴下が全部ある」と確認するとホッとするのは、 オレだけなのか。

どうでもいいけど女物のシャツは胸にポケットがなくてきらいだ。

さて次に読むのは OS の授業のための clustered メイルサーバーの論文で、 これがまた 30ページもある。でも字がデカいから許す。

(21:03)
なぜか Boosting をつかってスコアがよくなったのだが…。

あやしい…。

どう見てもこの式は間違っているのに…。

あやしい…。

といって、正しそうな式に直すとなぜかスコアが激下がるという現象が起こる。

気が狂うよ、まったく
あちらの世界

Apr 09 [Fri]


(09:35)
まだやってんの?

ぜんぜそ。

(12:08)
久しぶりにころきあを寝すごしました。どうもこのごろいかん。

朝 = 頭おけぼけ
夜 = トッカントッカンする (??)

ふと気づいた。「おけぼけ」って何だ? b ですよ b!! b がヌケてるんですよb!!

うるうる。ネムケに耐えてこそのJIS基準合格だ。

(13:22)
つくづく、世の中にはひどい話もあるもんだ、という話。 きのう書きすぎたのできょうはすこし控えめにしとく。 (まだあと 1日もたせなきゃいけないのに、もう 50kb 超えちまった)

todo: ママレード買うこと。新規

(15:37)
.doc ファイル送んないでよセキネさん…
(16:20)
ヘンテコなことを発見した (?)。
>>> s="a"
>>> s[0]
'a'
>>> s[0][0]
'a'
>>> s[0][0][0]
'a'

べつにヘンテコでもないか。 思うに、文字と文字列を区別しないというのは混乱する。

(17:45)
"Meaning Machines"
Deb Roy
MIT Media Lab, Massachusetts Institute of Technology
http://www.media.mit.edu/cogmac/

Machine Learning Lecture, Spring 2004
Friday, April 16th
11:00 a.m. - 12:15 p.m.
Interschool Lab, 7th floor, CEPSR
cs.columbia.edu

おお、なんかおもろそうなことやってんじゃないの。

(21:36)
WSD/ANLP の宿題。Naive Bayes (なぜか日本ではベイジアンと呼ばれるらし、 Paul Graham がそう呼んでいるためだろうか) でやってみたら、 ひどく性能が悪い。ほどんどランダムよりちょっと上、てな性能しか出ていない。 なんだこりゃ? さて、これは 1時間で書いた Python スクリプトのバグなのか、 それとも素性の選び方がアホってるのか、それとももとからこういうもんなのか。 へれんからメールがきて「あたしのより精度悪いね」と言われ、がっかりする。 ウインドウサイズがでかすぎるのだろうか? ヒマだから AdaBoost でもやってみるかね??

(ウソだ、ほんとはぜんぜん暇じゃない、おまえは嘘をついている!)

(21:58)
で、ウインドウサイズを 3 に減らしたら *な*ぜ*か* 性能が激アップすると。機械学習は嫌いだ。
(23:08)
マーマレード買うてきたよ。 きょうのは Hero Switzerland だ…。

こちらのスーパーでいつもクラクラするのは、 チーズ、パン、ジャム・はちみつ類の売り場へいったときだ…。 死ぬほど沢山の種類がある。日本人にはほとんど何がなんだかわかんないほど沢山ある。

(00:58)
親がソバをずるずると食うのを見ながらパンを食うのは拷問のようにむなしいのう。
(01:55)
だーめだ、こりゃ、性能上がんないや。あきらめたズラ。 てきとうに作った AdaBoost でやったら性能下がった。 というか、ほんらい NaiveBayes に training の weights という 概念があるのかどうかわからんので、モデルをいーかげんに改良してもよくならないのは当然か。

Apr 08 [Thu]


(13:24)
在ニューヨーク総領事館からお知らせがきた。

いわく「イラクで日本人が拘束された → NY でも拘束されるかもしれないから注意しろ」 という内容だが、そんな暇人いるかい! だいたい「日本軍撤退」を目的にするより、身代金目的で誘拐したり 脅したりするほうがよっぽどおトクだ。それからもうひとつ。 中国人と新山を区別できるならしてみやがれ。

しかし、そうすると、イラクにはあまり見間違えるような東洋人はいないのかな? つまりああいう顔した人間はみんな悪者だと。それはわかりやすくていいよな。 それとも日本人のボランティアなどはあきらかにそれとわかるような格好 (ex. エルメスのスカーフ等) をしているのだろうか?? …だとすると、イラクの例の人々は「なにがブランド物かそうでないか」を識別する 訓練を受けていることになり、それはそれで笑える。しかし現実世界というのは そういう笑えるところまで細かいやつが勝つのだろう。勝つって、何に?

(14:01)
新山がコードを書くときにいちばん気をつかっているのは、 「いかにしてプログラマの意図を (自然言語でなく) 計算機言語をつかって コードのなかに的確に表現するか」ということである。 たとえば新山は Python のプログラムでは例外処理 try: 〜 except: をよく使うが、 これは if よりも好ましい場合が多い。なぜならそのほうが 「ほんとうに自分がやりたいこと」をより目立つように書けるからである。 たとえば昨日の例でいくと:
try:
  dic[k] += 1  # ← オレはこれがやりたい!
except KeyError:
  dic[k] = 1   # ← だめだってさ
ところが、これが if を使うとこうなる:
if not dic.has_key(k): # ← まず、様子をうかがう
  dic[k] = 0           # ← できないらしいので、なんとか根回ししておく
dic[k] += 1            # ← 絶対の自信をもって実行

これがどうわかりにくいかというのは、自然言語に置き換えてみるとわかりやすい。 たとえば新山は、次のような喋り方をする人は嫌いである:

「えーと、あの、これもしすでに言われていることだったら申しわけないんですけど、 これはぼくが個人的にそう思うことであってほかのみなさんの同意を求めてるってわけじゃ ないんですけど、そこで使うのは『速い』であって、『早い』じゃないんじゃないですか?」

言い訳が先に来ているからだ。 まあ自分でもこの嫌な喋り方をすることが多々あるのだが。 いっぽう、こう言えば:

「そこで使うのは『速い』であって、『早い』じゃないと思いますが、 え…知っててやってる? そりゃ失礼」

これのほうがあきらかにいいと思う。 しかしよく考えてみるとこれは単なるプログラミング上の問題ではなく、 生き方の問題であるかもしれない。 だいたいにおいて新山はいつも「出たとこ勝負でやって、あとはそれから考える」 という生き方をしてきた。やる前にウダウダ悩むのは嫌いである (はい、留学したのも後先考えずに勢いだけでやりました)。 だからそれが単純にプログラミングにおいても表れているといえる。 だから用心深い人は if を好み、例外は使わないのかもしんない…。 というか、べつに例外つかってても後先考えてないわけじゃなくて、 ただ単に表現上の問題であるかもしれないのだが。前口上が長い人はいつも嫌いなのです。 さっさと本題に入れと。人生は短いのだと。まあいいや。とにかく、例外処理はその名前のとおり「例外的な」処理を あつかうものなので、新山が if より例外を好むのは 「こちらのほうが起きる確率が少ない」ということを暗黙的に表現していることも多いからだ。 これにたいして if を使うと、どちらもほぼ同じくらいの回数で起こることを 期待しているように見える。ま、とにかく例外処理が明示的に書けるといいのは、 急いでいる人 (とにかくプログラムの動きをざっと理解したい) にとっては、 本質的なところ (try 節) だけを読んで、枝葉の部分 (except) は 読まなくてもいいよ、と言えるからだ。実際にはそれほど簡単じゃないが。

目をつぶって
両足で
ピョン

もうひとつの例は関数内関数である。これも「本質と枝葉」をすばやく見分けるための書き方で、 こっちはもっと説得力がある。closure の必要がなくても、関数を中に入れたほうがいい場合というのは多い。 なぜなら、こうすると:

def f():
  def g(): return
  g()
この g()f() の外からは絶対に参照されないということが保証されるからだ。 いっぽう、g() を外に出してしまうと、これがほんとうに f() のみから 呼ばれるのかということがわからない。それにもし何らかの理由で f() を ほかの場所へ移動することになっても、g() はどうすればいいのか? という疑問が生まれる。 従属関係をあきらかに書ける、という意味で関数内関数はいいのだ。 つねに、プログラムの「読者」を意識すること。読者の苦労を減らす (=探索範囲をせばめる) ようなコードはつねによいのである (obfuscated なコードを書こうとしないかぎりは) 。 そういう意味では const とかもあったほうがいい。 機能的にはなにもメリットがなくても、プログラマの思考をより的確に表現できるからだ。 ただし実際には、この手の書き方はいつも「機能的な制約」として 働かねば意味がない。「機能的な制約」というのは、たとえば
int a = 1;
という行を考える。これだけ見ても、読者は a を使って何をやりたいのかわからないだろう。しかし
const int a = 1;
こうすると、あいかわらず何がやりたいのかはわからないが、 それでも「やりたいこと」の可能性が確実にせばまってはいる。 こうすることにより、読む側は書いた側の意図をより推測しやすくなり、理解が容易になる。 これが機能的な制約。 もともと強い型付きの言語ってのはそういう視点でつくられているのよね。 いっぽう、Perl みたいになんの制約も与えず 「こんな書き方もできまっせー、こんな書き方もできまっせー」という単なる 構文糖衣の乱発になると、書く側の役には立っても、ちっとも読者の役には立たない。 違う書き方をされたからといって、それが何の情報も与えてくれないからだ。 Perl は基本的に書く側のことしか考えていなくて、読者のことを考えた言語ではない (Rubyもそう)。 でも Python は読者のこと多いに考えている言語だと思うので、 どちらかといえば型の強い言語のほうが好きな新山としては、こういう機能は もっと入れてほしい。しかしそうはいっても、 「手軽さ」というメリットは捨てたくないので難しいところだ。 それでプログラムが書きにくくなったら魅力は全然なくなる。 Ada みたいな型システムは強力だが、厳しすぎる言語は使いたくない。 結局、適度に落としどころがうまいのは Python だということになるんだけど。

いつも「読者」を意識するべし、というのがプログラムを書くときの新山の心がけである。 だから Python などの高レベル言語でコードを書いているときの新山は、 コンピュータのきもちからは遠く離れていると思う。むしろ、「ライターのきもち」に近い。 ただしこれはコメントをやたらとつければいいってもんでもない。 なぜなら、自然言語によるコメントはいつも曖昧で不完全だからだ。 「プログラミング言語そのもので雄弁になる」ことが重要だと思う。 こういうことを考え出したのは djb のコードを読んでからで、 かれのコードははっきりいってそれほど雄弁ではないが、 あのコメントの少なさにおどろいた。にもかかわらず、それなりに意味はわかるのである。 たとえコメントがあっても、下手なコメントがついた下手なプログラムでは、わかりやすくならない。 つづく。

(17:01)
つづき。独善的といわれようが、とにかく、ものをつくる側には説明責任がある。 一目見れば動き方のわかる物理的な機械とはちがって、とくに計算機ソフトウエアでは 説明責任がより重要になると考える。プログラマには自分の作ったものを 「誰にでもわかる」ようなものにする責任があると思う。とくにそれが公開されて使われたり、 重要なインフラになったりする場合はなおさらだ (もっともこれは程度の問題だが、 さすがに誰もボンタンはいて体育館の裏で煙草すってるような連中 (- すでに絶滅した -) にわからせろなどとは思わないが)。 この意味で、オープンなソフトウエアが本当に公共的なものになるまでには まだまだ長い道のりがあると思われる。物理的に閲覧可能・法的にコピー可能なだけでは駄目で、 多くの人が憲法9条なみに NP完全問題や ACID 特性に親しんでいなければならない。 しかしそんなことが本当に可能か? という疑問がある。 それは教育によるだろうし、わかんねえや。カミロイ人的にいって。

ま、とにかく、オレは世界中でごく頭のいい一部の人だけが重要な技術を 理解しているという状態 (テクノクラシーというのか) は好きでない。 ディストピアとか、そんなことはどうでもよく、単純に、なんかムカつくのだ。 日本人としては、出るものは叩かなきゃだめだろ!!

ほどよく狂った結論になったのでこれで終わりにるす。

(17:52)
ふいに Graphviz というツールを発見する。 これはかなりおもろしいてすよこりは。というか、使えそう。 たとえば、こんなテキストを dotty に与えると
graph G {
  a -- b -- c;
  b -- d;
  c -- d;
}
こんなんが表示される:

レイアウトは線が重ならないように自動的に考えてくれるらしい。 すげー。これ、実際にマウスでいじれるわけよ (レイアウトは最初は自動でやってくれるが、手動で修正したやつを保存することもできる)。 書きだしたデータは png や gif や PDF にも変換できるし、各ノードの形を変えたり色をつけたりもできる。 Python や Java や C# のライブラリもあるそう。これでは Visio のかわりになるのではないだろうか…。 ああ、でも「カクカク線」が描けないからだめか?

てくるで、教育について思い出したが、欧米では LinuxForKids や KDE Edutainment など、教育現場に Linux を積極的に応用しようという 動きがあるのに、日本ではさっぱり聞かない (すくなくとも新山は知らない)。 KDE に至っては Kiten なる 日本語学習用ソフトまであるぞ (当然、作者は欧米人だ)。 新山は計算機の教育については興味あるが、はっきりいって日本はこれについて全然ダメそうな感じ。 そもそもまともな学校教育ができてないのに、まともなソフトウエア産業が育つはずないじゃん! 結論: あきらめろ

(18:24)
30日にまた SIGGRAPH のイベントがあって、ぴくさーの人が来るらしい。 who has worked on Finding Nemo, Bugs Life, Monsters Inc... こんなんばっかだな。もう秋田。
(20:55)
あれえ、もう 9時じゃねえか。帰るゾ
(21:53)
なんか「ワシントン門」のライトアップがアップグレード (?) されてた! おどろけ!!
(23:09)
いやー、 Maddox の 4月 1日ページには笑った。 しかも、芸が細かい。たとえばふつうこのページの下には "This page was made using vi in unix. Anything else is for failures." と書いてあるのだが (vi 使いがセンスいいという、明らかな理由のひとつがこのページだ)、それが "i wish i could afford dreamweaver." になっている。 それにしてもいつも見るたびすごいと思うのが、アメリカンはこんな直截な hatemail を 出すのかとゆうこと。ファンレターとあわせて、日に何百通も来るんだって? しかもその大半は「お前がガンにかかって死ぬといいね」等、とにかく表現が単純でどぎつい。 すげーーなあ。オレもほしいもんだ、そういうの。このサイトも長くやってれば hatemail の 1通や 2通は 来そうなもんなのだが、幸運にもアメ人には理解できないため今のところそういったメイルは何もこない。 思うに、日本人は一般にこういうことではめったに嫌がらせメイルを出さないと思う。 かわりに、多くの人は掲示板などでそのページのリンクをはって「さらしもの」にする、 という方法をとるようだ (ツウちゃんねる掲示板を見よ)。たとえばこいつは orkut について何と言ってるとか、 chasen について何か言ってるとか、「新山印ゲット!」とかね。 つまり、自分ひとりの口から文句をいうよりも「ひとさまに訴えるほうがダメージがでかい」と 信じている。しかし直接的に「こいつがダメだ」と言うとアヤしまれるので、 それとなくさらしものにするというのが大事なわけです。国民性の違いだなあ。 ちなみに、新山はそのような意図で他人の個人ページにリンクすることはいたしません。 というか、お前らはサンテクジュペリの言葉を知らないな? いや、いいんだけど別に。

てくるで、さっき日本の教育がダメだということを言ったが、 それと関連して思い出したのだが、日本の博士課程の内容は知らないが、 見た目では確実に言えることがある。それは 「日本の博士学生はとことんまで人生の悲哀を味わわなければならない」ということです…。 つまり

という四重苦 (実はまだある、経済的な問題とか教授との相性とかだが、これは人にもよるし米国でも あるところはあるらしいので省略、でも上の 4つはどんな学生にもほぼ確実にあてはまる)。 これはキツいですよこれは…精神的な修行の一種なのだろうか? 米国でも多少はそういうところはあるが、日本の博士課程では、 彼らが自信をもって生きていられる見込みは非常に低い。 東工大にいたころ、よくハシモトさんと 「修士 (とか博士) の学生って社会で最低の身分だよな」 といっていたのである。 いくら自分のやりたいことができるからといっても、 これで課程博士をとりたい人が今後いるのかどうか…。 もちろんその多くは若くしてある意味ダマされた人間たちであり、 「まさかこんなだとは思わなかった」ということになるのだろうが、 この調子でどこまでこれからの若者をダマしつづけられるのか、興味がある。 まあいいんだけどねえ。

あ、ちなみに肝心の「内容」については、 新山は日本の博士課程をやった経験がないぬでなんとも言えませぬ。

優秀な教授陣 (かっこわらい) と
最新の設備による
世界最高レベルの教育!

…って、これじゃどっかの専門学校だ。 いや、たしかに、設備は日本のほうがいいよ。 無駄に。 こっちなんか一台のサーバを何十人もで同時に使って 各人が勝手に個人用の apache 走らせてたり、ひどいもんだ。 日本じゃいつの話だよ?

(00:40)
このサイトは博士課程の方々には見られないことを想定して書かれています。 ご利用は自己責任で。おやすみ。

Apr 07 [Wed]


(07:05)
もう目がさめてしまったのですが? こりぁ、二度寝かな。
(08:31)
Python 最適化に関するノート。

関数内関数は遅い。とくに内部の変数を参照してないなら、外に出したほうが速くなる。

def f():
  def g(): return
  g()

# faster
def g(): return
def f():
  g()

KeyError を捉えるのは遅い。if で判定したほうが速い。

try:
  dic[k] += 1
except KeyError:
  dic[k] = 1

# faster
if not dic.has_key(k): dic[k] = 0
dic[k] += 1
IndexError も同様。
try:
  x = seq[i]
except IndexError:
  x = -1

# faster
if i < len(x):
  x = seq[i]
else:
  x = -1

リストを辞書のキーとして使いたい場合、 いちいち join して文字列にするよりも、タプルに変換したほうが速い。

dic[" ".join(seq)] = v

# faster
dic[tuple(seq)] = v

これらはあとで「おもちゃばこ (仮称)」に追加しておこう。 しかしなぜかさ、いつも遅いほうの書き方のほうがキレイに見えるんだよな。

(09:52)
ふんがあ。 ようやく眠くなってきたら、寝てる暇ねえ! ころきあだ。
(13:01)
ねむくてよくわかんなかった。
(17:41)
散歩兼ハード買いにダウンタウンまで出かけてのんびりしてたら、 いつのまにか授業に遅刻じゃ。だいたい 5時すぎなのに明るすぎるんだよ!
(00:04)
ぬるっす。(=ねる)

Apr 06 [Tue]


(13:06)
家具屋 (というかもはや雑貨屋) のチェーン IKEA (英語ではアイケアと発音する) の創業者が カネ持ち度でゲイツを抜いたという話。うちの母は昔から IKEA が大好きで、 もう 20年ぐらい前から IKEA を使っていたのだが、日本ではあまり知られていないみたい。 けっこうハクライ主義者だったんだな、うちって。

weather.com に行ってみたら、つぎのようなメッセージをみかけた:

Free Trial: Tornado Alerts by Phone!   
Free trial ってことは普段は金取るわけだよね…。これが商売になってしまう国アメリカって。
(14:55)
なんかぬー、いまいち休みボケ程度が気分的にぬけていない、はっきりいって、これ。

こんなじゃいかんなー

(17:01)
またきょうの授業でもとり残された新山。 まあ、原因は論文の Byzantine アルゴリズムをよく理解してないことにあるのだが、 それにしてもさ、とにかく Scalability が重要なんだよ。
(18:22)
今日のウラシマ効果: Psyco のバアじょんがいつのまにか 1.0 をはるかに超えてた。
(19:06)
まだ明るいのだがもう帰らなければ。明日こそまともな生活ペースをとり戻すぞ!

てくるで (ところで)、さいきんなんとなく感じているこのボーー…っとした気分は、 4月の始めだからであると思われる。「4月病」とでも言うべきか。 日本では、3月の終わりから 4月の始めにかけてはなんだかいろいろゴタゴタするし、 基本的に別れの季節だし、新しい人も入ってきたり桜も咲いたりスギ花粉もあったりして 期待と緊張の日々 (?) であるわけだが、新山はこういう雰囲気があまり好きではないのだ。 なんか、ソワソワするから。この感覚はきわめて日本的なものだと思うが、 もはや「毎年この時期になるとソわそワすること」という性癖が体内にしみついているらしく、 それでいつもなんとなくボーっとしてるのかなあ、と考える。 あるいは春眠不暁覚か (てきとう語漢)。ホントヌ。

いま思ったのだがさいきん「(ナ行のほかの文字) → ぬ」という自動的脳内変換が新山においては 非常によく行われるようであ。これはふだん「ぬ」という文字を使う機が あまりに少ないので、このたびもうすこし普及させることを (洗剤意識的に) 狙っているためだろうか??

「ぬ」という文字をもっと使いましょうキャンペーン実施中!

フンヌの鬼。

(20:43)
ここ数日、まともな食生活をしていなく、なんだか無性に野菜が食いたかったので、 野菜をてきとうに買ってきてコショウとバターで炒める。 日本ではあまり見かけないが、こちらではどこのスーパーでも 売っているベビーキャロットはなかなかいい。皮をむいたりする必要ないので、 鍋にぽーんとほうりこんですぐ炒めて食えるのだ。organic なのを買ってくると 匂いもそれほどきつくないしね。で、調理の合間にプチトマトをつまむ。 あと、きょうは Feta とゆうチーズをなんとなく買ってみたのだが、 これはなかなかうまい。ブルーチーズほど味が強くなく、そのまま食ってうまい。 酒に合うかもね。しかしチーズって、どうしても最初の匂いが抵抗あるよなあ。 一瞬、「うわ、これ、....のニオイじゃないの??」と思ってしまう。 食っちゃえばなんてことはないけど。ついでに Navneet に Dosa の話をする。 彼によると、2種類あるソースのうちどっちを使ってもいいそう。 新山がダイコンオロシだと思っていたもの、実はココナッツだったらしい。 ココナツって、すりつぶすとあんなふうになんのかー。 知らんかった。「チャトニー」とゆうんだそうな。

まともな生活は、まずまともな食生活から。

きょうは久しぶりにブログロなことを書いてしまった。

(21:24)
さういえば、今日のミーチィングでは前のサトウ先生 vs. セキネさんの闘いが また (今度は Adam との間で) 起きていた。でも Adam の主張のほうがわかりやすい。 ようするに「すでに一般名詞まで入ってるんだから、固有表現と呼ぶな、名前を変えろ」 というんだから。だったら「Extended Named Entities」ではなくて 「Ad-hoc Named Entities」とよぶことにしたら??
(23:30)
見るんじゃねいよ馬鹿野郎。 このヘコリプ (ター) め!
(くるくる羽根を回しているという意味で)
(00:23)
あー、あー。新しいマイクのテスト。ひさしぶりに火遊び (長葱の切れっぱしをコンロであぶって「(匂いだけ) ヤキトリ屋気分」をあじわう、 その後むなしくなり自殺未遂する) をした。ここに記しておく。 そのあとゴハンをいて遅い夕食をとる (さっき食ったのは野菜だけ、 炭水化物は食ってなかったので)。っていうかこれは夕食か? 夜食っていうんじゃないか? 英語では今も evening なら夕食だが、 いまは midnight だよな。しかししかしさらに考える。 「3食」とゆうのはふつう 朝食 - 昼食 - 夕食で正規の [3度のメシ] と 呼ばれるんであって (whatever it is)、 「夜食」は“正規の食事” (whatever it is) としてカウントされないのではないか? だとすると、オレみたいに「(寝坊して)ブランチ - おやつ - オードブル - 夜食」をとる人間は、 じつは一度も“正規の食事”をしていないことになるぬではないか? →日本人失格。 つうか、実際には食ってるんだから、どうでもいい。またアホなことを書いた。

ところで )てくるで(、なにをもって「正規の食事」を定義するのだろう…。 病院の時間にあわせれば正規の食事かな。あれが標準なのかな。 だとしたら、正規の日本人は夜かなり早くネないといけなくなるな。 もう、ぬよう。

おや、また「ぬ」だ。またぬだ。またぬがきたぞ! たろうくんとたぬろうくん。そういえばあのマンガってまだやってんのね。 こないだ 1食でその存在を確認した。つうか、google で「がんばれたろうくん」で検索すると このサイトが 4位にランクインしてしまうのだが (4年前にもオレは同じことを書いていたらしい)、 あれってそんなにマイナーなんだろうか。

生協といえば連帯ですね。

(00:48)
さふいへば寝るまえにもうイッコ思い出したのだが (はやく寝ろ)、 おそらく長野の方言で、東京弁ではこういう表現はしないだろうと思われるものに 「〜だしない? (だよね? or じゃない?)」というのがある。 ひどいのになると「〜するしない? (するよね?)」とか 「〜しないしない? (〜しないよね?)」というのもあるからな (例: 「そんなこと普通しないしない?」)。ホントにだってば。 新山にとってはそんなにヘンでない日本語なのだが、 東京にいる間は長らくこの文法を使ってなかったので、 ひさしぶりに口に出してみると、この感覚は…微妙だ。なんか、古語っぽい。

Apr 05 [Mon]


(13:48)
信じられる? オレ、信じられない。
きっと、これはエイプリル・馬鹿にちがいないよ!
ちげえねえ。
四月といえば山男 (やまおとこ) だね。
(14:39)
7階フロアにエスプレッソ・マシンが入った。 が、使い方がわからん!
(15:30)
この前期の授業で使った (といっても一部しか読んでない) WebLogic や WebSphere や .NET 関係の本類をどうしようかねこりゃ。 かさねると 20cm ちかくもあるんだけど、 このまま置いといても読みそうにないし。売るか。
(19:38)
壁が頭をぶつける音が聞こえる・…‥。。

もしもっし

もそもっそ

(21:03)
自分が 10年ぐらい前に聴いてた曲をいま聴くとあまりにもガキっぽくて がっかりするが、1ヵ月ぐらい前に買った CD でもいま聴いてみたら 「なんだこりゃ」というふうになってるのは、こりゃどうゆうわけだろうね。
(00:53)
はーーー。 この 3、4日間ずっと「キーワード自動抽出ツール」を作っていた。 前野さんが Wiki をはじめたので、既存の html ドキュメントを変換するときに そういうツールがあれば便利そうだ、という話だったので。 やっとそれらしきものができたが、 とりあえず、適当に設定したスコア方式で新山の日記 (2003年分、HTML約1.6MBytes) から キーワードを抽出してみると、以下のようになった。 抽出された約 30,000語の中から上位 20個ぐらいを抜粋。 左はそのキーワードの「キーワードっぽさ (←どんな意味?)」、カッコ内 () は出現回数だる:
10.040071003 <Keyword: インターフェイス (17)>
9.53804175528 <Keyword: 自分 (741)>
8.6849994982 <Keyword: 人工無能 (5)>
8.61349595441 <Keyword: ネットワーク (74)>
8.52251070048 <Keyword: 計算機科学 (26)>
8.4427979183 <Keyword: 新山 (752)>
8.3246977399 <Keyword: 不思議な相関関係 (3)>
8.03736621691 <Keyword: 図書館 (49)>
8.0074613926 <Keyword: コンピュータ (68)>
7.98591690349 <Keyword: 言語 (283)>
7.88854254182 <Keyword: アプリケーションサーバ (3)>
7.7504210638 <Keyword: 基本的に (82)>
7.72772078649 <Keyword: 毎回毎回毎回毎回毎回毎回 (2)>
7.52182686454 <Keyword: 人間 (257)>
7.5214301973 <Keyword: スーパークリエイター (3)>
7.51863567874 <Keyword: フォント (91)>
7.35886849498 <Keyword: 過剰包装 (7)>
7.27142514538 <Keyword: 授業 (145)>
7.26639191062 <Keyword: 長野県中野市立 (2)>
7.26639191062 <Keyword: 宮沢賢治記念館 (2)>
7.19715414501 <Keyword: 自然言語処理 (16)>
7.15932250373 <Keyword: 日本 (662)>
7.14405526686 <Keyword: 名前 (151)>
7.13413230211 <Keyword: 日本語 (182)>

うーーーむ。どうなんだ? これは。いつもこういうのって、評価がわからん。 なんでもキーワードといえばいえてしまうような気がするし、 しかもちょっとパラメータを変えるとガラリと順位が変わる。こまったもんだ。

基本的なアイデアは、ウメムラ先生のところでやってる 「suffix array を使った (辞書を使わない) キーワード抽出」のパクリである。 ただし、真面目に全部の suffix を生成すると遅くってしょうがないので (全部 Python で書いているのだ)、語の境界を発見するところでは adaptation だけでなく、 「境界のあとの文字は分散しやすい」という特性も使った (このアイデアはまえ誰かに聞いたんだけど、だれだっけ)。でも、こんな方法が 本当に必要なのかどうかはナゾ。上のキーワードだって全部計算するのに 3分もかかっている。 これはひらがな文字列も単語境界として認識したかったからだが、 どーせほとんどの用語はカタカナか漢字なんだから、もっと簡単な方法でいいんではないか? ちなみに形態素解析を使う方法は、最初から考慮に入れなかった。 辞書がでかくて大げさなうえに、複合語をぼこぼこ切っちまうし、おまけに

$ echo ひらがなはむりなんだもん。 | chasen
ひ      ヒ      ひる    動詞-自立       一段    連用形
ら      ラ      ら      名詞-接尾-一般
が      ガ      が      助詞-格助詞-一般
な      ナ      ない    助動詞  特殊・ナイ      ガル接続
はむ    ハム    はむ    動詞-自立       五段・マ行      基本形
り      リ      り      助動詞  文語・リ        基本形
な      ナ      だ      助動詞  特殊・ダ        体言接続
ん      ン      ん      名詞-非自立-一般
だ      ダ      だ      助動詞  特殊・ダ        基本形
もん    モン    もん    名詞-非自立-一般
。      。      。      記号-句点
EOS

まあこれは ipadic にひらがなの見出し語が入ってないせいなのだが… (Juman の辞書にはちゃんと入っている)。個人的には たかが単語区切りのためだけに形態素解析を使うのは アホとしか思えない (にもかかわらず、他にまともな使われ方をほとんど されていないのだが…いったいダレのせいでしょうcaね??)。 で、ほかにも目標はいくつかあって、

というようなものをめざした。個人のドキュメントが対象なので、 文書数はせいぜい 1000程度、合計数 MBytes 程度のデータから抽出できればいい。 この路線でいくと、たんに一元的にスコアをつけるのはあまり賢くないかもな。 「多くのドキュメントで言及されている単語」とか 「ひとつのドキュメントに集中してでてきた単語」とかを別々にリストして、 そこから選んでもらったほうがいいかもしんない。 ちなみに単語インデックスは全部データベースとして持つようにしてあるので、 kwic みたいなこともできる。 しかしこれを Wiki と統合すんのはめんどくさそうだなあ。

どうでもいいが、MoinMoin がすげー多機能になってるのにびっくりした。 あれって、昔からあんなだったっけ?

(02:18)
kkonnna koto yattetara asuno ronbun yomno wasuretetayo.

今夜はめづらしく寒いんだよね。

(03:03)
そんなに Windows が安定してんならそれでお前のペースメーカー動かしてみろってんだぶつぶつ

Apr 04 [Sun]


(12:57)
なんだよこの天気…。まっくら。
(13:27)
さて、ある人から「iPod 買うんなら iPod Mini 買えやこら」というご意見を いただきましたのですが (本当はもっと丁寧な口調だったのだが、 新山の頭の中ではこのような口調に自動的に変換された)、ケッキョキ、 書いてみただけでたぶん買わないということになりそうな気がする。 というのは、さいきん電車ん中で音楽を聴きたくなることがほとんどなく、 かわりに論文を読んでいることが多いからだ。 「いらないものは (本当に必要になるまで) 買わない」というのは 新山家の生活者としてのポリシーなので、おそらくしばらくは iPod に類するものは 買わないだろうと思う。思うに、精神的に落ちているときは音楽に頼りたくなるような 気がするので、いまはそうではないのかもしれない。

ところで、新山はなぜか日本に帰ると太り、米国に帰るとやせるようなのだが (ちゃんと計測してない、あくまで推測)、これってこういうものなのかなあ。 なぜならこっちでは食い物がマズイので、調子に乗って食いすぎるということがないからである。 か?

(16:15)
きょうは天気がワルなので家から出ないことにしよう。 と思いつつ、がさがさと食べもの棚を整理していたら 「これ、いつのやつだ?」というピスタチオの袋が出てきた。新山はこんなもん買った覚えないし、 Navneet のものでもなさそうだし、だとすると Owen がむかし置いていったやつかもしんない。 ナッツ類 (ピーナッツとかカシューナッツとかの木の実のこと、およびそれ全体の種の集合、 こういうのをなんていうんだ日本語で?) は包含カロリーが高そうなので、 メシの代わりになるかもしれないと思い、 なんとなく食うことにする。そしたらかなり古かった。なんかところどころ変色してるし…。 これ、大丈夫なんかね? 食ってさ。野性のアーモンドはシアン化合物を含んでおり猛毒だという 話を聞いたことがあるが、ピスタチオも古くなると毒性が出るなんてことはないだろうな。 ジャガイモの芽みたいに! (でも調べてみたらジャガイモの芽はいくら食っても死ぬことはないようだった) しかし食うがね。結局。しかしアーモンドが食えるようになったのは歴史上で誰かが 「突然変異で生まれた毒性のないアーモンド」をぐうぜん発見したかららしいが、 そんなもんを最初に発見して食った奴はすげえと思う。 考えてみれば、なんでも「最初に食った」というのはスゴいですよ。 キノコ類とか今でも人死ぬじゃん。 今ではたいていのものは食べられるかそうでないかがもうあらかじめわかっているけれど、 むかしは賭けだったろうな。

ピーナッツのカロリーが潜在的に高いというのは、 むかし高校のときに生物の教師が授業中に実験してみせてくれてたことがある。 ようするに油分を多く含んでいるから火をつけると長時間燃えるのだ。 簡単だけど、これはカロリーとエネルギーの等価性を教えるのにいい方法だと思う。

そのあとまた棚を整理して、居間のテーブルを掃除し、 窓をあけてみると雨あがりで非常にいい匂いがした (厳密にいうと、この匂いというのは「なにかの特定の匂い」ではなく、 おそらく草木の匂いや気温、大気中のホコリや湿度による作用で鼻が感じる 「匂いといえばいえるようなもの」であると思われる、 これまた正確な言葉が見つからない)。

TODO: コーヒー豆/フィルターかうこと。

いやあ、ほんらいこのペエジはこういう生活上のメモっぽいことを 書く (はずの) 場所であったのだが、へたに抽象的なことを書くとまたアレなんだろうな (アレとはなにか言及を避ける新山)。

原則はあれから変わっていない。つねに、tangible な、実体のある、目で見えたり 手でさわれたりするもの・ことについて語ることだ。最終的にそれは自分の信仰でもある。 そして言葉にも「tangible な」領域というものがあり、 それをこえる単語は使ってはならないということなのだろう (あやしくなってきた)。 抽象的な議論を好んでする人々に“だけ”相手にされるようになったら 自分としてはおしまいだと思うので、そうならないように注意しなければ。

しかし、むかしは、西洋人って抽象的な議論が好きなのではないか? と思っていた。 でもこっちへ来てみたら感覚がちがっている。すくなくともアメリカ人は、 抽象化がスキというよりも、一般化がスキなだけのようだ。 彼らの文章の先にはいつも「具体的なもの」がくっついていて、 純粋に抽象的なことだけを語りたがる人々とは違う。でもヨウロッパ人はそうなのだろうか…? まえに (自然言語処理関係で) ドイツ留学してる人と話したのだけど、 新山が「アメリカは実用主義ばっかでときどき疲れる」といったところ、 向こうは「ヨーロッパの大学は理論的なのばっかで嫌になる」といってたな。 日本は、どっちともつかないのがいったりきたりしてる、という印象だ。

(17:28)
おいなんだ今頃になってテンキ良くなってきたぞ。
(17:49)
なぜか mainichi.co.jp がリニューアルしてて サイトがおかしくなってるまさにその瞬間を開いてしまいました土佐。
(19:03)
あれ、いつのまぬかもう夜 7時じゃん。 というか、昨日まで 6時だったのだが、じっさいには日本の感覚では午後 5時ごろの明るさに思える。 つまり、7時にしてはヒジョーに明るい。 ああこれからまた夏時間の日々が始まったら、日が暮れたころ家に帰って、 「げええっ! もう 10時じゃん! スーパーみんな閉まってる!! チクショウ」ということになるのだなあ。 「夏時間」という言葉のあかるい響きとは裏腹に、現実は 騙しと裏切りの日々なぬであった。 キミはわかっていないだと? オレはそうだよ、オレはわかってない。

えーとえーと、これからは日本との時差は 13時間になるから、 つまり日本ではいま朝8時なわけか。

(19:15)
おおそうだ何かヘンだなと思っていたら、まだリビングの時計が冬時間のままだったんだ。 どうりであっという間に一時間たったなと思った。

彼女はどさっと言った。
彼はぼとりと言った。

なにを言ったのか?

つまり其処には、こぼれ落ちるような重力的な言葉が在ると言う事である。

うぞぞぞぞ

(21:15)
ひまつぶし
(21:54)
SmoothJazz.com から懐しい曲が流れてきた。Dan Siegel の Feelin Happy という曲らしい。 なにが懐しいって、これはむかし長野のとあるテレビ局 (どこだか忘れた、 でも長野朝日ができるより古かったような気がする) で天気予報の BGM に使われていた曲なのである。 そんだけ。この放送局がいいのは、たまにむかし聴いたことがある曲が出てきて 「おっ、これ知ってる! 誰の曲だ?」というときにいつでも演奏中の曲が 見れることである (しかもお望みであれば Amazon で購入もできる)。 まあ、今回は買わないけど…。

しかしオレの音楽の好みって変わったのかなあ?

(00:19)
なんとなく沈んだ気分。それにしても、新山のひまつぶしは プログラムを書いたり文章を書いたり文章を読んだりなど、目を使うことばかりだ。 これではあした失明したら苦労するだろうよ。ふう。

Apr 03 [Sat]


(08:35)
お。うまく自動的に目がさめた。
(09:52)
dosa で思い出したが、そういえばまえに east village のなんとかいうインド料理屋で はじめて dosa を食べたとき、最初の印象は「なにこれ? 帽子?」というものだった (三角にまるめて立って出てきたので)。で、おかしいのが、となりの客もシゲシゲとオレの dosa を眺めていたこと。

いま知ったのだが、「しげしげと眺める」は漢字でかくと「繁繁と眺める」になるらしい。 これ、現在では「じっと見る」のような意味だと思ったが、もともとは「頻繁に」という意味だったのね。

(11:33)
てくるで、今回の入国審査にはえらく時間がかかった。指紋採取のためである。 9月からビザなしの日本人にも指紋採取が要求されるとのことで、 こりゃあこれからの米国入国には今までより大幅に時間がかかることになりそうだよ。 今回は United (専用) のターミナルを使ったのだが、にーちゃんが 「これ、やったことある?」と尋くので、「No」と答えると、 「とにかく強く押しつけてくれ」とのこと。中身は光学的スキャナーらしいのだが、 動いたりするとダメらしい。しばらくやってもダメだった。 するとこのにーちゃん、やおらカバンの中からなにやら DuaneReade 印の小ビンを出し、 そこには「Hand Sanitizer」と書いてある。
「消毒薬だ、これ指につけてちょっとこすって、細菌を殺すんだよ、べつに害はないから」
いや、害ないのはわかるけどさあ…。
「こんなんでうまくいくわけ??」
「うん、…ほら、いった」
「ふーん、よっぽどの高解像度で撮影してるに違いない」 (まだジョークをいう余裕がある新山)
「つぎ、左手も出して」
また同じことのくり返し。それにしても読みとりに時間がかかる。 指紋が終わるとつぎは顔写真だ。
「笑ったほうがいいかね?」 (ヒマな新山)
「んー、いや、結構、…オーケイ、これで終わり」

たぶん去年夏にきたときの 3倍くらいの時間がかかったと思う。 あきらかに外国人を入れたくないみたい。

(14:39)
つまりようするに、だ…

あ〜、なんか iPod (デカい方) がほしくなってきたっ。

買わないぞ! 買わないぞ!

(17:20)
あーードキュメンテーションが進まね〜〜〜

これは論文 (ろんぶン) が進まないのと同じことである。 よい説明というものは、あるときに「ぱくっ」と出てこないとだめで (← どう出てくるんだ? →)、 そういうひらめきがないと文章というのはいつまでたってもわかりやすくはならない (ああ、ひらがな多すぎ)。そりゃーもちろん、プログラムばっか書いてりゃ楽なんだけど、 それじゃただの駄目人間なわけよ。

新山の個人的な信念として、文章がヘタな奴はプログラミングさせてもダメだと思う (これは、よいプログラムをつくれないということだ… よいプログラムとは、問題が適切に分割され、仕事に必要な部分とそうでない部分をしっかり捉えおり、 わかりやすく直観的なロジックで書かれたプログラムのことで、 「パズル的で何やってんだかわからないが、それでも動く」プログラムは よいプログラムではない)。 米国でプレゼン能力が強調されるのは、なにも人を騙すため (だけ) ではないと思う。 人にわかりやすく説明する、しかも重要なことをごまかさずに説明するということは 結局のところよいプログラムを組むのとまったく同じことだ。プログラマの仕事とゆうのは 計算機に仕事を説明することにあるのだから…しかしまてよ。 そもそも計算機のプログラムを読むのは、ほんとうに計算機なのか? 結局のところ、プログラムは計算機を媒介にして最終的には人間に向かって語られているのではないか? ああ、これはちょっとした違いだな。つまり、プログラミングには 以下の 2つのとらえ方があるような気がする:

新山がどちらの立場かというと、とうぜん後者なのだが、えーとえーと。

プログラム中のコメントで比喩を使うのは、いいことだろうか? たしか Knuth がまえにそんなことをどこかで書いていた。 新山はわりと比喩を使うほうだと思うが、 そもそもこれはふだん物事を比喩的に理解しているくせがあるからで、 使いすぎるとワケがわからなくなるし、 …何言いたいんだかわかんないのでやめる。

なぜ自然言語では obfuscated な説明のコンテストをやらないのか? もうすでにやっている、ある種の分野では…。 obfuscated なコードは、人間は誰も理解できないが計算機はできるからゲームとして成り立つのだ。 これに対して obfuscated な自然言語の説明は、宇宙の誰も理解できない。 ただの電波コンテストになってしまう。

完全に復号できたらおもしろいだろうに。

(19:51)
NLP って何? という人のために。

NLP理論〜概要〜 (コミュニケーション・ラボ) によると「NLP は 1970年代にカリフォルニア州サンタクルーズで誕生し、日本では 1990年代より本格的に導入された」 のだそうです。また NLP HOME PAGE によると、 「NLPは心が持つ可能性を最大限に活かすための技術」だそうです。

たかが夜間発着訓練のくせに偉そうなこと言うな!

(21:24)
書きたくなくても書く。 帰りぎわに手元の時計 (腕時計ではない、安っぽいアナログ式の海中時計らしきものだ、$10 しない) を 見て「げっっ、もう 11時じゃん! いつのまにそんなにたったの!」と思った。

ら、まだその時計は日本時間のままだった。

思えば先週から何回も「あとで直そう」と思いつつ、直してなかったような気のする。 ずっと 2時間ズレた時計を見てたことになるが、慣れてしまうとこれでも平気になってしまうからすごい。

今宵はネギをしょって帰ってきた。

(22:21)
さいきん、ずっと LC_CTYPE に何も設定せずに使っているのだが (なぜなら LC_CTYP=ja_JP にすると sortgrep に死ぐほど時間がかかってしょうがないから! たぶん strcmp などを呼ぶごとにいちいち LC_COLLATE の順序集合をチェックしてるんだろう、 そりゃ遅いハズだ)、ぴちょん君で Unicode を表示するときに問題が生じることがわかった:
$ python -V
Python 2.3.3
$ python -c 'print unicode("あ")'
Traceback (most recent call last):
  File "<string>", line 1, in ?
UnicodeEncodeError: 'ascii' codec can't encode character u'\u3042' in position 0: ordinal not in range(128)
$ LC_CTYPE=ja_JP.eucJP python -c 'print unicode("あ")'
あ
どうやら locale が適切にセットされていないと、 デフォルトの文字集合を自動的に ascii にしてしまうらしい。 ところが、この機能は標準出力が端末のときしか適用されないみたいで、 標準出力がパイプならば ok なのである:
$ python -c 'print unicode("あ")' | cat
あ
ヘンなの…。
(22:31)
ああわかった。sys.stdout.encoding'ANSI_X3.4-1968' になってるだ。 これが原因だ。でも、どうやって直す? 代入しようとすると readonly attribute とおこらえてしまう。
(22:44)
へえ。環境変数 LC_CTYPE を変えずとも、起動後に端末のエンコーディングをなんとかして euc-jp にする方法は ないもんか? と思ってソースを追っていたところ、結論: ムリだということがわかった。 なぜなら、このふるまいは Python/pythonrun.cPy_Initialize() 230行目〜 に 埋めこまれてるからだ。しかも、ここで使われてる CODESET なるマクロに デフォルトのエンコーディングが入ってるらしくて、これは一体、どこで定義されてるんだっ!? と 必死になって探したがみつからず、結局これは Python の中ではなくて /usr/include/langinfo.h なるファイルで定義されていることがわかりした。 このファイルはシステムだから修正したくないとすると、残るは pythonrun.c を 書き換えてビルドしなおすしかない。くっそー。しょうがないから、セコい方法
alias python='LC_CTYPE=ja_JP.eucJP python'
に書きなおすか…。敗北だ。最初からスナオにこうすりゃいいのに、 しなかったところがなおさら敗北ってる。オレってこういう失敗多いよな。

しかし Python は初期化でトリッキーなこと (あとから変更できないような設定) をやってて好きじゃないな。 似たような例はほかにもある。sys.stdout のバッファリングを禁止する -u オプションだが、 これは frozenmain.c に埋めこまれているルーチンで、あとから呼び出せないのだ。 標準出力を一回 os.fdopen で unbuffered で開きなおしてから sys.stdout を 上書きすればできるにはできるのだけど、美しくないよね?

それにしても、すぐソースに頼るくせはやめなければならない。 大人ならドキュメントを読んでなんとかするのだ!

(00:55)
ところで (てくるで)、例のものはうまくいったんでしょうか?
(03:21)
気がついたら、自動的に夏時間になっていた。ガーソ。 ねる時間 1時間損したあ!!

Apr 02 [Fri]


(03:54)
また気が利かないことを言っちまった。だめな奴。
(16:59)
チキチキ マシン〜
チキチキ マシン〜
猛レぇーえす〜うぅ〜うぅ〜ぅうぅうぅうぅ♪
(17:46)
きょうは朝から偏頭痛のためずっとヘタっていた。 薬のんでトイレにいったらようやく治ったが、 最近の睡眠時間が狂っていることも災いしていると思う。 この週末になんとか直さなきゃな。朝起きるのが遅いとどんどんダメ人間化していくよ。

ところでいまふと気づいたが、西洋の「おまえはおまえ、おれはおれ」文化というのは racist であることをむしろ助長するような文化なのではないかと、なんとなく思った。

(18:54)
ふと、subversion を使ってみようと思いつく。ソースを落としてきて、 Apache 関連のライブラリが必要なことがわかり、5秒で挫折した。 おめー、トランスポート層は分離してくれよ。 おまけに本体もでかすぎる。なんでこんなにデカいんだ? ああ、ドキュメントがあるのか…。 しかしつくづく思うのだが、たかが個人作業のためにこれは オーバースケップ (オーバースペックの類語) だ。 もっとシンプルなのはないんかいな。スケールしなくてもいいからさ。

というか、いまでさえ cvs の使いにくさもじゅうぶんムカつくのだけど…。 新山が履歴管理したいと思っているデータは以下のとおりである。

ところが、これらのうちまともに cvs が活用できているのはほとんどない。 本当は home 以下をすべて cvs で管理できりゃーいいのだが、 ファイル数が多すぎてダメそうだし (あれこれな処理を施したコーパスや annotated data も入っているのだ)、 だいたいあんまりあちこち変更すると、 cvs の log が読めたもんじゃなくなるのだ。2週間ぐらいほっといて、 「さて前回どの作業をどこまでやったっけな」と思うと、もうダメ。 cvs からまともなサマリーを表示してくれるソフトって誰か作っていそうだけど、 なにがあるんだろ? Bonsai か? こんなのは大げさすぎる。

基本的に、新山個人が使うぶんには branch 管理はほとんど必要ないので、 ただ履歴管理だけしてくれればいいんだけどなあ。 そもそも「リポジトリに置かれている原本を (その構造は変えずに) 修正する」って RCS 由来の哲学がどうにも大げさすぎるように思う。 だいたい最初からデータの階層構造を決め打ちにできれば苦労はしない。 そんなもの、整理していけば日々変わるのよ。 というか、cvs とかいうのは計算機科学者の独特な病気が現れたもんだと思う。 つまり連中は「木構造がやたらと好き」なので、なんでもかんでもが 木構造の枠組みにカチっとおさまっていると仮定しがちなのだ。 でも現実には、そんなことはないんだよね。

(追記 00:06、つまり「体系的にきちんと構造化されてないドキュメント集合を管理する」という 新しい観点からのドキュメント整理・管理ソフトウエアが必要なわけだ。すでに誰かやっていそうだが、 論文やプレゼン資料やプログラムなどがめたくたに入った文書集合となるとどうかな。 のっぺりしたテキストの集合に限定してなら、すでにIPAの某プロジェクトで誰かネタにしていそうだけど)

(22:57)
ひさびすりに自炊。しあわせ。

ヘンなスペイン語の電話がかかってくる。何いってんだかわからんが、 「もし言ってることがわからなければ、ここへ電話くれ」という部分だけはわかる (そこだけ英語しゃべってるから)。うちの周りはヒスパニックが多いので、 この近辺を狙った電話宣伝攻撃だと思うが、しかし何やら "Jesus Christ" といってるのが聞こえるぞ。 あやしかりける。

(23:27)
time.nist.gov が止まってるみたい。
(01:11)
何をひらがなで書き何を漢字で書くかは、人によってちがう。 たとえば新山は「わかる」は決して漢字では書かないが、「思う」は必ず漢字で書く。 「ちがう」は時と場合によって漢字になる。これは文章の指紋ともいえるのではないか。 とくに「思う」には個人的にかなり強い癖を感じており、これをひらがな表記すると 非常に厭味っぽくなるので、新山はめったにやらない (これを平気でひらがな表記できる人とはおそらく仲良くなれないだろう、たとえば司馬遼太郎とか…?)。 だが、なぜそう感じるのかはわからない。なにがそんなにイヤなのだろうか。

おもうおもうおもうおもうおもう
おもいますおもいますおもいますおもいます
おもっておりますおもっておりますおもっておりますおもっております
ぼかあそうはおもわないねぼかあそうはおもわないねぼかあそうはおもわないね

何かを代弁しないこと。誰にも共感されないこと。

これは孤独であるとか、異常である (?) ということを意味しない。 「そこ」に置かれているものを仮定しないということである。意味不明。

思うに、何かを誰かにかわって代弁したり、誰かに共感されはじめると その文章には期待と義務が生まれる。そんなものは生まないことだ。

(追記、「まもる」はどう考えたってひらがなのほうがいい。 「守る」ではちっともまもっているような気がしない)

(02:30)
この窓から月は見えないはずなのに。

今日のウラシマ効果: 地下鉄の帝都なんとかかんとか営団 (「帝都」と「営団」しか覚えてない) が 「東京メトロ」なんちゅう、対称ロマン風味の名前になったことをいまさら知った。

ってこれ、そんなに古くないのか?

Apr 01 [Thu]


(09:28)
よろよろ。よろよろよろよろ。
(12:30)
つまり、多くの人には「理想の自分像」があり、 それとのギャップのためにみんな悩むわけである。

新山の理想の自分像? は、あまり先例がないのでよくわからないなあ。 オレが知っている既存のどの像もいやだ。

もちろん、あなたの場合は運命というものを信じています。

(14:40)
Dosa はどうやって食うべきなのか? 付属品が、あのカレーっぽいスープみたいなやつと、 ダイコンおろしっぽいやつの 2種類あるのだが、 いまいちまともな食be方というのがわからんな〜。

ちなみに新山は、オフィスで箸を使って食っている。 日本人だらば、いついかなるときも箸ですよ! ちなみに、きのうもケーキを箸で食った。 インド文化がいかに古かろうとも箸だけは極東のほうがまさっている。 これはゆずれないね。しかも、中国の象牙バシはダメ (ワシントヌ条約定食!!)、 韓国の鉄バシもダメ (熱電導性良好!!)、日本の木製バシが 世界でもっとも先進的なマニピュレータ! なの! です。うん、これはゆずれない。 おれはアホ。

(16:55)
いま考えた替え歌:

もっく、もっく、曜日、曜日、らん、らん、らん ♪

―― ここに 7つある曜日のうちいくつかを適用する場合、 これは「木曜日」が最適な言いかえ候補であることに注意されたい。 なぜならば、これに適用さるる曜日名はまず 2モーラである必要があり (従って火曜日と土曜日は自動的に除外される)、なおかつ 2つの音の間に 自然な促音が挿入できなければならないからである (したがって水曜日と金曜日も除外される、 「すっい、すっい」や「きっん、きっん」ではあきらかにおかしいからだ)。 すると残るは日曜日と月曜日、そして木曜日であるが、「げっつ、げっつ」は あまりにも音がキツすぎて場の雰囲気に合わない。かといって日曜日にすると あまりにも普通すぎて面白味がない。結果的に「木曜日」が最適となるのである。 Q.E.D. ――
(20:26)
うわあ、ヘンな会議があるぞ。

The First Conference on Email and Anti-Spam (CEAS)

(21:59)
ハラへった…。今日じゅうに公開はムリそうなので帰る。

あとはドキュメンテーシォンがね。

(22:53)
家の近くの暗い道 (まえに襲われたところ) がまた暗かったので、 今日はぼくは目を皿のようにして歩いた。ここはときどき、 黒人が予期せぬところにいきなり立ってこっちを見たりしているからおそろしい。 ハテ、ところで「目を皿のようにする」というのは、目を皿のようにまんまるに 見開くとう意味か、それとも目を「皿のように細くする」という意味か? 近眼の場合は後者である。のかもしれ。

目 → 皿 → 目 → 血 (ころころ)

(00:05)
どっか遠くへ行ってしまっているね。

Yusuke Shinyama