あんたの考えてることなんか、
(ケッキョキ、rpm2targz を使ってインストルーしました。 やっぱりみんな同じことを考えてんだね。)
そんで試しに起動してみたら、あいかわらずドローイングツールは使いにくい。 Illustrator 系に慣れている人にはこのベジエの接線指定が Adobe と逆なのは堪えられないと思う。
きょうは、すばらしい天気だ。カラっとして寒すぎず、ほどよく雲もあって、 もしオレがまだ大田区に住んでいたらきっと多摩川ぞいの堤防に出かけたくなるような午後である。 ああいう景色って、しばらくお目にかかってないもんなあ。
ときどき「我ながら何であんなに必死にだったんだろう?」って思うときがあるよね? いまがそれだ! 必 死! つまり、 あんなに == 今 で、ある。 自己を客観的に重視することは重要だが、この傾向がすぎると優待離脱するのでねんのため。
先週、ようやく雨がやんだと思ったら、ここ数日は風が非常つよい。 こっちじゃ冬もこんなだからな。といっても最近は昼間ちょうどいい気温で、 明け方はすこし寒くて、ようやくオレの好きな季節がやってきたか! と思うと平和な気分である。
てくるで (ところで、) ここんちのエレベータは最近、 前にもましてヘンな動きをするようになってきたのな。大丈夫かな。 なんか、動いている時に上下に「わんわんわんわん」と振動するように動くのだが、 なんかヤバいよ! 新山はなるべくエレベータやエスカレータを使わないような 生活をする癖があるのだが、このビルでは降りるときは非常階段が使えるのだが、 昇りの時は扉がシャットアウトされているのでエレベータを使うしかない。 といっても、新山がエレベータを使いたがらないのはべつに信用していないからというよりも 健康上の理由なのだけど、このビルではホントにエレベータは信用しないほうがいいような気がする。。。
よーーーやく技術的にヤッカイな部分を組み終わって、 やっと仮の結果が出せるところまできた。長かった。しかしまだ メタクラスタリングに使う類似度がアホっているために、トンでもない結果が返ってくる。 原始クラスタがでかいものの組ほど類似度も高くなってしまう。うまく正規化できていないらしい。 何かを何かで割らないとだめだが、今日は別のロジックで十分頭を使ったので、 これについてもう考えたくない。このあとは怒涛の「素性チューニング」段階に入る。あーやだやだ。 とりあえず、元記事のダイジェストをすべて印刷して、すぐに参照できるようにしとかないとダメだな。 それから、「これはうまくいくはず!」というケースをまず見つけること。これからが正念場だが、 いやはや、こんだけのデータを扱うのは大変だ。
この手法の美しいところは、IE が「クラスタリング問題」に帰着できるところにある。 なぜなら個々の素性は実際にソレであるからで…。ただし個々の entity の対応関係をつけるために、 resolution のようなことをしなければならない (もともと同様の操作は従来の IE でも必要であったが)。 そして調整できるパラメータは、うんざりするほど沢山ある:
これがうまく行けばかなりオモロイ論文がかけるんだけどなあ…。
もちろん、誰にもわからないように書いてあります。自分自身にも。
しかし、もはや誰もこれが言いかえの研究だとは思うまい!
こういう名前のお笑いグループがいたら面白いと思う。
あれまあ、Snort がやられちゃあ本末転倒だね。
てくるで、全然知らなかったのだけど GNU Radio ってすごいな。 これはソフトウェアで無線の変調までやってしまうというものだが、 ついに計算機の速度もここまできたか。 これはネットで核兵器の作り方なんかを公開するよりもずっと強力かもしんない。
うん、特定の地域に限れば、そんなに無理な計画でもなさそうだな。
</lol>
いっぽう、工学ではなく科学の研究の場合、 「できる」よりも「わかる」に主眼が置かれるような気がする。 べつにここでは両者の違いをいいたいのではなく、 何が「できる」ようになるのかわからない工学の研究など研究に値しないということ。
ところで、新山が携帯電話を一度も持ったことがないからといって、 まるですべての新技術を拒否して生きているかのように言われるが、そうでもないよ。 AirPort や iSight はかなり初期のころに買ってるし、 iPod nano は欲しいし、やべえ Apple 製品ばっかりだ。 しかしいつも思うのは「みきわめ」が大事だということである。 新山のテーマは基本的に「質実剛健」であるが、ある新技術が自分の人生哲学に 合っていれば新しくてもとり入れるし、そうでなければその他の物質的メリットには ほとんど何の意味もない。なぜなら人生は暇つぶしのための暇つぶしなんであって、 ほかに点数はないんだから!
花、買わなきゃね。
以下、新山の偏見による Slashdot 内のコメント抜粋:
Slashdot のコメントもこうやってみるとそんなに大したことないな…。
いや、実際、まだ試してみるべきアイデアは沢山あるし、 そのうちいくつかは本当にうまくいくかもしれない。 しかし何がどうなろうともインチキのそしりを免れることはできないけど、ね。
ひとつ人生の目標をあげるとすれば、
(ピーーーーーーーーーー)た挙句、
本当に(ピーーーーーーーーーーー)というものだが、
これがなかなか難しいんだぜ。なにしろ魚の骨は細かいからな。
みのるよ、いろいろあって、今月は日本に帰るわけにはいかない。 しかしオレは真剣に (0.65 ぐらいの真剣さで -- これはかなり高いほうだ) すまないと思っている。
たぶんきみはオレのことを、しょうのないやつだ、と思っていることだろう。 でも、ある意味、いかにも新山らしいとも思っているんじゃないかな。 オレはいつも浮いていたから。 きっとこれがオレのキャラクターなのだろう。だから、あんまりオレ自身は 深刻になっていない。でもとにかく、せっかくの機会なのに、みのるを含む みんなに会えないことはとても残念だよ。
大学に入学した直後、おまえがオレに対して口にした言葉をオレはいまだに覚えてるぞ。 やつは新山をうさん臭そうに眺めたあと、一言「おまえ、田舎モンだろ?」と言ったのである。 たしかにそのとおりなのだが、そしていまでもオレは十分に田舎者なのであるが、考えてみりゃ、 藤沢市の住人ごときに田舎モン呼ばわりされる筋合いはないのだ。 だがおまえのこの発言は許すことにしよう。 というわけでオレが披露宴に行けなくてもどうか許してやってくれ。
いや、それにしても、いつかこんな日がくるなどと、あの頃の誰が想像した? あれほどアホらしい生活はなかったからな。オレはまだあの頃と同程度のアホらしさを保っているけど、 ほかの連中はもっとずっと大人化しているんだろうよ、お前も含めて。 これがいいことなのかどうだか知らないが、とにかくこれでいいんだとオレは信じる。 なにが言いたいんだかわかんなくなってきたのでやめる。
彼がこのページを見るとは到底思えないが、 たとえ誰にも見られなくともオレはここに書いただろう。
やっとコンパイルが通ったら、
こんだは Overfull \hbox
が出て、文字が紙からドハミ出る。
もういや。
今月の電話料金の請求書がきた。
Verizon charges
BASIC CHARGES
Basic service includes all charges that are regulated by
the New Jersey Board of Public Utilities, such as
the line charge, local calling, etc.
These monthly charges are for your service from Oct 7 to Nov 6
INDIVIDUAL FLAT RATE RESIDENCE ..................... $8.95
NON PUBLISHED TEL LISTING .......................... +1.45
FCC Subscriber line charge............................... +6.28
Federal Universal Service Fund Surcharge................. +.65
911 System/Emerg. Resp. Fee ............................. +.90
Federal tax.............................................. +.52
NJ Sales tax............................................. +1.04
___________________________________________________________ ____________
Total Verizon basic charges $19.79
NON BASIC CHARGES
Subtotal of Verizon Long Distance calls $.10
International Plan +3.00
Federal Universal Service +.40
e-Values Plan +1.50
Federal Tax +.15
State and Local Tax +.30
Total for Verizon Long Distance invoice charges $5.45
___________________________________________________________ ____________
Total for Verizon Long Distance invoice $5.45
Totals $25.24
このひと月、オレが電話したのはある人の携帯に 1度だけである。 それで月 25ドル。まあ NTT の基本料金もこんなもんだろうケド。
どうでもいいけど、去年買った 160GB のハードディスクは 1年間差分ダンプしつづけても まだ 14% しか使っていない。これじゃあと 2〜3年は大丈夫だな。そんなにマシンがもつのかどうか知らないけど。
この TypeError はシーケンスのかわりにゲネレータが見つかったからではなくて、 人工的に生成されたPython 2.4.2 (#1, Oct 14 2005, 16:08:57) [GCC 3.3.6 (Gentoo 3.3.6, ssp-3.3.6-1.0, pie-8.7.8)] on linux2 Type "help", "copyright", "credits" or "license" for more information. >>> def foo(x): raise TypeError('foo!') ... >>> ' '.join( foo(i) for i in range(10) ) Traceback (most recent call last): File "<stdin>", line 1, in ? TypeError: sequence expected, generator found
TypeError('foo!')
のためである。
だからこれは関数 foo()
の中にトレースバックするべきだ。
こいつのせいで、ジェネレータの中で TypeError を出すバグがいつまでも発見できなかった。
ちなみに TypeError 以外のエラーはちゃんとトレースバックされる:
いちおう sf.net にレポートしといたけど、わかってくれるんかいな。>>> def bar(x): raise ValueError('bar!') ... >>> ' '.join( bar(i) for i in range(10) ) Traceback (most recent call last): File "<stdin>", line 1, in ? File "<stdin>", line 1, in <generator expression> File "<stdin>", line 1, in bar ValueError: bar! >>>
key
なんてオプショん引数が追加されてるのをいまごろ知った。
すばらしい! これがあれば今まで
とかやっていたのをsort(seq, lambda x,y: cmp(x.value, y.value))
とかけるではないか! どっぷり。sort(seq, key=lambda x:x.value)
そうだ、これだよ。思い出した。これだったんだよ。
まず最初のやつは学科のトーク:
これは光ファイバーネットワークでいかに効率よくリソースを割り当てるかという話。
つまり、現在は光ドメインだけの (電気信号への変換が必要ない) スイッチングが可能になったので、
光をつかったルーティングを考えようという話。電気信号と違って、ファイバーの中には
複数の波長の光が通せるのだが、いちど出した光はなるべく持たせたいので、
これはグローバルなプラニングを必要とする。あるネットワークトポロジーが与えられたとして、
これを最大限に利用するためにはどのような割り当てをおこなうべきか? というトークだった。
ほとんどはグラフ理論の話である。しかしトポロジーが単純なケース
(わっか状とか) だと話は簡単なのだが (それでも NP-hard だ)、トポロジーが現実のネットワークのように
複雑だと NP-hard よりもさらにさらに弱い上限しか示せない。一定時間のうちに処理しようと思うと
これは log-log オーダーになってしまう。それで? それじゃまずいね、というのがトークのほとんど
すべてであった。実際にはもっとバカなアルゴリズムを使ってそこそこうまくいく方法を考えなきゃいけないし、
これは理想化されたケースで実際にはまだすべての箇所で光ルーティングが使えるわけではない
(この装置は非常に高価らしいので)。
COMPUTER SCIENCE COLLOQUIUM
Friday, October 14, 2005 11:30 A.M.
Room 1302 Warren Weaver Hall
251 Mercer Street
New York, NY 10012-1185
Speaker: Lisa Zhang, Bell Labs
Title: Optical Network Design: Theory and Practice
で、次のトークは NYCえぬLP:
なんと、本物の「モナー」さんですよ! …それはどうでもいいとして、
WSD (大量破壊平気ではない) の性能向上のためには supervised learning のための
データが不可欠だが、これはすべての言語でたやすく手に入るわけではない。
で、彼女はアラビア語ネイティブなので (ま、英語バイリンガルのようだったが)、
Arabic Wordnet をどうやって機械翻訳と単語アラインメントで人手をかけずにつくれるか、
そこから学習データをつくるにはどうするか、という話だった。
WSD というのは、たとえば翻訳ソフトで "bank" という単語を
訳すときに、この文章の前後に cash とか cheque という単語があったら bank は「銀行」だと解釈し、
そうでないときは「土手」の意味と解釈する、というインチキ技術のひとつである。
まあ、新山は WSD についてはほとんど素人同然の知識なので「あ、そう」という感じ
(おなじ言語処理をやっていてさえ、こういうときには断絶を感じる) だが、インチキはインチキだ。
で、トークそのものはどうでもよかったのだが、アラビア語に関する話はおもしろかった。
セム語系の言語はよく非常に難解とされるが (そのムズかしさはスラブ諸語の比ではないらっし)、
アラビア語には英語ではすでに失われた "root" という概念がまだ生きている。
つまり、ある一定の概念をあらわす子音のセット (たとえば、「書くことに関連したこと」なら K-T-B)
というものが存在し、「本」「作者」「事務所」などはすべてこの子音を含むように設計されているというのである
(これらの実際の単語を root に対して lexeme と呼んでいた)。へー! そりゃすごいね。
アラビア人というのは体系にこだわる民族とみた。加えて、語活用が日本語なぞよりずっと複雑なので、
辞書をどうやってつくるのかにさえ悩む始末である (見出し語を root ベースにするか、
lexemeベースにするかでさえ、意見の対立があるという、そしてこの間のマッピングは規則的でない)。
Automatic Resource Acquisition
Mona Diab
Columbia University
Friday, October 14
2:30PM
Room 102
Weaver Hall
251 Mercer Street
追加: not の処理! というか、動詞にかかる副詞のうち not は完全にものごとを否定するので致命的に重要だが、 ほかにもほとんど否定の副詞ってあるよな。barely とか。 この手のやつをまともにやるのは死にそう。 もう適当に決め打ちしちゃえ。
追加 その2: それから GLARF においては句の head は一個ではないのだよ。 だから関連する thread をとるときはグラフ上の path すべてをたどる必要がある。 あーめんどくさ。
しかし実際にはここに("seldom" "rarely" "nowise" "not" "no longer" "never" "barely")
hardly
が欠けている。
おそらく COMLEX の辞書をつくるときに見落としたのだろう、という。
これははっきりいってインチキなのだが
(なぜなら "not" と "hardly" は厳密には同じ意味でない)、
そのへんの差はもう無視しちゃえということで。
(ついき oct 15: 産着じゃなくて産湯だった)
ところで、この映画では「馬鹿!」ってセリフが非常によく出てくるが、
これの英訳は "fool!" らしい。
例: "He is a fool. He is a real fool."
「馬鹿だねえあいつは、ほんっっと〜〜に馬鹿だね」
(寅次郎がいないときのおいちゃんのセリフ)
例: "You have no place to go! You fool!"
「行くとこなんてないんでしょ! お兄ちゃんの馬鹿!」
(寅次郎が出ていくときのさくらのセリフ)
それにしても、倍賞千恵子が若くて驚いた。 新山にとっては、バファリンの宣伝とかに出ている 「お母さんイメージ」の女優だったので。
雨の日はヒャックリが出やすいという法則でもあるのだろうか?
それにしても今日はひどい天気だなあ。さむいし…。
やったこと:
ところで、きのうメーリングリストで ethtool というのを教えてもらった。
きょうやったこと:
-load
引数で指定したファイル中で
実行エラーが起こるとそのファイルを「なかったこと」にしてしまい、
次のコマンドライン引数を勝手に load
しようとする。
腐ってるね。 Python と比べると、Lisp は圧倒的に UNIX と親和性がわるい。
もともとシェルスクリプトから起動するようにはできていないのだ。このへんが「Lisp がムカつく理由」の
第437番目である (すでにこれ以前に 436個のムカつきが存在するがそれを書くにはこの余白は大きすぎる)。
/etc/modules.conf
もろもろを修正し、Adam に GLARF まわりのエラー報告
(それとこれとは関係ないがなぜ同じ項目? オレの勝手田)。
ヤルコト (γ-版):
しかし、他人様から「興味ぶかい研究ですね、もっと詳しく話を聞かせてください」と言われても、 「ホントにこんな研究おもろいの? 紙クズ以下じゃん!」と本音を言えない哀しさ。 新山は自分の研究が本当にドつまらない、 こんなの面白いと思うやつはどうかしている、と本気で思っているので、非常に疲れる。 「な、つまんねえだろ? もうほっといてくれよ」という雰囲気にどうしてみんな気づいてくれないんだ? …ああそうか、ここは空気を読まない国だった。以下略
(まったくの部外者が「面白い」というのはわかるよ、まあ物珍しいからな、 しかし同じ言語処理をやってる連中なら、オレたちが動いている空間のせまさを 実感しているはずだ。組み合わせは無限にあるが体積は非常に狭いというこの空間を)
ところで今日は「ガキのころに使ったコンピュータ」の話で盛り上がっていたが、 新山は日本なら 30〜40歳ぐらいの世代の話についていける自信があるが (自分と同じ歳ではすでにほとんどの人がパソコンから始めた世代だが、 オレはワンボードマイコンを知っている)、 こっちではみんな最初にいじったのが Sinclair ZX Spectrum で、 16K拡張 RAM パックがどうたら…という話だったので、あんまりついていけなかった。そのあと 「お前、日本人なら "Star Blazer" 知ってるだろ? あれはいいアニメだったよなあ〜!」と言われる。へ? 何それ? と思ったら、じつは「宇宙戦艦ヤマト」のことだった。80年ごろに米国でも放映してたらしい。 ぜんぜん知らん (うちはテレビがないという変態家庭だったのである! ワンボードマイコンはあったのにね…)。しかし彼らによれば「登場人物がアメリカ人みたいだった」そうな。