2006年 1月 (2)。

今日は首をかしげること 35回。

Last Modified: Sun Jan 22 00:19:28 EST 2006 (01/22, 14:19 JST)

Jan 21 [Sat]


(12:02)
ha! 10センチで大雪!
(00:17)
神様「お前は、何を待っているのだ?」
新山「わたくしですか?」
神様「うんうん」
新山「バックオーダーした InterMetro の部品がさっさと配送されるのを待っています。 あれがないとラックが組み立てられなくて、サーバを動かせないんですよ」

Jan 20 [Fri]


(11:20)
さいきん、モノを食っているときに Adam がやってきて早口で何かワーーーっときくので、 「食いながらしゃべる」という事態になってしまうことが多いのだが…。

いいわけ。

(12:14)
getopt.getopt について再考。 新山は多いときで 1日に数個のスクリプトを書くのだけど、 getopt-template.py なるファイルを用意しておいてつねにそれを 使うようにしている。これはこれまでにけっこう変遷してきたが、 いまは以下のようなパターンになっている。
#!/usr/bin/env python
import sys
stderr = sys.stderr

def main(args, output=None, debug=0):
  return

if __name__ == '__main__':
  import getopt
  def usage():
    print 'usage: %s [-d] [-o output] [file ...]' % sys.argv[0]
    sys.exit(2)
  try:
    (opts, args) = getopt.getopt(sys.argv[1:], 'do:')
  except getopt.GetoptError:
    usage()
  (debug, output) = (0, None)
  for (k, v) in opts:
    if k == '-d': debug += 1
    elif k == '-o': output = v
  main(args, output=output, debug=debug)

まず最初の if __name__ == '__main__': の中で コマンドラインを処理する。オプションの使い方がなってないときは exit(2) を返す。 (エラーの種類によってプロセスの終了状態を変えるのは djb の影響、 ちなみに彼はメモリ割り当てで異常終了したときはなぜか必ず 111 を使う。) コマンドラインでのオプションは、関数mainに対するオプション引数と同じにする。 それから重要なのは、かならずデバッグ機能をコードにつけるということである。 これは、最初は単に「debug モードか否か」で True/False のみにしていたのだが、 最近ではデバッグレベルを可変にすることのほうが多くなった。 こうすると -d -d -d のようにオプションをいくつもつければ デバッグレベルを上げることができる (この方式は OpenSSH からパクった)。 もちろん、これは以下のように使うのだけどね:

if debug:
  print >>stderr, '...'

sys.stderrstderr にエイリアスするのも デフォルトになった。これも、もともとはどっかのコードを見て参考にしたものだと思う。 結局のところ、あるプログラミングスタイルの確立というのは 文体の確立とかなり似ている。あっちこっちのコードから「あっ、これ、いいな」と思った 部分をパクってきて、それを寄せあつめたもの…といえば聞こえは悪いけど、 そういう影響の集合を「個性」とでも呼んでいるわけだ、わしらは。 そして文章屋がとにかく多くの文章を読んできているのと同じように、 プログラムもまた「教養がものをいう」もんだと思うわけよ。 これは一度覚えてしまえば終わり、というものでなくて、スタイルの調整がつねに必要だ。

よくプログラミングが「教養の一種として」教えられることがあるが、 「教養の一種としてプログラムを書く」のは、「教養の一種として小説を書く」のと同じくらいヘンテコだ。 そもそもプログラミング自体が巨大な教養のカタマリだということをわかっていない人々が まともにプログラミングなんか教えられるワケがないだろう。

(13:51)
デッカイ物体が左から右へ通ったときには、 右からなにか別のものが現れるということはないと仮定できる。
(14:47)
1日最高400万件の約定処理 (トランザクション?) が可能だという東証の処理能力ってどんなもんなの? このページによると、立会時間は 4.5時間 = 16200秒だる。 つうことは 400*10000/16200 ≒ 247トランザクション/秒。 とはいっても、実際には 1件の売買が成立するために必要な データベースはいくつもあるだろうから、 低水準のトランザクションがこの数十〜数百倍のオーダーであるにちがいない (といっても新山は株がどうやって取り引きされてるのか、ぜんぜん知らないけど)。 NYSE や NASDAQ ではどうなのか。 NYSEのこのページ によれば毎秒 4,000メッセージと書いてあるけど、詳しくはわからず。

それにしても今日はあったかいなあ。これまた…

(19:54)
今日は、自分でつくったクラスタラー (← これまた勝手な名前) の性能を測定してた。 前例がないので、テスト用データの key も全部自前作成だる。 いやーー、こういうのってまったく大変っスヨ。 すでに出来あいのデータだけを使って実験できる人がうらやましいよ、まったく。 で、クラスタ全体を測定するのは無理っぽいので、各記事間のリンクの正解率を測定する。 100 の記事対 (つまり記事は 200個) をランダムに抽出し、 それにラベルをつけてこれらの類似性をみる。 つまり 200個の英文記事を全部読んで、同じイベントについて述べているかどうか 判定するんだよ、オレがね。 途中で休憩を入れても最後のほうになると頭クラクラしてきた。 オレはこういう単純作業がダメなんだよ〜。 んで、このとき実際に計算された類似度は隠しておく (でないと blind test にならない)。 結果は しきい値=0.4 あたりのときに F=0.75 だった。でも、これがいいのか悪いのかわからん。 アホみたいに悪くないが、べつによくもないという印象。 元データがかなりアレなのもあるからなー。これは Webstemmer のせいなのだが、 こいつもいずれ直さなきゃなんない。

しかし、このまえの高速化のおかげで 全部 Python にもかかわらずスピードはそれなりに速い。 これまでに取ってきた 20万記事ほどのクラスタを作成したが、1日で終わった。 あれから、GETA とかはもしかして似たような高速化やってんのかな? と思って ソースを見てみたが、ふつうに全部の要素を計算してた。にもかかわらず 単発の速度だけを見ると GETA のほうがはるかに速い。 でも、全部オンメモリでやってるから要素が増えてくると爆発するんだけど。 こっちは「連続運転」と「クラスタGC (一定時間変化しないクラスタは死んだとみなして除去する)」のサポートがキモだからな。 Google News とかも似たようなことをやってると思うのだが (連中の場合は 1日で数万記事を扱うわけだし)、 もしかすると彼らはマシンがあるので全部バカ正直にやってもデキちゃうのかもしんない。 おそろしいことよ。

で、新山の場合、ここまではまだ初期の初期のステップにすぎない。 ここからまだ長い長い処理過程があるのだ…。もういや

明日からは Lisp 地獄になる予定。 おっと、明日は週末だった。図書館いくぞ!

(21:35)
てくるで (ところで)。

今日なにげなく見かけたこのニュース: 米グーグル、政府によるネット検索情報開示要求を拒否

このニュース自体は昨日の slashdot ですでにやってたが、この日経の記事には 「『利用者のプライバシーを侵害する』として要求を拒否。」とある。

ここでツウちゃんねる風の演出をさせていただくと…

> 利用者のプライバシーを侵害
> 利用者のプライバシーを侵害
> 利用者のプライバシーを侵害

だって。 お前ら、ユーザの検索キーワードをスクリーンセーバにして表示させてたくせに、 よく言うよ。Google って、こういう話になるとホントにしょーもない会社だな。 正直いって、新山は現在の Google のサービス的にはほとんど不満はない。 情報検索をやっている人の中には、「Google なんかダメだ」という人がけっこう多いのだけど、 下手に賢くなってくれるよりは、永久に今のままでいてくれればそれでいい (どのみちこれ以上劇的に改善することもないだろう)。 しかしこういう話をみるにつけ、やっぱ大きくなった会社はアホってくるのか、と思う。

DDI. (どうでもいい)

Jan 19 [Thu]


(08:04)
傍点への偏愛を語る。 HTML で傍点が使えないことは残念だ。非常に残念だ。 傍点のなにがすごいかっつうと、日本語の文章についている傍点を見たとき、 それは単なる強調を超えた、なを含んでいるように見えるからである。 アンダーライン強調では、 決して傍点のあの 厄 ぶりは表現できない。
(11:08)
ライブドアってライフスペースの親戚?

たべぐし

(14:29)
釣った魚 ← 餌 →

うふっちょ

←   餌 → 
(14:45)
「Unix風・日本語」という考え。

ls (留守)。

q4rc (急用rc - 緊急避難手順のこと)。

dd bs=8 (どうしても-できない、8時のバス)。

mk3k8 (桃栗3年火器8年)。

(17:46)
kludge のことを fudge (でっちあげ) という人もいる。
(22:09)
ひさびさの授業に出た。ものすごく混んでた。やってることは面白そうだが、 よく考えてみたら似たような授業をすでに学部んときに取ってたような気のする (たしか数値計算法、とかいったたぐいの)。月曜日はもういっこ別なの出てみるつもり。

そのご 8st. の Eva's で菜食な食事をして帰ってくる。 スズキと児島から年賀状が届いていた。児島が結婚したというのは このまえ日本に帰ったときに聞いたが、あんな甲斐性ないヤツが結婚して大丈夫なのか。 小林によると最初の 3ヵ月で年休を使い果たしたというが (しかも休んだのではなく全部遅刻が原因らしい)、 まあいいや、どうでも。つうか、おまえ、 例のメーリングリストが送信されてるアドレス見てねえだろ。 ばーかばーか。いや、とにかくご結婚おめでとう。

(23:41)
不可能を可能にするのと可能を不可能にするのとどっちが大変??

Jan 18 [Wed]


(06:38)
さいきん、どうも寝る時間が異様に早い。べつに時差ボーなわけではないのだけど (なぜなら、寝ようと思えばいくらでも寝ていられる)、なんか晩飯を食うとすぐにネムネムくなってしまい、 起きるのは早朝になる。おかしい
な。
(08:59)
あめあめ。

そういえば、 こないだ日本に行ったときに撮った写真。 「エサをあげないことが愛情です」か。 それはたしかにそうかもしれんが、どことなく思考が短絡的で笑える。

どうでもいいが、日本ではすべてのデジカメは携帯電話にリプレースされていた。

(13:51)
中国語の方言について知った、いくつかの事柄:

しかしこれほど方言がこまかく区別できるというのはすごいことだ。 たとえば長野だと、北信と東信でそんなに目立つほどの特徴差はあるだろうか? まあ、もともと長野はどこも東京弁とあまり変わらないのでアレかもしれないが。 それでも中国では方言を保護しようとする風潮があるのは日本よりエラいな。 (ほかの部分ではあまりエラくない国だけど)

(14:16)
よぅーやく晴れてきたようでありま し

それにしても、FreeBSD の ports では ぱいがめ はなぜか py-game って名前なのな。

量子雑音量子化雑音。 似ているようでも大きく違う。

(16:44)
修理に出していた PowerBook がもう戻ってきた。実際には、コワれてなかったらしい。 AirPort を認識しなかった原因は、 中で AirPortカードのケーブルが外れていた、んだと。 なんだそんなことか。でもおかげで修理代はかからなかったし、2週間ぐらいかかるって 言われてたのにさっさと戻ってきたので結果往来。ところで「オーライ」のことを「往来」の略だと思っている人は 多いだろう。とある調査によると、昭和22年生まれの団塊の世代の 87% がそう思っているとのことである。 本当なんです。ウソじゃありません。どうでもよろ。

しかしさ、AirPortカードがはずれてるのぐらい簡単に個人で直せないというのが気に入らん。 むかしの PowerBook G3 はキーボード上のツメをずらせば自分でパカっと開けることができたじゃない? G4 はそうなっていない (ほかのサイズは知らんけど、とりゃーえず 12inchは)。くそ。 デスクトップでも、いまじゃボードの追加とか HDD の追加とかはドライバなしでもできるもんね。

(18:45)
ある人が「Unix を学びたい」というときに一番やっかいなのは、 結局のところお互いに「なにを学びたいのか」がよくわかっていないということである。 それは Unix のシステム管理を学びたいという意味なのか? それとも Unix のプログラミングについて学びたいという意味なのか? この 2つはかなり違うのだが、まったく別物というわけでもなく、 お互いがお互いにすこしずつ依存している。 Unix の基本的な概念や操作を知らずしてプログラミングを学ぶことはできないし、 システム管理をしようとすればプログラミングの知識はある程度は必要だ。 どっちかをまったく知らずに片方だけを学習することはできない。 でも、どっちも完璧には知る必要はない。Unix が難しいといわれるのは、 この 2つの知識が互いにからみあっているためだと思う。 結局、これらはお互いに足場を固めながら少しずつ登っていくしかないのだが (新山の場合はそうだった)、 これはとにかく時間がかかる。さらに、最近では Gnome やら OSX のように、 純粋な Unix の枠組みの上にいろいろのっかっているもののほうが大きく、 これがいっそう初心者を混乱させている。新山の印象では、基本的に Unix ってのは 「カーネル + /bin + libc」であって、 あとはすべてつけたしにすぎない。でも、この 3つは絶対に必要だ。 このうちどれが欠けても Unix とは呼べない。 だから「Unix を学ぶ」ということは (カーネルはべつとして) /bin のコマンド体系と libc の関数を両方学ぶということであり、 結局のところそれはシステム管理とプログラミングの両方ということだ。 そもそも、この 2つが厳密に切り離せるという仮定がおかしいのかもしれない。
(20:12)
世の中が人間に与える変化はいつも不可逆変化だ。 時間ですらも。

Jan 17 [Tue]


(14:47)
新山の未経験自慢:

てくるで (ところで、) ある方からメールをいただきましたが 朝刊に漫画が 2つあるのは、夕刊のない地域に夕刊の分の漫画まで一緒に載せているからだそうです。

すると東京の毎日新聞朝刊は漫画ひとつなのか。

すると東京で毎日新聞を朝刊のみ購読している人は、まっぴら君を知らなかったのか。

不公平な世の中だ。

コノヨウニやたらと改行をくり返すとなにやら詩的な文章に見えるの謎。

(15:30)
デバッグの調子はどうよ?
(16:46)
自然言語文中の数値には「それ自体で」意味があるのではないかという考え。 たとえば、"6434" という数字をヒトの年齢だと思う人はふつういないだろう。 また、現在の世界であるかぎり「6434ヶ国が参加」などということもありえない。 実際には、これは阪神大震災の犠牲者数である。 しかし、もしこれが "6434.75" なら株価かなにかに見える。 "400万" はどうか。死者数にしては多すぎるが、 「人の数」ならありうる範囲だ。でもいちばんありそうなのは金額だな。 「1995」は何もなくても年度に見える。 「-43」は、円か株価の値動きでないとしたら、気温か。?

こういった情報を NE tagging のさいに使えないもんだろうか?

(18:26)
さて今日から授業がはじまったワケだけど、新山はあいかわらず何も取っていない。 なんか出ようかな。でもあまり面白そうなのがないな (というか、面白そうな授業はもうすべて取ってしまった、 4年もいるとさすがに飽きてくる)。 これがウチの時間割。 おそろしいことに機械学習関連の授業が 3つもある。 こんなのより、もっと普通の統計処理の授業とかをやってほしいもんだが…。 Advanced Cryptography はオレにはちょっと高度すぎるような気がする (そこまでオレは暗号に入れこんでない)。プログラム検証とかはどうか? Scientific Computing とかもよく考えてみたら面白いのではないか? しかしそうしているとまた時間を消費しそうなんで伸長に考えないと。 だいたい、この "Values Embodied in Information & Communication Technologies" ってのは何だ? 人文の授業っぽいけど、場所が。
(21:55)
解けない問題を「ノイズ」とよぶ。 この業界ってずるい。

宮崎勤の死刑判決のニュースを見て思うこと。 新山はとくに死刑反対ってわけでもないが (そこまで“人権”について考えてない)、 死刑は純粋におそろしい。 怖いのは自分が死刑になることではなくて、 『死刑』という刑が日本で公式に認められているところだ。 なぜかというと、ほかのどんなひどい刑でも 「犯人が更正する可能性が 0.00...1% ぐらいはある」 と思っているわけだよね。ところが、死刑の場合はちがう。これは 「犯人が更正する可能性は 厳密に 0% である」 と言い切っている。これはだれかが個人的にそういう判断をしたのではなくて、 国が公式にそう断定していることに注意。 国がここまで何かを完璧にあきらめるところがこわい。 これは一種の特異点である。なにか実数値が厳密にゼロであるというのは、 それだけで人を不安にさせる。にもかかわらず、 実際には死刑がほんとうに「極刑」かというとそうでもないと思うのだ。 死刑は「更正の可能性を極小にする」という意味では「極刑」だが、 「刑のつらさ」や、「遺族による怨恨晴らし度」という点では かならずしも「極大」ではない、と思う。人によっては懲役のほうがつらいだろうし、 「死刑にしてくれ」とかいってた例の児童殺害のおっさんの場合は むしろ逆にありがたいのかもしれないし。なにかあるとすぐに 「犯人には極刑を!」といいだす遺族の方々もワンパターンすぎる。 第一、ひと様の前でいう公式見解としてはそりゃ子供っぽすぎるだろ。 むしろ、「決して犯人を殺さないでくれ」と哀願するほうが恨みが切実に表現されていて よりインパクトが強い。オレが遺族ならそうするね。 そして願わくは世の中に死なぞよりもはるかに大きな恐怖と困難があるということを 語りて平地人を戦慄せしめよ。

どうでもいいが、遠野物語でこの「戦慄」を狙った柳田国男がやろうとしていたことは 文学的なテロだったんではないかという気がする。 でも、遠野物語と世界観が似ているけど、ムーミンはテロじゃないよ。 あれはカバだ。 断定。

Jan 16 [Mon]


(09:40)
カギはあるのにカギ穴がない!!
(09:49)
連想ゲームの加藤キャプテン (加藤芳郎) が死んだらしい。 うちの実家は昔から毎日新聞をとっているのだが (母方の家が毎日だった)、 なぜか毎日は朝刊に2本の漫画を掲載しており、新山が物心ついたときから 一本はショージさだおの「アサッテ君」で、もう一本は加藤芳郎の「まっぴら君」だった (今では森下裕美になっているけど、新山が実家にいたころはずーっと加藤芳郎だった)。 で、これがまた時事風刺ばっかりでガキには全然ワカンネエ漫画なんだ、これが。 結局、無人島シリーズはどうなったんだろ (まあ、どうにもなっていないだろうが)。 というわけで漫画はあんまり印象なかったが、連想ゲームは好きだったなあ。 オレが見始めたのはたぶん松平定知が司会をしてたあたりからだが、 ああいう地味なクイズ番組は NHK にしかできないと思う。 ある意味、あの番組は彼 (と、いつも回答を叫ぶ水島裕と そのライバルの檀ふみ、それから後期には天然ボケ全開の宍戸開) で もっていたようなもんだと思う。あと、最後の1分ゲームのあの必死さね。 ワンニャンコーナーで「さばさば」が答えのときに「缶詰」とかいう ヒントを出せるのは彼だけだ。あと加藤キャプテンが宍戸開に向かって 「宍戸くん」というヒントを出すと、宍戸開はいつも「元気…?」と答える。 シリーズが長いので、ネット配信にしたら売れないかな?
(10:52)
どうでもいいが (どうでもよろ)、今日は MLK Day で休みだったことに家を出てから気づいたオレは普通である。
(12:43)
ひさしぶりに OpenSSH のソースを読んだ。 こんなもんを信頼していると思うと気分が暗くなるな。
(19:27)
はぁ〜オレも ShmooCon 行きたかった…。

Jan 15 [Sun]


(15:51)
さふいへば (そういえば)、FreeBSD のカーネルをコンパイルしていて気づいたのだが、 ここではぜんぶ -Wall -Werror を使っていることがわかった。 まあ、これに慣れた人々にとってみりゃ、たしかに Linux のカーネルが Warning を出しっぱなしにしてるのは非常に気持ち悪いでしょうよ。
(17:21)
とっても寒い。しかもあまりな強風のため、 雪が凍ってウロコ状に歩道にこびりついている。
(19:34)
「について (nituite)」を「につちえ (nitutie)」と打ちまちがえたことのある人は多いはずだ。

どうでもいいけど、これまでの Traiss で翻訳した部分を抜きだしてみたら 1MBytes 近くになった。

どうでもいいけど、自分がこれまでこの日記に書いてきた HTML をぜんぶ合計したら 7MBytes 近くになった。 まだまだ、だな。

(20:42)
完成は付加すべき何ものもなくなったときではなく、 除去すべき何ものもなくなったときに達せられるように思われる。
-- サン=テグジュペリ 「人間の土地」 堀口大學訳

いやあ、それにしても「南方郵便機」では 「カップ・ジュビー」って書いてた地名を、こっちでは 「キャップ・ジュビー」って書いてるよ。同じ訳者なのに、堀口大學。気が変わったのかな。 まあどうでもいいんだけどさ。

(21:41)
美しい墓穴の掘り方:

Jan 14 [Sat]


(08:41)
複数の異なった動作をひとつの Python プログラムに入れて切り換える非常にダサイやり方:
if 0:
  なんか
elif 0:
  なんか
elif 1:
  なんか (← これが実行される)

遅ればせましたが、おはようございます。

遅ればせましたが、あけましておめでとうございます。

google://遅ればせましたが/ (200)

(16:00)
ああ。折りたたみ傘を電車の中に置いてきちまった。 本を読んでたのがわるい。傘を床に置いて本を読んでたのがわるい。 改札を出て、2、3歩あるいてから気づいたが、もう戻れないことに気づいたので見捨てることに。 もったいない。あの傘は去年ドイツで買ったのだが、こっちで売ってる折りたたみ傘よりも ちゃんとした作りなので気に入っていたのである。だから骨を修理してまでも使っていたのだ。 意気消沈。胃が気消沈。とはいえ、物品をなくすのはそれほど大したことではないから。 人をなくすことに比べれば。

ところできのう PowerBook をあずけて来た。Soho の Genius Bar(ka) は もとからダメな Apple の Geniusバカの中でも最悪の対応らしいので、 そこへいくのはイヤだったのだけど、大学の computer center でも 修理を扱ってくれることが判明。2週間以上かかるっていうけど、 こっちのほうがまだいいだろう。ということで、あずけて来る。 さよなら。

(21:30)
きょうは久しぶりに Owen (もと同居人) と会い、メシをくった。 もう 1年以上あってないよな? そして彼が車を持っていたので、 NJ までついでに乗せてもらってしまった (彼もまた NJ に住んでいる)。 このあいだ日本に帰ったときもそうだったが、かつての 仲のいい友達に会うと昔話ばっかりになってしまうのは歳のせいなのか。 だいたいいつも思い出話になるようなことを実際に体験している時点では 必死なので、それどころではないのだが、今でもオレはある意味そういう状態だ。

まあいい。(まあよろ)

Jan 13 [Fri]


(09:48)
そういえばいまは MoMA でも Pixar の展示をやっているらしいよ。 けさ電車の中で Metro を読んでた人の裏表紙に広告が載ってた。

このあいだ、上野に泊まったので国立博物館へはじめて行ってみたのだが、 そこの法隆寺宝物館が「なんか MoMA みたいだな」と思ったら、 同じ Yoshio Taniguchi によるものだった。どうりで。

どうでもいいけど (どうでもよろ)、美術館や博物館には どこへ行っても新山の好きな「でっかいエレベーター」ガアル。 ナゼカ新山ハソノヨウナ物品ガ好キダ。アレ? ナンデかたかなカ?

さらにどうでもいいけど、FreeBSD を使い出してから 自分で作った Flash が自分で見れないということが判明した。 (Linuxバイナリを使えだと? 邪道な。) これはなんとかせねばなるまい。

(10:22)
データセンターの停電に関する詳細を書いた Alex のこのメール は非常におもしろい。たとえばダウンタウンにある Telehouse が 9/11 の 2日後の 13日にダウンしたのは、 WTC の残骸が冷却ポンプにつまって発電器がオーバーヒートしたためだって? すごいな。 ほかにも EPO (emergency power-off、非常用電源切断、これは米国の消防法ではすべてのデータセンターに 設置が義務づけられているらしい) スイッチにデブがよりかかって押しちゃったとか、 笑える話が多い。 この人は (口は悪いけど) 確実に「まともな」知識を持つ人として nylug ではあがめられている。 それにしてもデータセンターの設計って大変なんだなあ。
(11:35)
Python への逆恨み・その 53668:

iter(dict)dict.iterkeys() にしたこと。 こりゃあ、どう考えたって dict.iteritems() のほうが自然だろ! おかげで、以下のようなバグに頻繁にぶちあたる。くそったれ。 (まあ、オレの不注意なんだけど)

>>> for (k,v) in dic:
>>>   print k,v
...
TypeError: unpack non-sequence

どうでもいいが、Google がやったことのひとつでエライと思うのは 「API を公開する」ということである。これのためにたぶん GPLv3 ができたんだね…。

(11:55)
SETI はキリスト教系団体にウケるのではないかという考え。 宇宙人の発見よりもむしろ宇宙人の否定として。 つまり、地球以外に神は存在しないということの証拠として。 SETI を続けるごとに全天における宇宙人の存在確率は減少しつづけるわけだから、 「宇宙人の存在確率」という数字をつねに表示しつづけて、それが少しづつ下がるようにしておけば 彼らからは絶大なサポートが得られないだろーか?
(12:17)
いやあ、時間のかかる実験はいいよ。そのあいだに日記書いたり翻訳したりできるから。 しかしそのうちにエラーでウギャーーーーーーーーーーーッっッッ

なったり
する
のです

<ぢv が
(16:24)
セキネさんのところからカッパラってきた「豊橋技科大サブレ」を食う。が、 なんかまずいんだこれが。ホコリっぽいというか。大丈夫?

ところで (てくるで)、今日は Dan のトークがあったのだが、 最初の 1時間ぐらいはそれなりに聞けていたのだけど後半になったら もう集中力切れてバテバテ。それに

Jan 12 [Thu]


(08:48)
やばい。すでに寝坊した。
(11:43)
日本に帰っているあいだに、大小のダメージをうけた。 ひとつは、こないだ買ったばかりの手袋をいきなりなくしたこと (どこに置いてきたんだろう? 関口家か?)。しょうがないので今日 c-h-martin で「のびのび手袋」を買った。99セント。これこれ、これが欲しかったのよ。 あまりに安いので 2対買う。そしてデジカメの USB ケーブルをたぶん実家に置いてきたこと。 くそったれ。送ってもらうのも面倒なので買ってしまへ。そして最大のダメージは、 PowerBook の内蔵無線 LAN がどうやらブっこわれたらしいということである。 地下鉄 (半蔵門線) の中で開いたらいきなり OS がカーネルごと落ちて、それ以降 AirPort デバイスを 認識しなくなったので、ハードウェアの問題があやしい。 これじゃ「Geniusバカ」に行かなくちゃならないではないか。こんぬゃろ。

そして本日も非常アッタ (かい)。

(12:57)
なにか重要なことを忘れていたような気がするが。。。
(17:32)
google はなぜカタカナのキーワードに対して簡単な、 編集距離ベースのスペルチェックをやってくれないんだろー。 英語と同じやりかたでできるんだから簡単なのに。ぶつくっさ。

てくるで、特別せみなあのお知らせ:

SPECIAL SEMINAR ANNOUNCEMENT
Tuesday, January 17th, 2006 at 11am
719 Broadway, Room 1221
Rob Cook
Vice President of Technology, Pixar Animation Studios

ホストはとーぜんのようにぺるりん先生だ。

(18:13)
Cristina とコーヒーを買いに行く。 彼女は真冬でも必ず冷たい Frapuccino なんかを買うのだが、 今日はサムくないのでオレもつられて冷たいのにしてしまった。 そしたら、すげーーあめーーー。甘すぎる。緑茶のもう。
(18:22)
この、下にたまったクリームのアワボコをストローでどうやって喰えというんだよ!!
(19:24)
UPS の複数形 == UPSen

tabesug

Jan 11 [Wed]


(05:27)
時差ボーーーーです。

ほんとは、きのうはもっと日記を書くつもりだったのが、 夕方ごろからもう時差ボーのせいでフラリンコン=フラリンコンになり、 帰ってきて飯をくったらお茶を淹れている間にネムってしまった。 その後何度か目が覚めたのだが、結局 (ケッキョキ) 5時までズブズブと寝入る。 時差ボケの感覚というのは要するに徹夜したあとの日の感覚に似ている。 眠いというよりも、なんか脳味噌が全体的にひりひりと痛むかんじだ。 目もショボショボする。とうぜん動いているものは見えなくなり、 アクビはやたら出るのだが眠気はそんなにないのだ。そして起きたあとはいつも 頭痛がする。ヘンだよ、これは。

(09:35)
おいおい、まだ 9時半だぜ?

なのに、オレはもうすでにハラがへっているぜ?

どうなってんだ、これは。

(12:31)
    

          

(17:27)
ハラがへったので早退。

(なんて理由だ! でも今朝は 7時半ごろから仕事してたんだから 4時頃に帰ってもいいだろうよ。 いままで誰にも隠していたが、オレは実は合理的な人間なんだぞ! 合理的ということは、つまり、 非合理ではないということである。来た! 来た! ぅわ〜〜〜〜〜)

減。

きょうはクラスタリングを改善する方法を考えた。 たいていの場合、クラスタリングには項目数 n に応じて O(n^2) の時間がかかり、 これを短縮する研究はたくさん行われているのだが (といって調べてないけども、たぶんね)、 基本的にどの部分でいちばん時間がかかるかといったら、最初っからほとんどの項目は互いに まるっきり違っていて、どうあってもクラスタされないのである。 それらに対していちいち類似度を計算するのを省ければこれは速くなる。 つまり各項目からなんらかの特徴ベクトルをとりだして、これが合致するようなもののみを 互いに比較すればいい。で、今回のように文章を bag-of-words で比較する場合にはこういった素性を 取り出すのは簡単で (もとが離散的なので)、idf にテキトーに手を加えたら ほとんど一意のクラスタが判別できるようになった。これでおそらく数十倍のオーダーで 高速化する…ハズである。 で、これができると何がうれしいかというと、 クラスタリングを今まで単一のプロセスとしてメモリ上だけでやっていたのが、 ディスクを使った「漸進的」なクラスタリングができるようになることだ。 「仕掛け品」のクラスタをとりあえずいっぺん全部ディスクに保存しておいて、 毎日毎日、新たに得られたネタを通していくと結晶を成長させることができるのである。 今までは比較回数が多すぎて遅かった。これは抽象的には persistent なマッピング (=DBM) が 3つあればできる。といっても実際のアルゴリ済むはけっこう複雑だけど。 あとは実装するだけだ…。

というのはじつは大嘘でしてね。

世の中の人人すべてが毎日をこのように飲み込んでいるわけではない。 実際には、二次的な要素があって、それらは冷蔵庫あるいは冷凍庫に保存できないことを知っている。 といってもほとんどの人は、まあ、冷蔵庫に保存されているわけなんだけれど、 たまに「明らかに解凍された人生」をおくっている人がいる。 快盗とは関係がない。そういう人を見分ける方法は、鼻の頭を見ることである。 そいつが解凍されていた場合、そいつの鼻の頭はつねに北を向いている。 そうでない奴の場合は、そうではない。だが、解凍された人間に対して 冷凍庫の中の感想などを聞いては絶対ダメだ。なぜって、彼らはすでに 生きた (生れた) 人間ではないのだから!

何を言っているかわからないって?

ゲームを読みなさい。といって、この場合のゲームとは、 ゲで始まってムで終わるたぐいのゲームではありませんよ! もっとも、ゲで始まらずに /and/or/ ムでも終わらないゲームそのもの (すのもの) でもありません。 よくわからない場合は始めに戻りましょう。

記憶ほど罪なものはないが、無記憶ほど腹の立つこともない。これまた。

(18:37)
マトマー (= “マトモな人”) から伝書カマボコが来た。歩いて来た。これまた。
(00:05)
あー
よく
寝た

Yusuke Shinyama