さて、BitVault の論文を読んだ。 クールなアイデアだ。 長い論文なのでまだ全部理解してないのだけど (4章の途中まで)、 とりあえずわかったところをまとめると、BitVault は以下のような特徴をもっている:
で、これを実現するシステムとしてはすでに有名な GFS があるが、 BitVault は以下のような理由で GFS とは違ったデザインをとった:
このため BitVault では P2P的なインデックス手法を採用している。 各オブジェクトの位置は (Chord 的な) 固定ハッシュによって決定されるようにした。 これは Hypercube 型のネットワークを構成し、prefix routing により O(log N) 時間で目的の (冗長化された) オブジェクトに到達できる。 ところが、Chord 型ネットワークの欠点というのは、固定ハッシュのため、 マシンの構成が変わる (新しいマシンが追加される、あるいは古いマシンが外される) と、 全体のインデックスが変わってしまうということにあった。 さらに Chord のハッシュは多重化されているデータの位置も規定するので、 これはつまり、マシンを追加するたびに、大量のデータをごっそり移動・再複製するはめになる。 これは効率が悪いし、データが最終的に安定するまでに数日かかることもあるので、 信頼性が低下する。
ここで BitVault が提案したアイデアというのは、 「インデックスとデータを分離して、インデックス部分だけを Chord的な方法で管理する」 ということであった。 インデックスとは、どのデータがどのマシンに格納されているかを示す、 ようするにディレクトリみたいなもんである。ただし各データは多重化されているので、 ふつうインデックスはひとつのオブジェクトに対して複数の位置を保持している。 で、(さっきの GFS との違いでも説明したように、) このインデックスは ひとつのマシンには入らないが、データそのものよりはずっと小さいので、 (マシンが増えたときに) 大移動してもそんなに大変ではない。 各オブジェクトへのアクセスは、まず一度インデックスを参照してから 目的のマシンへ到達することになる。インデックス → データへの対応は Chord 的でなくてもよいので、 各マシンは特定のポリシーにもとづいてネットワーク的に近いマシンにデータを 格納させることができる。また、こうしておけばインデックスが動いてもデータは動かさずにすむ。
さらに、BitVault ではインデックスがいつ壊れてもいいように、 マスター・スレーブという考え方を完璧になくした。GFS の考え方は、 基本的にマスター (インデックス) が中心的な役割を追うように設計したものだったが、 BitVault では主役は個々のオブジェクトにある (これを彼らは object driven と呼んでいる)。 BitVault ではインデックスを保持しているマシンとデータを保持しているマシン (通常これらは別々である) が 双方向のポインタをもっていて、n対n でお互いを監視させている。 データをもっているマシンが壊れるとインデックス側は別のマシンを (特定のポリシーにもとづき) 選定し、 再複製を要求する。いっぽうインデックスをもっているマシンが壊れるとデータ側はインデックス用のマシンを (Chord的なハッシュにもとづき) 選定し、再インデックスを要求する。 こういう「ぎっこんばったん的」なメカニズムにより、複数のマシンが同時に落ちても すばやくお互いに補完しあって安定化状態になる…そうな。 このために必要な前提というのが、 「各マシンは、ネットワーク上に接続されているすべてのマシンを知っている (eventual membership)」 ことで、この情報が O(log N) 時間ですべてのマシンに broadcast されれば、 それなりの速度が出るという。もっとも数学的な証明は論文では割愛されているけど。 で、この broadcast を実現するために P2P 層に XRing というアーキテクチャを使ってるんだけど、 この部分はまだよくわかってないんでパス。
で、ほかにも信頼性を上げるためには負荷分散とか優先度とかの概念が必要で、 それも説明されてるんだけど、これもパス。
はっきりいって、MS Research は結構マトモな研究をしていると思う。 しかもどっかの会社と違って彼らはちゃんと論文を公開しているし、 わりと MS 製品とは独立した研究をやってるようだ。 米国の博士学生の間では、まともな学術研究をしたかったら Google より MSR へ行けというのは よく言われている。まあオレはどっちも興味ないけど。
(追記) ちなみに、BitVault を作ってる連中は本家 MSR ではない。MSR Asia だ。 こうゆうのを見るたびに、日本のシステム研究はほぼ完全に死んだ、と思わせる。 オレにゃあ関係ないが。
(追記2)
ついでにゆうと、日本の自然言語処理研究もほぼ品詞瀕死、という印象だが
(ある人を見てるとそう思います)、
彼らは日本語という参入障壁に囲まれている限りいましばらくは安心である。かもしれない。
これもオレにゃあ関係ないが。
(追記3) 上の議論から導かれる結論: 中国人は危険だから入国規制しろ。
(追記4) どうでもいいけど (どうでもよろ)、"BitVault" って名前はどことなく BitTorrent の影響を感じさせるが、「Bitなんとか」って名前はそろそろお役御免じゃない? (まあ、この論文は 2005年だったので許してやる) どうも「Bit」ってのが付くとダメなイメージあるのよね。 BitKeeper とか、ビットバレーとか。 これからは「Second Bitte」とかにすべきだ。 あ、ここでの bitte はドイツ呉ね。
それにしても、ハイブリッド車にあんな致死性の欠点があるとは知らなかった。 いやほんと、世の中あちらを立てればこちらが立たず、だなあ。 ハイブリッド車の研究者は、こんな問題が出てくるとは予想しなかったにちがいない。 しかも、まったく公害とは関係のないところから、である。 ある技術が世の中に及ぼす影響について、前もって全部予想しておけというのは 不可能なことだ。が、まったく予期しなかった場所から問題が出てくるというのは 実はよくあるんじゃないか。そういうときにオロオロしないようにしたいもんだ。
それにしても、Tisch Arts School はスゲえよなあ。 さすがうちの名物学部だけのことはあり、CIMS なんかとは金持ち度が違う。 あそこって地下はぜんぶスタジオとか編集室になってんのね。 一階にはいきなり舞台用具がしこたま置いてある倉庫があるし、 なんかスゲーーー別世界。こんなのがすぐとなりにあるとは思えない。
ちなみに、Lamport は Dijkstra なきあと、現代を代表する計算機科学者のひとりである。 分散システムや P2P をやっていて Lamport の名前を知らないやつはもぐりだ (といっても、オレも男だとは知らなかったが)。 でも日本では LaTeX の開発者としてしか知られてないみたい (新山は、むしろこっちのほうが知らなかった)。
/etc/modprobe.d/aliases
に eth* がないんだ?
これはべつの場所で設定されているのか? まァ、新山は使わないんでいいけどよ。
で、あいかわらず必要なときに man がない。っつーか、もう linux ディストロは
man を更新する気がないんなら man 使うのやめれ。
man 以外の統一された、コマンドラインからも使える
ドキュメンテーションを提供するならそれはそれで結構だから。
実際、djb は /doc という枠組み
を提唱している。今んところ誰にも無視されてるみたいだが。
ええ? texinfo? …論外。
世の中には、一見すると非常に親切で「いい人」だが、よく考えてみると 彼らの行動は完全に人を見下した思想にもとづいているとしか思えない、というような人々がいる。 おそらく彼ら自身はそのことに気づいてないだろうけど (こういう人々は、だいたいアタマが浅いことが多い)。 新山は、表面的にはあらゆる人をバカにしているように見える (かもしれない) が、 内心はそうではないと思いたいなあ。もっともそれを判断する資格はオレにはないが。
とにかく、人間というのは言いわけが大好きな生物だと思った。ほんとうに。 この場合の言いわけというのは口で言うものばかりとは限らないよ。
いけねえこんなコトしてる暇ねえ! 明日は早く起きなきゃいけないんだ。
ニオイで時間がわかる! ねにげなくね。
さて問題です。この数列はなんでしょう。
科学に厳密性とか反証可能性が必要っていう議論は昔から言われてきたけれど、 「批判しやすさ」というのは科学でなくても、あらゆる文章を書くときに一般に言える基準だと思う。 アキレス犬が隠れすぎているものは論文とは呼べない。
ちなみに、アキレス犬がまったくない文章はエッセイあるいは日記といわれ、 アキレス犬は沢山あるが全部最初からキレているものは電波文とよばれる。
…そいえば、チェックボックスを使ってアスキーアート (チェックボックスアート?) を書くというのは誰かやっていそうだな。 こんなの:
…あきた。もうやめ。
tttttttttttttttttttttttttttttttttttttttttttttttttttttt
H嬢は税金の申告というものを一度も自分でやったことがないらしい。 結婚前からずっと彼がやっているんだそうである。ああそうですか。 あの旦那はそういうのにコマかそうだからなあ。 しかも「(まだ友達の時に) 税金申告をやってもらったから彼のことが気になりだした」とかいってるし。 ああそうですか。 itsgoodforyou. オレはこの 2人をかなり初期のころから知っているが、 この夫婦は物理的および性格的に完全なる「凸凹コンビ」ってかんじだ。 ある意味、最適な組み合わせともいえる。見ていて非常におもしろい。
実際には新山がよくやるのは、頻度順に 2., 6., 3., 4., 5., 1. の組み合わせだが (しじみ汁なんてもう何年も飲んでないよ…)、 オレが小さいころに一番好きだったのはタマネギだった。 あのタマネギから出る微妙な甘さが好きだったのかもしれない。しかしいま気づいたのだが、 味噌汁に入れるキノコはいろいろあれど、どういうわけか椎茸って味噌汁に入れないよな。 他の煮物とかには入れるけど。香りがキツすぎるからかな、あれは。 しかし香りがキツくてもミョウガとかは入れてるじゃん? ちなみに安い食堂 (= 生協) では 「油揚げ + わかめ」のコンビネーションが一般的で、新山はいまでも この組み合わせを「生協味噌汁」と勝手に呼んでいる。 たぶん、これが一番単価が安くできるからだろう。 そういえう゛ぁ、うちのママンは白菜を入れてたりしたが、 あれは一般的なんだろうか?
多くの外国人には、みそ汁の具が日本人にとって遺伝的に非常に重要であることが きっと理解できないだろう。NIH により行われた最新の研究によると、海外在住や博士論文執筆などの事情により しじみ汁を飲めなくなった日本人の自殺率は 56億7000万倍にはね上がるという。
ところで「よくない/いけない」という意味をあらわす「イカン」という単語は もともと「行かん」から来ているのではないかと推測されるが、 そういえば「行けない」と「行かない」がどちらも「行かん」に短縮されるというのは妙だな。 本来ならば「行けない」は「行けん」になるはずだ。 それがいつから「行かん」も同じ意味を持つようになったんだろう?
ps aux
すればすぐにわかる。
アプリコッタとパンナコッタとやなコッタは違う。違うったら。
(追記) ちなみに、「空気読め」っていう言葉を使っている人々は、古い世代だと思う。 最近のワカモノは、もはや「空気を読め」とすらいわない。ただニヤニヤするだけだ。
nice, great, cool (kool, kewl, coolio), hot, awesome, sweet, tight, neat, rockin, hip, phat, dope, killer, sick, chill, green, amazing, fabulous, fantastic, super, crazy, wicked (英), nifty (死語), groovy (死語), ...
これらのポイントは、「つねに変化する」ということだそうだ。 なぜなら、どの表現を使っているかによって「そいつがどこまで追いついたか」を推測できるからである。 実際は、米語の "cool" には、もうホメ言葉としての価値はほとんどない。 これは単なる「あ、そう」程度のあいづちとして使われる。 「最近、引っ越したんだ」「cool」とか。 それに米語の "how're you doing?" とか "what's up?" にも、 質問の意味はほとんどなく、単なるあいさつと化している。
世界が今日終わることを心配しちゃいけない。 オーストラリアはもう明日になってる。-- Charles M. Schulz
「音楽というのは山脈のようなものです、目の前に高い山があって、 それに登っているときは他に何も見えないのだが、それを登りきるとまた次の山が見える、 それの繰り返しです。音楽をやるというのは、そういう生き方を選ぶということです」(うろ覚え翻訳)
ところで、日本国内で PBS を見る方法はあるのだろうか? これはカネ払ってでも見たい人が多いと思う。 NHK と同程度の受信料でいいならぜひ見たいぞ。 っていうか、PBS は寄付で成り立っているんだよね。 このへんが米国のスゴイところだ (大口の寄付をしているところは番組中に CM が流れる、前に Google も CM をやっていた)。 まあ DVD を買えばいいのかもしれないが…。 こういう教育番組を比べると日本の NHK と PBS では圧倒的な差がある。 NHK にもけっこういい番組はあるのだが、細かいところまで突っこんでやる、 という点では PBS のほうが (内容的に) すごい番組が多い。 はっきりいうと、ここでも技術依存の日本と内容重視の米国という差が出てしまっているようだ。 NHK はだいたい CG とか超ハイテク機器を使った撮影というのはわりと多いのだが、 「技術的にスゴイ」だけで終わってしまっているものが多いような気がする。
(いまなにげなく "viewers like you" で検索して、びっくりした。wikipedia はナンでもありだな。)
そういえば米国に来てから自分の中で認識が変わったのだが、 この国では「寄付」という行為がとても身近である。 道を歩いていても、ホームレスに "donation please!" といわれるしな。 いやそれは関係ないか。とにかく、「寄付された金」というのが経済の中でかなり大きな割合を占めている。 企業も寄付するし、個人でもかなり寄付する人がいる。金持ちが多いというのはあるかもしれないが、 そんなに金持ちでなくてもみんな自分の応援したいところに寄付をするという習慣があるようだ。 だってさ、寄付だけで成り立ってる図書館とか美術館とか テレビ局とかが、どれも一流になっちゃってるんだぜ。 ほかにも山のように NGO があって、「寄付を集める技術」というのがひとつの学問分野のようになっている。 本屋にいっても "fundraising" というコーナーがあるくらいだから。 日本でも募金する人や政治献金する人はわりと多いと思われるのに、 どういうわけか寄付だけで成り立ってる公共団体・施設は少ない。 日本人はどうしてもお上がやってくれないと信用できないんかね。
また寒くなった。ね
タグ付けとか人気ランキングとかで自分の興味を広げられると思っているヤツは、 かなりつまんねえ人間だろうなあ、と思う。 まあ、そういうのもありだ、とは思うけど、たいして期待すべき効果はない。 なぜならそれは所詮せまい探索空間の中でモゴモゴ動く隙間を与えるだけで、 そこから飛び出す機会は与えないだろうから。
じつはこうしたシステムはどれも、あるひとつの重要な前提をもとにしている。 それは「人の興味の持ち方はだいたいアルゴリズム的には似たようなもんだろう」という仮定である。 連中がこうした思想を自覚しているかどうかはともかく、オレはこの仮定が正しいとはそんなに思えないな。 こういう思想はとりわけ某国の人々にはなじみ深いだろうけど。
興味の不連続性について。 新山の興味ある対象はかなり不連続的である。 たとえばオレはソフトウェア開発プロセスと認知言語学に興味をもっているが、 これらの間には (他の人からみると) たぶんほとんどつながりがないだろう。 最初にどういうきっかけがあったのかはわからないが、 この 2つの間には新山の興味をひく共通したものがあるのだ。 でも、それはまだうまく説明できない。とにかく、 こうした「一見すると全然違っていそうなものに興味を持つ」というプロセスを 新山がとても重視していることはたしかだ。 しかし、「自分の現在の興味あるものの周辺しか見ない」というやり方では これはほぼ無理だと思う。なんらかの形の飛躍が必要なのである。 でも、一体どうすりゃそれができるんだろう? まあ、究極的には、“運”は重要な要素かもしれない。 興味を持つためにはなんらかの理由でまず「そいつ」にぶちあたらなきゃいけないわけだし、 「ぶちあたったものが、たまたま自分の興味を引く対象だった」って可能性は そんなに高くないだろうし。結局のところ (ケッキョキ、) デタラメに生きろ、ということになるのかな。
そういえば、オレはいつ、どういう理由で、ムーミンを好きになりだしたのか覚えてない。 たぶん図書館でランダムにサンプリングしているうちに発見したんだろうなあ。 そういう意味では、やはり本屋や図書館というのはいまだに探検場所としてはベストである。 というのは、web なぞでは「よくできたコンテンツを、ランダムに探す」ということが 非常に難しいからだ。たとえば google で適当なキーワードを検索しても、 だいたい予想範囲内なページか、あるいは意外性はあっても内容がどうしようもないブログロなどが ひっかかることがほとんどである。といって、よくできたページだけを集めた完全な「ランダムリンク」では、 自分がもうすこし知りたいと思ったときに、それを収束させる方法がまったくない (それに、よくできたページって実際にはほとんどないのだ)。 図書館では、数歩あるくだけでまったく別の世界に到達できるので、 意外性ということに関しては検索エンジンよりはるかにいい。 といって、完全にランダムというわけでもなく、ある程度は探索空間をコントロールできる。 ナビゲーションもかなり直観的。 おまけに、たいていの本は一定以上の質である (まあ、ひどい本もいっぱいあるけど)。 Wikipedia もこの意味ではいいセンいってると思う。でも品質はある程度以上にはならないだろう。 最近は 「Wikipedia を読み始めると関係ないところまであちこちクリックしてしまってどっぷりハマってしまう」という人がいるけど、 そういう人は絶対、図書館センスありだ。
なにか目的がある時しか本屋や図書館を利用しない、という人は だいぶ人生をソンしていると思う。しかし現在では、そういう合理主義がクールってことになってるからなあ。 プログラミング言語を「所詮は道具」といっている人は多いが、 実はこういう人は自分の人生も所詮は道具だと考えている…のかもしれない。 本人たちは気づいてないだろうけど。
Document ID: 460c8fe8399afd9aa08db6787be5ff1d
Yusuke Shinyama