おふとんとの同化、人間との道化。
新山は最初ちょっと見てダメだと、あっさりと理解するのをあきらめてしまうタイプで、 これは自分でもあまり誉められたものではない。でも多くのプレゼンテーションを 見ていると、プレゼンが協調作業であるということをわかってない人がけっこういる。 ただ自分がやったことを独り語りに「記述する」だけではだめなのだ。 なので、最初から明らかに独り言に専念しているようなスライドをみせられると、 ほとんど残りは時間の無駄に思えてしまう。本当に知りたきゃ論文読んで苦労して理解して 質問するからもう許してくれ、という状態になる。しかしプレゼンを 途中で抜け出すのは失礼にあたるのでそれはできない。あああもう。うだうだ。
これの帰結として、わかってない人が起こすよくある現象は、背景説明やプレゼン全体の文脈の 圧倒的な欠如である。ほとんどの場合、「プレゼン者が重要だと思っていること (伝えたいこと)」と、 「聴衆が重要だと思っていること (知りたいこと)」は激しく食い違っているので、 まず最初に「説得」というか、「歩み寄り」のようなプロセスが必要なのだ (ほかのプレゼンは知らないが、学術的プレゼンみたいに題名だけ何を喋るのか内容が 推測できないものはそうだと思う、それをわからせるのが一番の目的であって)。 それができてない人の発表は、いくら物腰がやわらかくても表現が簡潔でも 傲慢に映るんだけどな。もちろんクリアすべきところはそれだけじゃないが、
でもまあこの人のプログラムは、C で書かれててもあんまり見たくないけど。 それをいうなら、うちのプロジェクトでまともに「見てもいい」コードをかくのは Ralph だけのような気がするな。 Dan はコード書いてるの見たことないし、他の人々は出自が計算機科学じゃないからまあしょうがないし。 自然言語屋ってまともな計算機科学には入れられてないのかもなー。
きょうはノルマを達成するために (?) 早く帰ってきた。 緑茶もかったし、長ネギもかったし、洗濯もしたし、。それによし。
新山の予定:
日本でのおもな目的 (上に行くほど優先度が高い) :
さーーて、それまでにはスイスにタダ旅行できるよう、がんばらねば! (べつにそのためにわざとバルセロナを蹴ったわけではない)
物事は、どうしようもなくなって あとの祭りになったときに始めて理解されることがある、 というのは本当だった。
どうか「固有表現」がつぎの流行語にならないことを祈る。
ちなみに、ringlog
はよく動いているよ。
専門用語を日常的に使いたがる奴ほどバカ度が高い、という法則は依然として成り立っている
オレが日本語をただの文字列として扱うことに、 後ろめたさを持っていないとでもきみは思っているのか。
新山のメジャーなプログラミング言語に対するイメージ:
Lisp は言語仕様だけをみれば Python よりもずっと上品なのだが、 ライブラリや実装の分裂ぶりを見ると全体的に優雅というにはほど遠い。 いっぽう Python は優雅というほどの上品さはなく、むしろ 「余裕」と呼んだほうがいいのかもしれないが、現在においては 「ふつう」でいることそれ自体が優雅であるような気がする。
それにしても別の世界だこと。用語もちがえば学会も違う。今日きいてみたら 論文の構造が違うのは「伝統」らしく、ぐりむ先生によると「とーくすの論文は長い間こういう慣例になっている…」 とのこと。「とーくす」って何?? と思ったら、これは "talks" じゃなくて "TOCS (ACM Transactions on Computer Systems)" のことだった。 ガーソ。(とうぜんながら東急のキヨスク TOKS のコトではありません。) ほかにも授業中に「NSDI が NSDI が」といってて、何のことかと思ったらそれは USENIX NSDI という USENIX の 新しいシンポジウムのことなのだった。知らないのはオレ一人なのか? 新山は USENIX については 知っていたが (といっても名前だけで実際に行ったことはない)、そんな内輪の分科会なんて 知らねえよ! まあこのようにシステム屋と言語処理屋は違うわけです。同じ計算機科学科なのにねえ。
s = [ x*2 in x for mylists ]
こういうときに誰かバコっと殴ってくれると助かる。ガッでもいい。
どうでもいいが、id
って変数名は使っちゃいけないことがわかった。
混乱するから。
todo: 緑茶かうこと。もうない
しかし、これの欠点は変数のスコープがいいかげんなところにある。
[ x*2 for x in range(10) ]
などとやっても、x*2
は
閉包あつかいにならず、ローカルに新しい変数 x が導入されてしまう。
これは lambda のほうが明らかにまさっている。
x = [ x*2 for x in range(10) ]
とやると
いちおう x には望みのものが入るが、混乱を招くのであまりやらないほうがいいな。
この手のツールを「どの程度まで一般化すればいいのか」については、 いつも悩む。やりすぎると本末転倒だし、かといって何にも考えないでいると 毎回似たようなことやんなきゃいけないし、スクリプトが増えすぎて何が何だかワケわかんなくなる。 毎日がデータとの格闘だ。
オイ! ところで、雪が降るって予報はどうなったんだよ? はずれたらしい。空はみごとに晴れている。前線はもう Boston のずっと東に行ってしまったらし。
JPL カッコいーよなー…こういうところに就職したい…
でも「自然言語処理が専門です、機械学習はキライです」なんていう奴が行ったところで、
いったい何に使えるんじゃ、という気はする。
いや、でも天気予報とか地震予知のためのデータマイニングだったら
やってもいいかな…とは思うけど。
で、話は戻るが、MISR ってのは NASA がやってる地球観測システム (Earth Observation System, EOS) のひとつで、AIRS や MODIS などの他のシステムとともに 科学的な分析のためのデータを提供する装置 (衛星) だ。MISR がほかと違うのは、 複数 (9つ) のカメラがそれぞれ異なる角度で地表を撮影しており、これによって 地上のある 1地点を異なった角度から見ることができるのだそうな。 これで何がうれしいかというと、地表の物体は種類によって光の反射の仕方が違うので、 地表がどんな物質でできているかがわかるというのである。たとえば氷でも、 固い氷と解けてきた氷では反射の方向が違うのだそうな。さらに衛星写真には雲がつきものなのだが、 このシステムでは視差 (parallax) の情報がつかえるので、雲の高度が測定できるのである! これによって地表の映像を立体的に構成することが可能になるらしい。
衛星自体は軌道上をゆるやかにスライドしており、9個のカメラが それぞれ異なる角度から R・B・G・IR (赤外線) の画像を撮影する。 1つの画像は約 1M個のピクセルからなっており、1ピクセルが地上の 270m かそこらに相当する。 この衛星は子午線のまわりをぐるぐる回っており、40ミリ秒に一回の速度で撮影をおこない (その 40ミリ秒の間に衛星は 200m も進む!)、90分で一周、そのあいだに地球は自転しているので 9日間で全地上をカバーする。1日に撮影される画像データの量を計算してみると…
9 × 1M × 4 × (60×60×24) ÷ (40/1000) ≒ 77TBytes!
実際にはこれだけの量を送りきることは無理なので、R チャンネル以外の画像は 間引いているらしいが、とにかく 1日に数テラバイトのデータがたまるらしい。 で、この送られてきた生データは数段階に分けて処理される。 まず位置補正や光学的なキャリブレーションをおこなった Level 1 のデータがあり、 つぎに 9台のカメラの画像をひとつに合成した Level 2 のデータがある。 しかしこれだけでもまだバカでかい。画像データは子午線の半周分という単位 (1 swath と呼んでいた) で 分割してファイルにおさめられるが、この 1ファイルが 600MBytes もある。おまけに 科学者がこれをそのまま研究に使うのは容易ではない。NASA のデータセンターのひとつは ヴァージニアにあるらしいのだが、そこには画像処理した膨大なデータが貯蓄されていて、 オペレータがおり、まず研究者はそこに使いたい画像の ID を渡さなければならない。 で、1週間 (!) ぐらいするとメールが届いてはじめて FTP 可能になる、ということらしい。 こんなんではとてもやってらんないので、彼女の仕事はこの Level 2 のデータから、 さらに研究者が使いやすい、手ごろな大きさの「要約」画像 (Level 3 データ) を提供する ことなんだそうだ。
ところが MISR の限界というのがあって、これは 9日間で地球をほぼカバーするのだが、 もとの場所に「正確に」戻ってくるには 230日ぐらいかかるらしい。 なので、ある狭い領域 (たとえば、セントラルパーク) を継続して観測しようと思ったら、 年に約 1.5回しかサンプリングできないのだ。これをデータ処理でどうにか補間できないか? という話だった。ちなみに、現在のところ天気予報は AIRS システムが得意とする分野なので、 MISR はそれ自身の有効なデータ活用法を見つけなければならない。たとえば何年か前にあった (新山は知らなかったけど) インドかどっかの地震では、地震の前に海面上昇があったという 記録が MIRS にははっきり残っていた (このシステム自体は数年前から動いている)。 なので、もしある地域の時間変化が継続的に観測できるようになると、 地球上の 2つの場所の変化の相関関係をさぐることができて、これは 地震予知などにも使えるようになかもしれないということだった。 ひさしぶりに夢のある話だなあ、と思いましたですね。
ちなみに、ぷれぜんは Keynote だった。 やや視覚効果を使いすぎな感じがしたが、内容がおもしろかったのでドーでもよし。 それにしても米国は気に入らねえ国だが、JPL の技術力や、 その科学的貢献というのは文句なしにすごい。地球科学をやってる人には たまらんだろうな。
トンコレラ!!
/etc/pam.d/
の下なんかはのぞいたことがあるけど
pam の設定ファイルを自力で書いたことはなかったし、
その仕組みもほとんど理解していなかった。
ところが今日のトークを聞いた結論: PAM はキチガイ的。学習する価値なし。 以上。なんだよありゃ? いや、Mordy のトークはとてもよかったのだが、PAM 自体が悪い。
このような決意表明を、きみは今後何回も聞くことになる。
…という目的のために ringlog.prl というのを作ってみた。 基本的に
$ ほげほげ | ringlog.prl
としておいて、ringlog プロセスに kill -HUP
すると
過去 100行のログを吐きだす。
#!/usr/bin/env perl print STDERR "ringlog: $$\n"; $BUFSIZ=100; @buf = (); $p = 0; $|=1; sub dumpy() { for (my $i = 0; $i < $BUFSIZ; $i++) { print $buf[($p+$i) % $BUFSIZ]; } } $SIG{"HUP"} = sub { dumpy(); }; while(<STDIN>) { $buf[$p] = $_; $p = ($p+1) % $BUFSIZ; } dumpy();
まあ、screen でいいんじゃん? というのはもっともだが、 screen は激しくログが吐かれるとわりと CPU を食うので。
このよーなどうでもいいスクリプトは Perl でかくにかぎる。
いや、だめだ! オレは日本に帰るのだ!
米国にいるのは健康的で鼻息がする。(←ようするにこれが書きたかった)
以上
で、きょうの student seminar は fu jie が出てきて、 画像 (オブジェクト) 認識についてしゃべった。 neural net のほうが SVM よりも 2倍性能がよかった、ということと、 実験で撮影したオモチャはすべて Walmart で買った、ということしか覚えていない。
画像認識においてはトレーニングに背景や光源が激しく違う画像を利用するため、 SVM のような global matching をおこなう学習アルゴリズムは実際には不利にはたらき、 local maxima が実際には有用だということだった。しかし、一般的に SVM は サイコーだと考えられているため、このことはなかなか信じてもらえないのだと。 この考えはおもしろいな。同じ現象は自然言語にもあてはまりそうな気がする。 そういえば一時期、とある国のとある学会では猫も杓子も SVM を使っていたことがあったが、 今年の年次大会プログラムをみると、タイトルをみるかぎり「サポートベクタ」が入っている発表は 一件しかなく、某国における SVM 馬鹿は一掃されたかのように見える…が、 実際にはタイトルに入ってなくても中で SVM を使ってる連中が増えたダケかもしれない。 で、これまた煽った奴と煽られたアホが両方いるわけで…。 まあ、「学術界ってこんなもんか」と妙にサメた気分で思うわけですな。 つぎの頻出キーワアドはなんだろ〜。「アクチブラーニング」かな? かっこわらい
どうでもいいが (よくないが)、先学期までは機械学習の授業をとっていたので、 「Kernel」といえばアッチのことをさしていたが、今学期に OS の授業に出はじめたら、 「Kernel」といえばまたアレのことにさすようになってしまった。 そしてカタカナで「カーネル」と書くと思いだすのは道頓堀に投げこまれた例のおじさんか、 ディーノとルイージのコンビ (どっちがどっちだったか忘れた) だけである。 まったく、なんでおんなじ用語を使うんだよ!? Colonel に「カーネル」という カナ読みをあてたのは確実に失敗だ。いや逆だな。Kernel に「カーネル」という 読みをあてたほうがいやらしいな。これからは Kernel のほうは「カーのる」と呼んでほしい。 そっちのほうが発音近いから。「カーぬる」でもいいよ。ちなみに古い Hansen の論文などをみると、 当時は「OS の核」という意味で Kernel という言葉と Nucleus という言葉が両方とも 使われていたようだが、 Nucleus というとなんか生物っぽいよな。 だいたいアッチの Kernel はなんで Kernel と呼ばれているのか全然わからん。 たしか線型代数でも出てきたような気がするけ? ど?
しかし、考えてみると「Kernel」という用語のまったく異なる意味が ふつうに存在しているのは、計算機科学という分野がいかに分断されているかを よく表している。のかもしれない。Machine Learning と Honors OS を 両方とってんのはオレぐらいのもんだろう。 つうか、OS の授業に出ている顔は全部覚えている (新山のほかに 4人しかいない) ので、 この大学では確実にオレだけだ。だからどうしたって感じだけど。 システム屋のセミナーに出てみるとあきらかに雰囲気違うもんな。 それからおもしろいと思ったのが、これらの分野には論文の構造にも慣例上の違いがあるということ。 OS の授業で読まされる論文のほどんどが、Related Work を実験結果のあとに書く (うちらが書く論文ではふつー逆)。これがさらに離れた分野 (たとえば、社会科学系の論文) になるとまっったく変わってるんだろうな。そういやー、前にウエキさんから 「文系の論文」のおどろくべき特徴についてショックを受けたという話を聞いたことある。 それによると、彼らはあまり連名で論文を書かないし、 学会発表とかでも OHP もなにもなしで「ただ壇上でしゃべるだけ」なのだという。 それはたしかにすげえ違いだ。
(追記 00:41) この授業がいいのは、論文を批判的に読む訓練ができることだ。
火星でいったい何が起きたのか? (20kbytes)
まあこうして自前のプロジェクトは遅れに遅れていくわけですが…。
ところでお前 pygame 関連の翻訳はいったいどうなったんだよ? 最低あと 3つは未訳ファイルが残っているじゃねえかよ! 当初は面白ければリファレンスマニュアルも訳そうかと思ったが、 どうもあれから他におもしろいものがいっぱい見つかってしまったために じょじょに熱意が失われているなあ…。思うに、Pygame はさいしょ プラットフォーム独立にゲームが組める (し Java よりは軽い) ので いいのではないかと思ったのだが、Flash がこれだけ浸透してしまうと どうもニッチがない。
また navneet の料理をつまみ食 (しょく) する。 毎回なんか申しわけないなあ、たまにはオレもお返しをせねば、と思うのだが、 Owen のときと違って、彼は日本の料理にはまったく興味がないようだった。 まあ、あんまり日本に興味があるヤツってのもうざいけどね… そんな奴はオレ一人で十分だ
夢の中で、自販機のボタンを勝手に押すおばさんと格闘してたが、 こっちが先にボタンを押そうとして「おりゃぅ」とやったら 現実の手で左側のカベをドスンとやっちまった。 まあ実害はなしさ。
あ、統計的手法のメリットがもひとつあった。それは:
自家製形態素解析の話だが、chasen 付属のモデルだとどうもいまいち性能が悪い。 だいたいこれって新聞記事みたいな文章のことしか考えてねえでしょ? ちなみに新山がテストに使っているコーパスは山形浩生の文章 (1MBytes 強)である。 目的がバレバレだが、文句あっか。 そこで suffix array と EM を使って辞書とモデルを自動的に (unsupervised で) 学習できないかと思いはじめた。 が、どうせうまくいかないんだよなあこういうのって。
(なお、この作業は大学での研究としてやっているワケではないので、セキネさんには内緒です)
なぜならそうしないとシェルから補完するときにむかつくから!
だが、放射冷却で久しぶりにサブいのだよ今日は。
ところでいまふと気づいたのだが、「寒空」っていう言葉は ふつうなんとなく風ピューピューな「どんより曇り」気味の空を連想させるが、 本当に寒いのは今日みたいに放射冷却で雲ひとつない空のほうじゃないだろうか。
NYLUG のメイリングリストで、デンマークの計算機科学の学生グループが、
「観光で NY にくるんだけど、どっか Linux を使ってる企業で見学できるところない?」
と尋いている。IBM や Google NY をはじめとして、Goldman Sachs、Morgan Stanley など
金融の大手も使ってるところは多いらしい。そういえば前に FRB (連邦準備銀行) の
アドレスから投稿してる人もいたしな。最初これを見たときは「おお @frb.org
だよ、すっげー!!」と
と思ったもんだ。聞くところによると、あすこは自前でシステム屋をもってるらしく、
強者ぞろいなんだそうな。ちなみに FRB 議長のグリーンスパンは NYU 卒である。
出世頭だな。
というふうに書かれているのだが (本来は英語なので chunk だがここでは文節とした)、 これはあきらかに KNP のマネだが、こう書けば簡単にループを実現できてしまう:* 文節1 → 文節2 * 文節2 → 文節3 * 文節3。
おまけに、この文節は番号順に並んでいなければならないので、 途中の行を削除した場合に番号をつけかえなければならない。 S式のほうがずっとましである。しかし S式は S式で別のまちがいやすさを導入するため、 これまた依存構造の human-readable な出力形式 (ふだんは読まないが、その気になれば人間が読めるし修正もできる) としては適切でない。 結論: インデント。しかし実はインデントには 「空白に重きを置きすぎる」という深刻な欠点がある。ホワイトスペースの数をまちがえると致命的な結果になるのだ。 このおかげで、プロポーショナルなフォント環境では信頼性が低い。 結局、汎用的なデータフォーマットなどというものは ありえない、その場に応じて設計するしかないということになるわけだが、 task-specific な形式を考えるときに意識しなければならないこととして、 次のようなものがあると思う (前にも煮たようなこと書いたけど、改訂):* 文節1 → 文節2 * 文節2 → 文節1 * 文節3。
みんなこの手のことを甘く見てるけど、「データ構造の視覚的な見やすさ、 および頑健さ」というのは個人的には重要だと思っている。 UNIX のパイプはあのシェル上での記法が発明されなかったらここまで使われなかっただろうし、 たとえば物理とかでもファインマン図 (新山はよく知らない) の発明は かなり重要だったんじゃないか。
…そう考えると、自然言語というのはどうなんだろう。 こいつは上にあげた (表現にける) 利便性、(伝達の際の) 頑健性や信頼性といったものを 上げる方向に発展してきたはずと考えるが、言語によってこれらの優先順位が違ったのかもしれない。 「日本語がもし今とは違ったやり方で発達したら」という想像はほとんど無理だが、 あまりに multi-purpose すぎる構造なので、どれもたいして向上してないのかもなあ。 論文用語や軍隊なんかの喋り方はそっち信頼性を上げようとして意味的な曖昧さをなくしているのかもしれないが、 日常生活では曖昧じゃなくなったらかえって不便になることも沢山あるしね。 言語学ではこういう方面からアプローチしてる人はいるのかな?
どうよこのスノッブさ! 新山だってブログロ的なことを書こうと思えばこれくらい書けるのだ! そのあと帰ってきてビルのエレベータにのったら、McDonald のポテトの匂いが充満していた。
どうも今日はネットワークの調子がよくないらしい。
久しぶりに寒い一日になりそうだ。空は雲ひとつなく晴れている。
ほんとうはなにか「ブログロ風に」書こうと思ってやってみたのだが、 書けなかった。ブログロにはネタが必要である。 お天気の話なんぞを書いていてはいけないらしい。 どういうわけか、天気とか料理について書く人はあんまり見ない。 たいていは
まあ、つまらんよね。基本的に。
「陽炎」ってスゴい言葉だよな。よく作りやがった。
するとふいにがたん! と音がして、火花が散ってあなたは現実に 引きもどされる。引き戻す距離は (尺貫法で) 4光年ぐらいあるので、 ひっぱられた腕はだいぶ痛むだろう。
いつもなにか (いつのまにか)、Safaryy が 1.2 にアップーデトされて煎る。
あのさあ、どうでもいいけどさあ。
人工甘味料ってどうしてこんなに甘いの?
新山はまだおカロリーを気にする体格ではないので、 人工甘味料よりも伝統的なグラニュー党のほうが好きなのだが、 ここでは砂糖というとドブクロ (袋まるごと一個、の意味、いま勝手に考えた、 かさばってうざいあたりの感覚が先頭の「ド」に集約されてる、ドブロクと非常に煮ているが煮て火なるものである) でしか 売ってないことが多く、一口サイズのパックで売ってるのは人工甘味料しかない。 ドブクロで買ってもいいが、だいたい量がありすぎて使わないのでもったいないのだ。 で、仕方なく人工甘味料を買うと、これがたった 1g かそこらでド甘いという 現象に遭遇するわけである。なんつうかさ、これ、下品なほどの甘さ。 わかる? 下品も下品、まるでアメリカ人向けの菓子ぐらい下品。おっと!
というか新山は「人工甘味料 → チクロ!! → 発ガン」という 安易な思考の流れがあるので、どうもいつ自分が発ガン君にやられるか不安でしょうがないのだ。 (ウソ度 34%)
ところで (てくるで) Lush を使った機械学習の宿題はいつでるんだよ!! まず先々週の水曜日に「あした宿題だしますから、メイリングリストに流しますから」 って言っといて、なーんも音沙汰ないと思ったら、そのつぎの授業で 「えーと先週はたぶん気づいたと思いますが、宿題ださなかったんですけど、 あした宿題だしますから、メールしますから」で、 4日間たってもなんにもなし。オイコラ。あのおやじ、やる気あんのか? こっちは宿題を楽しみに授業出てんですから! ニッポンの大学生のときはこんなこと考えもしなかったが、こちらの学生は宿題を喜ぶ傾向にある。 よく考えられた宿題は理解を助けるからだ。ちなみに今までで一番たのしかった宿題は ぺるりん先生のやつであるが、じつは一番役に立っているのはアルゴリズムの授業で 出されたあの地獄のような量の問題かもしれない。なんたって解くのに 2〜3日はゆうにかかったからな〜 (宿題のために徹夜したのもなつかしい思い出である)。
そういえば、「旅行-driven」で思い出したけど、 トクナガ先生って絶対 旅行-driven で学会に出してるよな。 だって米国で学会やるときは全然こないのに、 ヨーロッパの学会だとどんなにマイナーでも絶対行くもんな〜。 (なお、これは「本人がこんなとこは絶対見ないだろう」と 仮定して書いておりますが、万が一見られても開き直る自信はあります)
寝るか。
きょうは地下鉄で遊んでしまった
名づけて「迷子遊び」。
思うに、やつらはなんだかんだいっても trackback とかたいして活用してないよね。
コメントとかもばんばんあるわけじゃないし。
新山に言わせりゃ「blogツール」というもの全部が第二システム症候群なのだが、
いつまでみんなこんなの続ける気なんだろ新山はもうとっくの昔に飽きた
ね。
たぶん今から10年後くらいには「ありゃあ一体なんだったんだ?」ということになりそうな気がする。 blogだけではない。Wikiもそうだ。ファイル共有もきっとそうだ。 なにかが根本的に欠けている時代に人々の目をごまかすための、 過渡的な技術というふうにしかみえない。 (それをいってしまえば、web もメールも多かれ少なかれそういう面はあるが)
しかし欠けているものがなんなのかはさっぱりわからないけれど、 とにかくなにかが欠けてるよ。それはたしかだ。
すてきなひまつぶしですね (お世辞)、と言ってあげればいいのだろうか。 そのわりには、たいして楽しくもなさそうなんだよなあ。 いやほんと、さっぱりわかんないんですよ。
きょうは、赤かった。
(追記) 統計的手法をやってる人がよく言う文句のひとつに 「人手を介さずになんでも学習できるからいい」というのがある。 が、これは実際にはハゲしく間違っているということがわかった。 とくに supervised learning の場合、お前、その学習データは誰が作るんだよ、 コーパス作るほうが PhD 学生ひとり雇うよりも何倍もカネかかるじゃねえかよ! ということで、新山は基本的に統計的な手法のメリットというものを ほとんど信じていないのだが、研究者的にはこれにはひどいメリットがあって、
まあ、なんだかんだいって自然言語処理は停滞してると思う。 新山はどっちかってえと認知科学よりのほうが好きな人間だったので、 表層ばっかり使っっってる研究はもういい加減あきてるのだが (そういうのがすきな人は、Google にでも修飾すればいいと思う 、好きなだけデータを使えるよ)、 これもタダ旅行のためですどうかおゆるしください、自分。
夢の中で、なぜかパック旅行 (日本国内の) に参加していたのだが、 バスからおろされてみるとあたりの人間はみなカタコトの日本語を話し、 間違った漢字 (「按全第一」とか) がそこらじゅうに書かれている という「エセ日本」だった。みょうに表記が古めかしく、しかも漢字が多いので 「もしかして台湾かどこかにつれてこられたのか?」 と一瞬思ったが、あと 50年もしたら移民が進んで日本は本当にこうなるのかもしれない。 あたりは曇り空で、町はなんとなくひなびた感じがし、通学中の学生はやけに純朴そうであった (というか、かれらの髪型はあきらかに中国人っぽかった)。あれは日本国内だったんだろうか。 それにしても、みょうにリアルな夢だったなあ…。
50年後までに絶対に起こりそうなことはいくつかある。覚悟しておかねばならない。
そうか! COLING に通せば欧州にタダ旅行できるというわけか! がんばろーーっと!!
いつもいつもいつも新山の論文はタダ旅行-drivenで書かれているような気のする。 (日本にいたときからそうであった)
todo: トイレ神、ハブらし
しょーもなー。スペルチェックしろよ、スペルチェック!!
まっかろっくぴっつ、
まっかろっくぴっっつ,
あほなシェルスクリプトをかき、それを fooli.sh
と名づける。
smoothjazz.com で、ナレーターが
「ギタリストのロナルド・ブー・ヒンクソン! (あきらかに『ブー』の部分を強調して言っているように聞こえる)」
というたびにニヤニヤしちゃってしょうがないのでしょうが、
これは私 (わたくし) が子供だからです。(わたくしが)
google://よろそよ/ (0圏)
もうどこにもいない
ところで、キチガイ的クローラは自宅サーバの敵なのでなんとかしてほしい。
def filter_ratio(threshold, nartss, ratioss): return apply(zip, map(lambda (narts, ratios): ratios, filter(lambda (narts, ratios): not filter(lambda nart:nart < threshold, narts), zip(apply(zip,nartss), apply(zip,ratioss)))))
これは
などとして呼び出し、左の配列filter_ratio(50, [(100,120,150),(200,40,300)], [("a","b","c"),("x","y","z")])
[(100,120,150),(200,40,300)]
の要素 2つがどちらも 50 を超えている
要素と同じ位置にあるものを右の配列 [("a","b","c"),("x","y","z")]
からフィルタする
(結果は [("a","c"), ("x","z")]
) というものだが、
3分たったらもう自分でも何やってんだかわからなくなった。
いや、最初からわかってなかったのか。
しかし、あきらかにもっとわかりやすい方法があるはずだ。
そういえば故・祝一平の著書に、「その筋たる人間の条件」として
しかしこういうのを見ると、あきらかにオレは Lisp 的思想に毒されているな。
(この日記はおもに Bram Cohen の名前を知っている人を対象として書かれています)
くそー、日本行きの国際線はノンストップ瓶だと 同じ Continental でも JFK のほうが EWR より $300 も安いじゃないか! 往復にタクシー使っても まだ全然おつりくるじゃん! 知らなかった。 これからは JFK を使うことにしようううう、う。 EWR ちかくて便利なんだけどなあ。あれは国内線専用か。
ひとついいのは、この方法だとデータが増えれば確実に 精度が上がると期待できることだ。。。なぜなら時系列データが増えれば、 そのぶんだけサンプリングする点が多くなるわけだから。 しかし、もうひとつの問題は、腹がへったことだ。 これは早急に解決しなければならない。空腹度でソートしたときの 結果を見ると、やや早めに切れている。ダミーの数値を与えて ごまかしておくか? いやそれはだめだよ、… が悪くなる。 そうかい、そうかい。
てゆうか論文はもう書いたよ。あとは今日中にド変更さえなければ。
/bin/mail
を
使ってるところをはじめてみたのにゃあ感動した。
今日も平和、と…。
email.*
の部分を訳したから!)
ああでもそうすると /bin/mail を使ってるおじさんは提出できなくなるから駄目だね。
で、そのご「行きの飛行機いつにする?」とかいう会話をしていたら Anina (学生事務のおばちゃん) からメールが来て 「アンタ! RAのアポイントメントレターを今日までに提出しろって言ったじゃないの さっさと提出しなさいよ!」とおこられた。ふげえええ。いちおうサインはしておいたのだが、 「あとでメシ買いに行くときに出せばいっか」と思ってたのだ。もうしわけありませんでした。 そのご帰ってきて、ゴハン (といっても米じゃないけどここは米だけど) を 食いながらこの日記を書いている、という蟻様。明日からまた Grimm 先生の授業があるので (この OS の授業は週に 2日ある)、明日の朝までに 30ページ弱の論文を読まなきゃなんないぞ。 オレは、自分の忙しさを自慢するようなやつは嫌いだ!!
甘いコーヒーをのんだあとに、シブい紅茶が飲みたくなってしまうオレはアホでしょうか。