2005年 6月 (1)。

Last Modified: Fri Jun 10 23:48:54 EDT 2005 (06/11, 12:48 JST)

Jun 10 [Fri]


(11:05)
いつのまにか人はそのことを忘れてしまうものだ、と。

ふと、あることがなかなか進まないというのは、 まとまった長い時間がとれないからではないかと思った。 限られた時間で多くのことをやり終えたいなら (まあ、こんなのはこのご時世だからの話であって、本来はそんなの必要ないと思うが…)、 「細切れの時間」でも物事をうまく進める必要がある。

ところが新山はノッてくるまでの時間がどうも長いのよね。

(13:38)
誰も理想を語らない世界ってつまんない。
(16:09)
ころきあ冷房寒かった。生成的な構文解析モデルの分析について。 Collins 99 のパーザでは lexicalized された bigram を使っているのが特徴だが (ただしデータはひどく sparse なので backoff が非常重要)、実際には この bigram を使わなくても性能はそんなに変わらない。 なぜなら、Bikel の分析によると、実際に Collins で性能に影響しているのは この手の bigram ではなく、head → structure の確率だということが判明たから。 あと言語特有の確率を分離したことにより中国語にパーザを 2日で (!) 移植でき、 しかも高性能だった。ただし英語と中国語はどちらも inflectional でないために (形態的変化がすくない)、アラビヤ語やチェコ語などへの応用は不明である。 なにいってんだかわかんないよね。 まー、分析そのものはマトモっぽかったが、そもそももとが統計的解析のために 「なんか無駄なことやっとるな」という感想だけが残った。 どうでもいいが、ある超有名な構文解析の研究者 C氏は 「もう性能あがんないからパーザの研究やめる! でもこのことは皆にはいうなよワレ」 と言っていたという。そらそうだ。ようするに、統計的な手法っつうのはコーパスをとってきて、 あとはそれを「いかにマネできるか」ということだけを目指す、 というものなので、言語一般に対する面白い発見はほとんど期待できないし、 工学的にも使いものにならない。たとえばその有名な C氏のパーザというのは、 使ってみるといつもかならずある構造で解析をミスるのですが、こういうときにモデルが 統計だとどうにもやりようがない。仕方ないのであとから規則で直すことになり、 いったい何のための統計なんだ? けっきょくいくらコーパスを学習しても、 それは言語を学習していることにはまったくなっていないのだが、 しかししかし実に奇妙なことに、このテーマはいつも論文にだけはなるのである! みんなさー、他にやることないの?

もし今後、自然言語処理が応用されるとすれば (まだされてませんが)、 結局はこうしたアプローチよりも Adam のようなすぐれた言語感覚をもった人が ますます重要になっていくのだと思う。だが、新山が本当に興味あるのは 応用じゃないのであった。

(17:37)
TODO: June 14, 7:00pm, LispNYC, 場所はいつものところ。

てくるで、 "High-Performance Commodity Computing Hits The Mainstream" はどうやって日本語に訳せばいいんだろ?

「ハイパフォーマンスなコモディティ・コンピューティングがメインストリームに」

これじゃナガシマ病だ。

「高性能な一般用品コンピューティングが主流に」

今度は意味が違ってみえる。たぶん論理的にいえば「ハイパフォーマンス == 高性能」だが、 日本語で「ハイパフォーマンス」といったときのニュアンスにはやや「高性能」とはズレがある。 "Commodity" を何て訳せばいいのかは、いまだにわからない。 google://コモディティ/ はこれまた苦しい言葉だが、日本語として広まっているのだろうか?

(23:45)
pypi で unagi.py-0.38 をあっぷでーとシタラいつのマニカ「hiddeん」属性ガツイチャッテ、 ずっとトっっプページに現れてなかった。みんな、気おつけよう!!1

けふの夕食はムール貝のパスタ。トマトピュレーと酢を入れて。 こう書くとずいぶんグルメなものを食っているように聞こえるが、 材料費は $5/人くらいしかかかっていないのである。 “かしこく生きよう。(live crazily)”がモットーです。新山です。

Jun 09 [Thu]


(11:17)
みジドん、そして綿棒がきれている。

未来の自分に告ぐ: もし今日これらを買い忘れたら、呪うぞ。笑い殺すぞ。あと、まーまレードも

(13:34)
なんか、きれいじゃないよなあ。

オレは「きれい」「きたない」という形容をいろんなものに対して使いすぎるような気がする。 つまりそれは自分の美的感覚にてらして「受け入れられる」か「られない」かという 意味なのだけど、美的感覚というのはこれはもう信仰のようなものだ。 だから新山は「きれい」という単語を、「神聖な」というのに近い意味で使っている のかもしれない? まあどうでもいいけど、とにかく、きれいじゃないんだよ。このあたりは。

それから「自然だ」「自然でない」という形容もよくつかう。使いすぎる。 しかしこの感覚がどこから来るのか不明。おそらくなにかバイアスがかかっていることは ほぼ確実なのだが、自分ではそれはわからない。

過去はほとんど参照されていません。

(14:16)
最近さー、長距離電話会社の勧誘がよくかかってくるんだよね。 それも日本語で。受話器をとって "hello?" というと、 「もしもしー?」とか言われる。しかも今日の場合は、向こうの日本語の イントネーションがおかしく、なんとなく中国人ぽかたので、 こっちも影響されて中国人ぽい喋り方になてしまたアルヨ。うそです。 どうでもいいが、この手の電話会社はこれから不利になっていく一方だろうなー。 そろそろ商売変えたほうがいいんじゃないの? なんとなく。なんとな病。
(00:37)
がーーーーそ!! じつは味噌を切らしていることを忘れてた!!!
ピーナっツ!!!!! (なぜかいま頭の中に出てきた、意味不明の単語)

お前のようなやつはピザの上にのってるマッシュルームを 「ナメクジだ」と思い込んで悶え死んでしまへ。許可不許可。

論文をまたすこし読んでいるが、それにしても、これは学会に行っても感じることだが、 「何でそんな研究が楽しいの??」と思う研究をやってる人が世の中にはいっぱいいる。 彼らが自然言語処理のどこに魅力を感じているのか、論文からはまったく伝わってこない。 とくに、応用もたいして関係なさそうな分野で、ただ機械学習アルゴリズムを とっかえひっかえ試してるだけ、みたいな研究で特にそういうのが多い。…が、 こういうのはとにかく一発当てれば「業績になる」ので、 ギャンブルが楽しい人と感覚は一緒なのかもしんない。 一度当てると味をシメるのだろう。どちらにせよ理解不能だが、 あれをやってる人は「機械学習はカネになる」ではないが、 「機械学習は論文になる」と思ってることは間違いない。 まあ、そういう連中がこの分野を「食い物にしている」という確信は いよいよもって深まるばかりだけど…。 これじゃ、まじめに言語を研究してる人は寄ってきてくんないの、当たり前じゃん。

そういやこの方面の「親玉」は、ことしは某国際学会に○本も論文を通されたそうな。 げーーっ、 ○本も?? しかもファーストで? 日本の某処理学会にアホみたく何本も論文を出すのとは ワケがちがうぜ (まあ、誰とは申しませんが)。 これって絶対終わってる。(学会がね)

しかしこの世界においては、こんなマトモそうなことを 言っちゃいけないということも新山は理解しているので、講評にはこう書いておこう。 「ファンタスティックな学習アルゴリズムですね!」と。

Jun 08 [Wed]


(11:31)
新山はいままで「強い型付け主義 (変数に型がついていて チェックされること、C や Ada など)」が好きだったが、 これまで型が付いていない言語 (Python や Lisp など) の便利さというのは、 たんに変数を定義する必要がないとか、途中で気が変わって別のものを入れられる、 という程度のことだと思っていた。けど、最近になって別のよさがわかってきた。 変数に型が付いていない言語を使っていると、多態 (polymorphism) が ごく自然な考えに思える、ということである。 というか、多態よりもさらにラディカルな考え方「なんでもアリ態」に慣れてしまうので、 vector<int> なんてのを見ると、 「なんだ、どんな型でも入れてあげればいいジャン」と思うし、 さらに「あるメモリ上のオブジェクトをファイルとして扱うためには InputStream を (多重) 継承しなければならない」とかいうのを見ると 「アホか」と思う。duck typing に慣れていると、こういうったことは メンドーくさくてしょうがない、というか、これだけのコストをかけて ほんとうに安全性が確保されるのか? と疑問に思ってしまうあるね。
(12:04)
めでぃおくれ (mediocre)!
(16:35)
あちーーー。

spam ばかりひっかかる検索キーワード: google://very-low-price/

(20:52)
またヨークタウン方面から電話。 某氏は天才的な業績をお持ちのうえに多才かつハンサムなんだとよ。 なにそれ? 優秀でもハンサムでもなくて悪かったな〜〜〜〜、くぬやろ! しかし彼がその優秀ぶりにふさわしい仕事を与えられているかというと、 そうでもないようだった。まあ大企業なんてそんなもんだな。 だけど米国内でもトップクラスな給料もらってるんだろうから文句いうな。

まあ、ここはいくら金もってても決して幸せにはなれない国だと思うけどね、

(23:40)
VNC の shared mode をつかって、ヨークタウン方面と fstream の使い方について議論する。やっぱ VNC は便利だな〜〜

ちなみに親のマシンにも vnc がインストールしてあるが、 長野 - NY 間でも操作性はそんなに悪くない。

(00:12)
本日 (ほんづち) のなにげな google キーワード:
google://ごっ/

まさか本のタイトリになっとるとは知ルませんでした…

(01:39)
どうでもいいけど、"Odessey" って、英語では「おでっせい」じゃないのね、 発音が。「あーですぃ」なのだ。最初、何のことだかわかなんかった。

てくるで最近おもしろかった本。トマス・ホーヴィングの 「にせもの美術史」 ("False Impressions", Thomas Hoving) だ。 こちらに来てから英語の本はなるべく原書で読むようにしているのだが (安いし、訳者を通さないので) … これは紀伊國屋で「一目書い」だった。 本屋の戦略にやられたって感じである。しかしこれがおもしろい。 副題が「メトロポリタン美術館長と贋作者たちの頭脳戦」なのだが、 ホントに頭脳戦って感じだった。これは新山のような人間の 「美術」というものに対する見方を完全に変える。 日本で「なんでも鑑定団」などを見ていると (うちの親が好きな番組なので) 鑑定というのは豊富な知識がものをいうように見えるが、 この本で扱われている美術品の鑑定は完全に科学というか、もう推理小説の世界だ。 なにしろ世界には美術館になんとか贋作をうまくだまして買わせようという人々が 後をたたないのである。うまくいきゃ億単位の収入だからな。 ホーヴィングら美術館キュレーターの仕事というのは、画商やらオークションをまわって、 こういう偽物をつかまずになるべく貴重なものを予算内でうまく「しとめる」ことだ。 ライバルは個人コレクターと他の美術館どもである。 万が一、公共の予算で偽物を買ってしまったら、責任をとらねばならない (といってもメトロポリタンの場合は私立だが)。 そのニセモノのチェックリストがおどろく。こんな感じだ:

まさに探偵って感じだ。さらにホーヴィングたちはすごい一品を買うために オーストリアまで出張し、彫刻の売り手の前で紫外線ランプをとりだして 「検査させていただきます」といって彼の反応をうかがう、 といったことまでやる (この章は圧巻、いろいろな購買記録や過去の文献をあさって 最終的にニセモノであることがわかるのだ)。 いやーー、美術館って、もっとのんびりした世界かと思ってたよ。 現実はずっとハゲしい世界だった。しかしこのようにおもしろいわけです。 おどろいたのは、メトロポリタンでさえもいままでに騙されて偽物を何度も (しかも高価なやつを!) 買っているし、贋作という決定的な証拠もないが 「どうもあやしいぞ」と疑われたまま展示されている作品というのも 結構あるということだった。で、影響されやすい新山はこの本を読んで はじめて真剣にメトロポリタンへ行きたくなり、行った。 本に載っている作品もいくつか見たが、 当然オレが見ても「ふ〜〜〜ん?」と思うだけであった。 美術館へ行くときの態度が変わるね、これは。

ときどき SOHO の画廊なぞへ行くと、たまに「ピカソ作」とか書いてある 落書きのようなスケッチがあったりする。たぶん有名でない落書きだから そのへんのギャラリーにあるのだろうが、あれは本当にピカソだったのだろうか。

Jun 07 [Tue]


(06:56)
うぇえーーー。なんで (=ぬんで) 朝からこなにムシ蒸しいんだっっ。 これはこれはきっときっと謎の怪現象“うぉんだん化”つうものにちがいあるめぇー。 私たちが火をつかいすぎたからだ! しかし、けれども、料理には熱がかかせない。 さもないと腐ってしまうね。腐てしまうあるね。意味が不明的。・・・ ・・・・ 早く起きすぎるといいことがあるといったのはだれだ! ちっとも、ねむいだけだぞ。そんなことがあるもんか (=あるむんくwaA)。 またネムくなってきちゃったちょっと寝よ。・・・・・ ・・・

(= そうこうしているうちに (= meanwhile))

このページをどのようにして知りましたか? (複数回答可)

これでわかりますよ
ね!!!!!!!!!!!!!!!

思うのだが、新山はま
だ携帯電話を使ったことはないが、け
イタイ電話を使うと改行が多くなるた
めに日本語が違った感覚になりそうな気
がする。それはた
とえばこんな感

だ。わ
かるよね?

「ぜんぜそ。」
(15:29)
中国、すべてのウェブサイトに登録を強制だってさ。

まあ、ブログロで「コイズュミはヤクスニ産廃ヤメレ」とか書いたらもうダメなわけだ、もし日本が中国だったら。 そもそも blog を「ブログロ」って呼んだ時点でもうダメそうな気がする。 どぅーーでもいぃーけど、彼らはぜんぶ人手で監視する気なのだろうか? はっきりいって、こういうところで自然言語処理がお役に立てそうな気はするのですが、 本当にお役に立ってしまったらヤバいのでやっぱり研究しないほうが正しいのだ。うんそれが絶対正しい。オレって

どうでもいいが、きょうのスラッシュトッドで、Rob Pike もベル研から Google に行ったと書いてあった。 給料カットが原因で。 Google いって一体なにやるんだよ? Google Plan9 でも作んのか? Weinberger (AWK の W、もとベル研) もいまじゃ Google でネットワークの仕事しているらしいし、 なんかもうあの会社は往年の (すでに賞味期限の切れた) 有名人を 美術品感覚でコレクションしてるような気がする。 これは金持ちが高価な美術品をカネで買うのを思い出させる。 買う本人は美術品の価値なんてわかっちゃいないのだが、ハクづけのために買うのだ。 アメリカでは金持ちがそういうことをするのは結構あるらしい。ヤ-な世の中ね。 それとも「我々は善人なので、こーゆー偉大な人々を引きとってあげるんですよ」ということを アピールしたいのだろうか。そしてハク製にしちゃうのだろうか。どっちにしろ悪趣味だ。 しかしシステム屋というのは弱い立場にいるんだなあ、とあらためて思った。 というか、ベル研が元気ないのか。

てくるでハク製とハクづけ (=ハク漬?) は似ているが、関係ないと思う。

(17:14)
査読のために送られてきた論文にざっと目を通す (昨日の今日なのに、もう送られてきた!! 仕事が速いですね)。 なんだ、どれもこれもつまんねえ。 今回新山が出した論文は自分でも本当につまんないと思うので人のこといえないけど…。 いつも思うのだが、これは自分が出した論文やセキネさんの論文を見てもそう思うのだが、 論文を読んだあとに、「あっそう、よかったねっ」と言って 終わりにしたくなるようなものはダメなのである。 優れた論文というものは関連研究を誘発しなければならない: つまり、 それが解決した以上の問題を新たにつくり出さなければならない。 そうでないと世の中縮小していく一方だから。 しかしその基準で見ると、ほとんどの論文がダメ論文になってしまう。 ダメなもんを「ダメ」と言うことがオレの仕事ならそれでいいけど、 期待されているのは「良識的な (ようするにこれは“いい人ぶった”という程度の意味でしょ?)」 レビューだろうから、「こんなもんか?」という程度のやつを「イイ論文」まで スケーリングしてあげる必要がある。 というか、ただ「ばーかばーか」と言っててもちっとも建設的ではないので、 どうせなら「採択するけど、のように注文をつける」ってのが望ましいな、 うんそれでいこう。 まあカメラレディまでのあいだに頑張ってくれよ。

(この日記は非常に建設的です、新山にとっては)

(20:28)
よく考えてみたら (いや考えなくても) 「昨日の今日」って変な日本語だよなあ。 なのにみょうに意味が通じる。フシギだ。

今日は夕立ちこないの?

(00:40)
なにいー? アレチウリって食えるのか。 しかしあれ、まずそうな植物だよなあ。食いたくない。

てくるで今日の夕食は、チキンカツを揚げた。 あいかわらず揚げ物用の鍋がないので時間がかかる。 どうやってやるかというと、底深のナベにオリーブ油をすこし多めに入れ (あんまり入れすぎてはいけない、あとで吸いとるの大変だから)、 電気コンロの上で鍋を傾けながら少しずつ揚げる。 いちおう日本式のディープフライになっていると思うが、 油の量が極端にすくないので一度に 2、3個揚げることはできない。 おまけに、ずっと鍋を傾けていなければならず手がつかれる。 しかしちゃんと揚げられたときの感慨は格別。パン粉だけは日本製のやつ。

Jun 06 [Mon]


(09:27)
あーーー、ハメツ的な夢だった。

かろかっく いいかtpyoをそのままにしておくとよくないことがおきるぞこれは誓っても
いい!! gupta.

oogleで顔文字が検索できないな…。)*^_^*( というのを検索したいんだけど…。 (ヤセうぇお強調している)

いいかtptyoをそのまむにしておくとよくないっていった
らろ!!!

あつさのせいです。なんでも

そういえば libsubprocess.tex ずーーーとやってねえや。やんなか。

(11:24)
冷房のアルトコロニ来タラヨウヤク人間性をとりもどせた。こんなんじゃいかんよ! いかにょ。打鍵みす

ミス打鍵! ミス千葉県!

(11:25)
あのなぁー、おい。
叫べばいいってもんじゃねーぞ
アトナンデモミギヨセ

あとなんでも片仮名。

(11:31)
On the Parameter Space of Lexicalized Statistical Parsing Models

Dan Bikel
IBM Research

Friday, June 10
2:30PM
Room 102
Weaver Hall
251 Mercer Street
NYU, NYC, NYS
なんだ Dan Bikel っていまワトソソ圏にいるのか。 それにしてもこのトークはあいかわらず興味なさそうなテーマだが、 それでも出なきゃなんない。出なか。
(13:19)
お昼はお天気がよいのですこし遠出して、macdougal で kebab くった。 ひさびすりに kebab うまーーー=== ヨーロッパ貧乏旅行をして kebab のうまさに目覚めた人がいるが (新山もその一人だが)、 日本でかような kebab を出すところがあるのか疑問だる。 けれど日本で流行るかどうかは何ともいえんな。味そのものは日本人にも絶対ウケると思うが、 語感が悪い。ケバぶ。ブロぐロなみに悪い。しかもこれはファーストフードでなければいけないのだ。 1000円も出して食いたくないよ。どっかがチェーン店で始めればよさそうな気もする。
(20:29)
ついつい WWDC の Jobs の講演 を見てしまった。 やはり Apple はなんかしらんがスゴイ (変態な) 会社だと思う。 Apple II から Mac から Scully時代の意味不明のモデル乱立期をへて、 互換機をつくりだして、捨てて、一時は風前の灯とまで言われて、 そのあと Newton とかスケスケ iMac とか訳わかんないもの出して、iPod と iTMS ですでに もう一体何屋なんだかわかんなくなっているのに、まだ懲りてないんだよ、こいつら。 まだもうひと勝負する気らしいんだよ。 一体なんなんだ? これほど長いあいだ紆余曲折ばかりやってる コンピュータ企業もめずらしいと思う。ワガママ Jobs が独裁してるからか。 しかもこのワケわかんないイメージ戦略と秘密主義と Jobs のイヤ〜な性格なのに (いやむしろそのためか) 大量の狂信者を獲得。 コンピュータ界のオウム真理教みたいなもんか? そもそも、たいていの会社はこんなにあっちこっち迷走しないよね。 MS にしろ Adobe にしろ Intel にしろ、いつも確実なメシのタネをもっておいて実験するのに、 Apple にはつねに背水の陣っぽい雰囲気が漂っている。 毎回、凝った一発ギャグを開発するのに (そしてその腕はなかなかいいのに) いつも競輪で身をもちくずしてるヤクザな芸人みたいなもんだ。 しかし、こいつが実はスゴイんだよ! まあ、そういうヘンな企業がまだ デカいツラして生きているというのはアメリカの偉大さかもしれない。 でも考えてみりゃー今回の Intel 化は大衆迎合路線の一環かもしれないな。

Jun 05 [Sun]


(10:01)
朝から暑いのさ。今日は最高 32℃くらいまで上がるらしい。うげーー
こないだは最高 22℃とかでちょっと寒いくらいだったのに、 1週間でこの差はなんだよ!
きのう雨がふらなかったから温度が下がらなかった、 ということはありうふ。 オヤ? このページによると、「ありうる」より「ありえる」のほうが多いはず なのに、web 上では「ありうる」のほうが多いのかな?

しかしまあ、実をいうとこの Google の「〜件」というのは非常にアテにならない。 というか、これは「検索によって返される可能性のある max 件数」を算出しているだけだと思う。 たぶん index 中にある URL 数をぜんぶ合計しているのだろう。 だから複合語などを検索すると、実際の絞り込み中にがくっと数が減ることがある。 どうでもいいが、この「絞り込み」がまたナゾである。たとえばものすごく件数の多いキーワード (たとえば "の" など) を検索して、 990件目から表示させる と「最も的確な結果を表示するために、上の 659件と似たページは除かれています」と出る。 Google が同一サイト上にある複数ページを省くというのは知っているが、 「の」を含んでいる日本語サイトが世の中に 659件しかないというのは、どう考えてもおかしい。 何か余分な絞り込みを行っているに違いない。 まあ、これは、ようするにどっかで検索をすっとばしているのだろう。 あんまり CPU を使うような重い検索をされると困るからね。

(11:01)
てくるで (ところで)、この夏はどこへも行かない予定なのだが、 なんか言語を習いたいとなんとなく考えている。 どっかに 2ヵ月ぐらいの集中講義をやってるところはないのだろうか。 NYU のコースは高いので、行くとしたらどっか別のところだな。 英語学校なら死ぬほど沢山あるんだけど、 今のところ、まじめに興味がある言語は以下のとおりである:

日本だと、手話はまだ健聴者が「習ってあげる言語」って感じなので、 たいてい近所の手話サークルへ行けばタダで教えてもらえると思う (今ではちがっているのかな? 新山は祖父がろう者だったので、小学校〜中学にかけてそういうサークルに通っていた)。 しかしこちらでは ASL は、無料のところも探せばあるだろうけど、たいてい無料ではない。 アッタリマエだ。なぜなら ASL は中国語やドイツ語と同じように 一個の独立した自然言語であり、彼らのコミュニティに入るにはこちらが 手話を習わなければいけないからだ。教える方もプロの手話講師がいる。 日本でも中国語やドイツ語をタダで習えるところは (なくはないだろうが) 少ないのと 同じように、こちらでは手話を習うのもタダではないし、教え方のうまい下手が問われる。 そこらへんの感覚がまだ日本では遅れているよなあ。 日本の手話は日本語に「従属する」言語のように扱われがちだが、実際はまったく違う。

しかし ASL はいろんな意味で興味ある言語なのである。 まず、日本語の手話は基本的に口語をベースに作られたので、 その文法はある程度日本語に似ているが (ただし助詞はないので語順をある程度考えないとだめ)、 ASL はまったく文法が英語と違っているということ。たしか、フランス語ベースなんだっけ? そして、これはどの国の手話にもおそらく共通する特徴だろうが、 空間ベースの言語だということである。つまり、オブジェクト間の関係を直接、 空間的に表現できる。これは口語ではかなりむずかしいことだ (新山は話すときにジェスチャーを使うことが多いが、ある意味これは似たようなことしている)。 新山は「人間の思考は空間的推論を基にしているのではないか」という 仮説をもっているので、じつは手話のほうが人間の思考体系をよりダイレクトに 表現している言語なんではないかと思っている。手話の発展過程や、手話による自発的な発話 (健聴者は考えてもみないだろうが、ろう者は独り言も手話でするのだ! でもこれは手話が彼らの 自然言語になっていることを考えればまあ当然かも) を研究すれば、 人間の認知について重要な知見が得られるのでは? 言語学では手話はどれくらい真面目に扱われているのか? すくなくとも、チョムスキー系ではぜんぜんやってないような気がする (自信なし)。

自然言語処理で手話を研究対象としているところはあるだろうか? イヌイさんのところで、ろう者を対象にした日本語の言い換えを研究しているってことは 知ってるけど、あの人々は手話をあくまで「日本語のできそこない」としてしか 扱っていないように見える。手話は口語日本語にない機能に大きく依存しているのだから、 手話は手話として研究しないとダメだろう。 イヌイさんにとくにそういう問題意識があるようには思えず、いかにもこじつけっぽくて、 ただマイノリティをダシに研究を目立たせようとしているようにしか見えない、 正直なところ。

(14:08)
それが同じものならコピーすればよい。
それが同じものならコピーすればよい。
それが同じものならコピーすればよい。
それが同じものならコピーすればよい。

(すべて手打ち)

(16:00)
ちょっとした買い出し。 あぢーーー。今日はさすがに 30℃を超えているようだ。 まだ湿度がそんなに高くないので、日陰に入ればそんなでもないが、 やはりあつい。天気はいいのだけど。

つうことで、先週あたりに撮った写真などを載せておく:

(17:26)
あれ? 気づいたらウチに茶こしあみが 2個あることに気がついた。あれ? そういやーこれは前にコップ用に買って、あんまり使えねーのでそのまま放っておいたんだった。 だからこのふたつは大きさがちがう。しかしとにかく。 重複事象。 重複 (じゅうふく=ちょうふく) 表現。ちょうふく。

きょうの今日訓: 同じものを 2度買わないこと!

(20:28)
知ったこったです!
(22:03)
なんで filterremove-if-not なのよ? このおたんこナス!

てくるで (ところで) オブジェクト指向 (似非) で書かれたプログラムでなにが一番ムカつくかというと、 「データに、必要もないのに余計な手続きがくっついている」ときだ。 データと手続きは別々に扱ったほうがぜったい便利なときもあるのである。つまり

データ(手続き) → データ(手続き) → データ(手続き)
というよりも
データ → 手続き → データ → 手続き → データ
というかんじで操作を行いたいときがあるのだよ! つーか、おそらくこれは中途半端なデザインの結果なのだろうけど、 たとえば C++ なぞで複雑なデータとそれを構築するメソッドがいっしょになっているのだが、 途中経過でしか使わないバッファなどもぜんぶ private でゴッソリ入っているというのがある。 これ、ドーーにかしてくれ。つうかお前みたいなヤツはこんな言語使っちゃいけない。 オブジェクト指向をやるなら、どんなつまらんデータでも「なんとかかんとかContainer」みたいな 完全にカプセル化されたオブジェクトになっていなければならないし、 どんなつまらん手続きでも「なんとかかんとかConverter」みたいな完全独立の オブジェクトになっていなければダメである。そして高々 hello world を表示するにも 数百行のコードを書かなければならない (ただし、そのかわりに完成したら鬼のような拡張性を誇ってよい、 だれも聞かねえけど)。それができないなら最初からするなっての。

「将来、足し算の仕様が変更されても、13が素数じゃなくなっても対応できます!!」

Jun 04 [Sat]


(08:07)
今日も雨 La Cie。

「ほんとに?」
ほんとだよ。
「ホントニ?」
ホントダヨ。


そうだったらほんと!
うそだったらほんと!
(17:19)
トショカヌのあと紀伊國屋。…のはずが、順序は逆になった。 しかし今日はとくに衝動買いするょうなものは見つからなくて、ひと安心。 その後 Donnel で 2時間ぐらいつぶす。今日はあついねや。

わぅたぅくぅしぅはぅ、

Jun 03 [Fri]


(08:39)
arabiki!

ふといま思いついたが、arabiki という Wiki の仲間があったら面白そうだ。 いや、名前だけ。アラビア語対応が特徴なのである。くだんねー。 ちなみに類似品は hayabiki だ。Kobiki ってのはどうか。なんかカワイイ感じだよね? (いや、しかし本物の kobiki さんたちはいかつい身体をしてるだろうが) そもそもいまの時代に kobiki なんていないだろうし、あのでっかい鋸 (なんていうんだっけ?) ももうないだろう。てくるで、「チェンソー」ってじつにへんな 語感だと思うんだよ。あんなのがよく日本語として普及したもんだ。

朝から脱線です。

Theo de Raadt インタう゛ュー

(11:01)
前髪じゃま。
(15:31)
ふんげaな一日さ。

とある web ページをみながら「ひゃっひゃっひゃっ」と激しくニヤけつつバカ笑いしていたら、 なにかうしろに人の気配を感じ、ふりむくと手直しした論文をもった Ralph が立っていた。

ふんげaな一日。

まあそういうことも世の中にああることのうであるmas. Wkrkr(わかりける)?

(18:23)
オレにマクロを使わせたらヤバイよ!
(23:09)
そういえば思うのだけどさぁー。

リポート (603,000)」と 「レポート (4,750,000)」は、 英語ではどちらも "report" なのに、日本語では微妙に意味が違う単語のように思える。 「リポート」っていうとなんか国際とか経済関係のニュースが思いつくが、 「レポート」っていったら大学のレポートだもんna。もはや、違う日本語が 2つできている。 まあこれは、「ガム」と「ゴム」のようなもんだ。もんか??

google://ホントかっ ホントなのかっ/

いやー oggoel はすごいなあ かくこと忘れた

(23:31)
思い出したよ。(taisiteomosirokumonaiga)

さいきん気づいたのだが、LWN.net の金曜日の翻訳はツライということがわかった。 このサイトは基本的に週末はお休みでほとんど記事が更新されないのだが、 そのためか金曜日の夜には「これでもかっ」とばかりにドババババと新着記事があふれるのだ。 これは結構つらい。slashtod のほうはもう最初から「やっても、やってもドバドバくる」 状態なのであんまり気にならないが。

Jun 02 [Thu]


(08:49)
あんた、泣いてんの?
(11:06)
てくるで、ミヤノ日記の「双子山部屋のほうが二子山部屋よりヒット数が多かった」というのをみて 思いついたのだが、Google Suggest 日本語版をつかってリアルタイムで かな漢字変換を実現できないもんかね? しかしそうすると「ふたごやまべや」は必ず間違った変換結果になるだらうが、 「いや、いいんだ! 数が多いほうが正しいんだ!」と どこかの自然言語屋のような主張をすることができ、ますます普及させられる。つまり、 日本語をさらにおかしな方向へと「負のフィードバック」させることができる。 しかしこういった現象はべつに今に始まった話ではなく、もともと ATOK なぞは 間違った読みを (それが普及しているという理由だけで) 大量に辞書登録していることで 悪名高いので、どのみちおかしくなってたワケだ。 まあ、「しね」とかはヒット数からいけば「氏ね」になるだろうな。 しかし Google を使うのは米国資本による日本支配という観点から考えるととくに興味ぶかい。 つまり Google 様 (=アメリカん) が日本語を定義するようになるのである。 これはたいした支配だよ。米国へのイヌぶりもここまでくれば大したもんだ。 日本人がかつて朝鮮の人々にむりやり日本語喋らせてたことを考えると、 この変わりようはとくに笑える。

…しかし、日本語の「正しさ」というのが普及度とは別のところで定められている、 という考え方は好きではないので、ある意味、Gサマ に日本語の「標準」を定義してもらっても 新山としてはべつにかまわない。が、そもそも言語に「標準」なんてものはないので、 「統計的な平均」を示されたところで NHK と国研ぐらいしか喜ばないだろう。 つねにヒトは勝手に自分の表現をつくるだろうし、誤用から生まれた言葉ってのは結構たくさんあるはずだ。 たとえば本当かウソか知らないが、英語の「orange」がもともとは誤用だったという話。

人はいつも統計に騙される。統計は世の中の動いたあくまで「結果」でしかなく、 統計が世の中を動かしているわけではないのだが… ヒトってのは数学的思考が非常に苦手な動物らしいから。

(13:16)
昼飯どさ。やはりこのおっさんはいつみてもすげえ。 新山がこの手の店でいつも感心するのは「手際のよさ」だ。 これぞプロ! って感じだね。ここのほかにも MacDougal St. にある falafel屋のにーちゃん (中東系) などがすげえ手さばきで毎回行くたびホレボレするのだが、 こういう人々に共通している特徴は、いつも動きに「迷いがない」ことだ。 それでいてちゃんとそれなりの品質ものができてくる。 ときどき NY のサンドイッチ屋で、手つきがスゲーー素人っぽいと 「やべえ、ボッタクられた」と思うときがあるが (みょうに外装だけこじゃれた店にそういうのが多いんだ)、 店員の手さばきが慣れてるところだと安心して買い物できる。 同じことはバーなどでカクテルを頼んだときにも感じる。 一見、かれらは適当に分量測っているように見えるが、 シェイカーを振ったあとにババババと最後の一滴まで注ぎきったところで ぴったしカクテルグラスすりきり、ってな状態のわけです (すりきりは行きすぎか、それよりちょっと前だ)。 やっぱ、プロってのはすげえよ。

てくるで (とこ)、G の話題ばっかりだが、 Google が Summer of Code とゆーイベントをやってるのだが、 なぜか LispNYC もスポンサーリストに入っている。 ほかのそうそうたるプロジェクトに比べると超マイナーだよね? そんで、Matt から「ユウスケお前は学生だけど、やる気あるか?」というメールがきたが、 新山はやる気ない。なぜならこの夏はすでに別の予定があるからね。 しかしFAQ をみると参加条件に国籍を規定しているわけではなさそうなので、 日本人でも参加できるような気がする。こういうのはカネに困ってる学部生には ふさわしいと思うのだが、どんなもんだろ。おまけに金額も競争ではなく「誰でもできたらあげるよ」という システムで、どっかの未踏なんとかプロジェクトよりははるかに融通がききそうでいい。 あいかわらず Google はやり方がうまい (たとえイメージ戦略だとしても、 どうせなら利用しがいのある戦略に乗りたい)。というよりは、IPA のやり方がヘタすぎるんだと思う。 どーーーせ何割かは絶対失敗するんだから数% (いや、数十% か?) のロスは 最初から覚悟のはずで、ヘンな報告書なんか書かせずに好きにさせればいいのに。 やっぱ、くだらん建前が重要なんだろうなあ。

(16:11)
オンライン価格にだまされやすいオンライン購買者

久しぶりに時間があったので slashdot のほうもかなり訳してみた。 こうすると自分が興味をもっている分野が見えてくるなあ。 新山は、科学っぽい記事やバカっぽい記事、あるいはセキュリティ関連をよく訳しているが、 SF やゲーム関連はほとんどやらない。ギョーカイ記事もときどきやるが、たいてい興味なし。 LWN はとにかくすべての記事を訳すが、slashdot はくだらないと思った記事はめんどくさいので 訳さないこともある。

どうでもいいけどいつのまにか「認知症」などというニホンゴがあらたしくできている。 ウラシマ降下。

(18:36)
ワラエル。

「ワラエル」ってカタカナでかくと、なんか天使の名前みたいじゃない?
ところで、「かたかな」って単語をヒラガナでかくと御蚊恣意。

(19:04)
こないだの Guido van Rossum のインタビューをしたのと同じサイトで、 今度は Theo 様のインタビューをしている。 これはいいな。また訳そう。Guido が非常に友好的だったのに対して、Theo はぜんぜん素気ないところが笑える。 とくに気に入った部分は以下のくだり:
Development of OpenBSD is not a milestone-driven series of revolutions. It is a series of small evolutionary steps headed which continue to become cleaner, tiny step by tiny step.

OpenBSD の開発はマイルストーンに追いたてられた改革の連続ようなものじゃない。 それは小さな発展のステップのつみかさねだ。よりクリーンになることをめざしつづけて、 小さく一歩ずつ一歩ずつね。

聞いたか! いや、やっぱ Theo 様はスゴイわ。 しかしこのインタビュアーはぜんぜん事前学習をしていない。 これはマズイと思う。

ちなみにこの一連のインタビューシリーズ第1回目は RMS だったのだが、 これだけなぜか英訳されていない。ま、オレは RMS にはそんなに興味ないんで別にいいけど。

どうでもいいが、新山の翻訳はいつもゲリラ的です。 しかし、つづけるものはちゃんとつづけるぞ。

(22:51)
新山は ~/.emacs~/.emacs -> rc/emacs という symlink にしてあるんだけど、 ふつうに ~/.emacs を編集してもちゃんとうまくいってるのに、 customize で設定をセーブすると勝手にリンクを消して ~/.emacs をモノホンの ファイルにしちゃうんだよ〜ぅ。なんでだば〜〜↑か!!

まあ、落ちつけと。ちょっと。な

ところで (てくる)、今日 Lisp でアスキーコードの列 (list) を 文字列に変換する方法がぜんぜんわかんなかった。リファレンスを見ても、 関数ありすぎで、何を使えばよいのかさっぱりわからず。 とりあえず

> (code-char 97)
#\a
などとやれば文字型を得られることがわかった。 しかし、これを文字列にできない。どうすんの?
> (string #\a)
"a"
これはできるのだが、
> (string #\a #\b #\c)
ERROR
これは文字列になってくれないのだ。ふんげa。

その後、教えてもらった方法はこうだった:

> (coerce (mapcar 'code-char (list 97 98 99)) 'string)
"abc"
知らねーーーーよ、こんな関数。

ちなみに、こんな書き方もできるのだという:

> (loop for c across "abc" collecting (char-code c))
(97 98 99)
Whaaaatt?? (いや、どうせマクロなんだろうけど)

Lisp は嫌いだ。やっぱ Oython だね Oython!!

(00:29)
病源菌」は 誤記なのに skk 辞書に入っている。人のこと言えない。 しかも Google は直してくんない。

Jun 01 [Wed]


(13:50)
ときどき、むしょうにマーマレードを食いたくなるときがある。 いや、紅茶に入れたりとか…

てくるで、 robots.txt を設定して 10日ほどたってみたのだが、 アクセス数は大して減らなかった。で、以下は robots.txt を もののみごとに無視していたロボット一覧である (左端の数字はアクセス回数):

    232 131.112.182.101
    128 221.186.146.26
    125 202.238.196.113
    113 219.116.200.202
     88 127.0.0.1   (← これはオレだった)
     71 ...
     64 ...
     63 ...

見え方を確認するために、新山は自分で自分のページを読むのでこれはどうしても頻度が高くなる。 しかしそれより上にあるやつはきわだって回数が多い。 こんな頻度で GET するってのははっきり異常としか言いようがなく、 これはキチガイアンテナの証拠である。…と、いっても、新山はジョーシキ的な人間なので、こいつらを アクセス制御したりはしませんけどね。世の中にはこういうアホもいる、ということがわかればいいのだ。 ちなみにトップはオクムラ先生のところらしいのだが、 まあしょせん大学でつくるシステムなんてそんなもんだね。ようするに、目立てばイイのです。 メディアでもアクセスログでも。 「ブログロやってます」といえばアホな研究でも注目してもらえるんだからお手軽でいいよね。 (かつての自分を顧みると何もいえないが)

(15:35)
きょうは、ずずじぃ゛。すすしい濁点。
(23:56)
ビザンティウムとコンスタンティノープルとインタンブールはどう違うのか?
Yusuke Shinyama