ふと、あることがなかなか進まないというのは、 まとまった長い時間がとれないからではないかと思った。 限られた時間で多くのことをやり終えたいなら (まあ、こんなのはこのご時世だからの話であって、本来はそんなの必要ないと思うが…)、 「細切れの時間」でも物事をうまく進める必要がある。
ところが新山はノッてくるまでの時間がどうも長いのよね。
もし今後、自然言語処理が応用されるとすれば (まだされてませんが)、 結局はこうしたアプローチよりも Adam のようなすぐれた言語感覚をもった人が ますます重要になっていくのだと思う。だが、新山が本当に興味あるのは 応用じゃないのであった。
てくるで、 "High-Performance Commodity Computing Hits The Mainstream" はどうやって日本語に訳せばいいんだろ?
「ハイパフォーマンスなコモディティ・コンピューティングがメインストリームに」
これじゃナガシマ病だ。
「高性能な一般用品コンピューティングが主流に」
今度は意味が違ってみえる。たぶん論理的にいえば「ハイパフォーマンス == 高性能」だが、 日本語で「ハイパフォーマンス」といったときのニュアンスにはやや「高性能」とはズレがある。 "Commodity" を何て訳せばいいのかは、いまだにわからない。 google://コモディティ/ はこれまた苦しい言葉だが、日本語として広まっているのだろうか?
けふの夕食はムール貝のパスタ。トマトピュレーと酢を入れて。 こう書くとずいぶんグルメなものを食っているように聞こえるが、 材料費は $5/人くらいしかかかっていないのである。 “かしこく生きよう。(live crazily)”がモットーです。新山です。
未来の自分に告ぐ: もし今日これらを買い忘れたら、呪うぞ。笑い殺すぞ。あと、まーまレードも
オレは「きれい」「きたない」という形容をいろんなものに対して使いすぎるような気がする。 つまりそれは自分の美的感覚にてらして「受け入れられる」か「られない」かという 意味なのだけど、美的感覚というのはこれはもう信仰のようなものだ。 だから新山は「きれい」という単語を、「神聖な」というのに近い意味で使っている のかもしれない? まあどうでもいいけど、とにかく、きれいじゃないんだよ。このあたりは。
それから「自然だ」「自然でない」という形容もよくつかう。使いすぎる。 しかしこの感覚がどこから来るのか不明。おそらくなにかバイアスがかかっていることは ほぼ確実なのだが、自分ではそれはわからない。
過去はほとんど参照されていません。
お前のようなやつはピザの上にのってるマッシュルームを 「ナメクジだ」と思い込んで悶え死んでしまへ。許可不許可。
論文をまたすこし読んでいるが、それにしても、これは学会に行っても感じることだが、 「何でそんな研究が楽しいの??」と思う研究をやってる人が世の中にはいっぱいいる。 彼らが自然言語処理のどこに魅力を感じているのか、論文からはまったく伝わってこない。 とくに、応用もたいして関係なさそうな分野で、ただ機械学習アルゴリズムを とっかえひっかえ試してるだけ、みたいな研究で特にそういうのが多い。…が、 こういうのはとにかく一発当てれば「業績になる」ので、 ギャンブルが楽しい人と感覚は一緒なのかもしんない。 一度当てると味をシメるのだろう。どちらにせよ理解不能だが、 あれをやってる人は「機械学習はカネになる」ではないが、 「機械学習は論文になる」と思ってることは間違いない。 まあ、そういう連中がこの分野を「食い物にしている」という確信は いよいよもって深まるばかりだけど…。 これじゃ、まじめに言語を研究してる人は寄ってきてくんないの、当たり前じゃん。
そういやこの方面の「親玉」は、ことしは某国際学会に○本も論文を通されたそうな。 げーーっ、 ○本も?? しかもファーストで? 日本の某処理学会にアホみたく何本も論文を出すのとは ワケがちがうぜ (まあ、誰とは申しませんが)。 これって絶対終わってる。(学会がね)
しかしこの世界においては、こんなマトモそうなことを 言っちゃいけないということも新山は理解しているので、講評にはこう書いておこう。 「ファンタスティックな学習アルゴリズムですね!」と。
vector<int>
なんてのを見ると、
「なんだ、どんな型でも入れてあげればいいジャン」と思うし、
さらに「あるメモリ上のオブジェクトをファイルとして扱うためには
InputStream を (多重) 継承しなければならない」とかいうのを見ると
「アホか」と思う。duck typing に慣れていると、こういうったことは
メンドーくさくてしょうがない、というか、これだけのコストをかけて
ほんとうに安全性が確保されるのか? と疑問に思ってしまうあるね。
spam ばかりひっかかる検索キーワード: google://very-low-price/
まあ、ここはいくら金もってても決して幸せにはなれない国だと思うけどね、
ちなみに親のマシンにも vnc がインストールしてあるが、 長野 - NY 間でも操作性はそんなに悪くない。
まさか本のタイトリになっとるとは知ルませんでした…
てくるで最近おもしろかった本。トマス・ホーヴィングの 「にせもの美術史」 ("False Impressions", Thomas Hoving) だ。 こちらに来てから英語の本はなるべく原書で読むようにしているのだが (安いし、訳者を通さないので) … これは紀伊國屋で「一目書い」だった。 本屋の戦略にやられたって感じである。しかしこれがおもしろい。 副題が「メトロポリタン美術館長と贋作者たちの頭脳戦」なのだが、 ホントに頭脳戦って感じだった。これは新山のような人間の 「美術」というものに対する見方を完全に変える。 日本で「なんでも鑑定団」などを見ていると (うちの親が好きな番組なので) 鑑定というのは豊富な知識がものをいうように見えるが、 この本で扱われている美術品の鑑定は完全に科学というか、もう推理小説の世界だ。 なにしろ世界には美術館になんとか贋作をうまくだまして買わせようという人々が 後をたたないのである。うまくいきゃ億単位の収入だからな。 ホーヴィングら美術館キュレーターの仕事というのは、画商やらオークションをまわって、 こういう偽物をつかまずになるべく貴重なものを予算内でうまく「しとめる」ことだ。 ライバルは個人コレクターと他の美術館どもである。 万が一、公共の予算で偽物を買ってしまったら、責任をとらねばならない (といってもメトロポリタンの場合は私立だが)。 そのニセモノのチェックリストがおどろく。こんな感じだ:
ときどき SOHO の画廊なぞへ行くと、たまに「ピカソ作」とか書いてある 落書きのようなスケッチがあったりする。たぶん有名でない落書きだから そのへんのギャラリーにあるのだろうが、あれは本当にピカソだったのだろうか。
(= そうこうしているうちに (= meanwhile))
このページをどのようにして知りましたか? (複数回答可)
まあつまりこういうわけだる:
| | +-------------------+ | よくわかる | | ↑ ページ | +-------------------+ ← PC | ↓ よくわからない | | ページ | +-------------------+ ← A5 | 鬼 | ...
これでわかりますよ
ね!!!!!!!!!!!!!!!
思うのだが、新山はま
だ携帯電話を使ったことはないが、け
イタイ電話を使うと改行が多くなるた
めに日本語が違った感覚になりそうな気
がする。それはた
とえばこんな感
じ
だ。わ
かるよね?
まあ、ブログロで「コイズュミはヤクスニ産廃ヤメレ」とか書いたらもうダメなわけだ、もし日本が中国だったら。 そもそも blog を「ブログロ」って呼んだ時点でもうダメそうな気がする。 どぅーーでもいぃーけど、彼らはぜんぶ人手で監視する気なのだろうか? はっきりいって、こういうところで自然言語処理がお役に立てそうな気はするのですが、 本当にお役に立ってしまったらヤバいのでやっぱり研究しないほうが正しいのだ。うんそれが絶対正しい。オレって
どうでもいいが、きょうのスラッシュトッドで、Rob Pike もベル研から Google に行ったと書いてあった。 給料カットが原因で。 Google いって一体なにやるんだよ? Google Plan9 でも作んのか? Weinberger (AWK の W、もとベル研) もいまじゃ Google でネットワークの仕事しているらしいし、 なんかもうあの会社は往年の (すでに賞味期限の切れた) 有名人を 美術品感覚でコレクションしてるような気がする。 これは金持ちが高価な美術品をカネで買うのを思い出させる。 買う本人は美術品の価値なんてわかっちゃいないのだが、ハクづけのために買うのだ。 アメリカでは金持ちがそういうことをするのは結構あるらしい。ヤ-な世の中ね。 それとも「我々は善人なので、こーゆー偉大な人々を引きとってあげるんですよ」ということを アピールしたいのだろうか。そしてハク製にしちゃうのだろうか。どっちにしろ悪趣味だ。 しかしシステム屋というのは弱い立場にいるんだなあ、とあらためて思った。 というか、ベル研が元気ないのか。
てくるでハク製とハクづけ (=ハク漬?) は似ているが、関係ないと思う。
(この日記は非常に建設的です、新山にとっては)
今日は夕立ちこないの?
てくるで今日の夕食は、チキンカツを揚げた。 あいかわらず揚げ物用の鍋がないので時間がかかる。 どうやってやるかというと、底深のナベにオリーブ油をすこし多めに入れ (あんまり入れすぎてはいけない、あとで吸いとるの大変だから)、 電気コンロの上で鍋を傾けながら少しずつ揚げる。 いちおう日本式のディープフライになっていると思うが、 油の量が極端にすくないので一度に 2、3個揚げることはできない。 おまけに、ずっと鍋を傾けていなければならず手がつかれる。 しかしちゃんと揚げられたときの感慨は格別。パン粉だけは日本製のやつ。
かろかっく いいかtpyoをそのままにしておくとよくないことがおきるぞこれは誓っても
いい!! gupta.
oogleで顔文字が検索できないな…。)*^_^*(
というのを検索したいんだけど…。
(ヤセうぇお強調している)
いいかtptyoをそのまむにしておくとよくないっていった
らろ!!!
あつさのせいです。なんでも
そういえば libsubprocess.tex
ずーーーとやってねえや。やんなか。
ミス打鍵! ミス千葉県!
あとなんでも片仮名。
なんだ Dan Bikel っていまワトソソ圏にいるのか。 それにしてもこのトークはあいかわらず興味なさそうなテーマだが、 それでも出なきゃなんない。出なか。On the Parameter Space of Lexicalized Statistical Parsing Models Dan Bikel IBM Research Friday, June 10 2:30PM Room 102 Weaver Hall 251 Mercer Street NYU, NYC, NYS
しかしまあ、実をいうとこの Google の「〜件」というのは非常にアテにならない。 というか、これは「検索によって返される可能性のある max 件数」を算出しているだけだと思う。 たぶん index 中にある URL 数をぜんぶ合計しているのだろう。 だから複合語などを検索すると、実際の絞り込み中にがくっと数が減ることがある。 どうでもいいが、この「絞り込み」がまたナゾである。たとえばものすごく件数の多いキーワード (たとえば "の" など) を検索して、 990件目から表示させる と「最も的確な結果を表示するために、上の 659件と似たページは除かれています」と出る。 Google が同一サイト上にある複数ページを省くというのは知っているが、 「の」を含んでいる日本語サイトが世の中に 659件しかないというのは、どう考えてもおかしい。 何か余分な絞り込みを行っているに違いない。 まあ、これは、ようするにどっかで検索をすっとばしているのだろう。 あんまり CPU を使うような重い検索をされると困るからね。
日本だと、手話はまだ健聴者が「習ってあげる言語」って感じなので、 たいてい近所の手話サークルへ行けばタダで教えてもらえると思う (今ではちがっているのかな? 新山は祖父がろう者だったので、小学校〜中学にかけてそういうサークルに通っていた)。 しかしこちらでは ASL は、無料のところも探せばあるだろうけど、たいてい無料ではない。 アッタリマエだ。なぜなら ASL は中国語やドイツ語と同じように 一個の独立した自然言語であり、彼らのコミュニティに入るにはこちらが 手話を習わなければいけないからだ。教える方もプロの手話講師がいる。 日本でも中国語やドイツ語をタダで習えるところは (なくはないだろうが) 少ないのと 同じように、こちらでは手話を習うのもタダではないし、教え方のうまい下手が問われる。 そこらへんの感覚がまだ日本では遅れているよなあ。 日本の手話は日本語に「従属する」言語のように扱われがちだが、実際はまったく違う。
しかし ASL はいろんな意味で興味ある言語なのである。 まず、日本語の手話は基本的に口語をベースに作られたので、 その文法はある程度日本語に似ているが (ただし助詞はないので語順をある程度考えないとだめ)、 ASL はまったく文法が英語と違っているということ。たしか、フランス語ベースなんだっけ? そして、これはどの国の手話にもおそらく共通する特徴だろうが、 空間ベースの言語だということである。つまり、オブジェクト間の関係を直接、 空間的に表現できる。これは口語ではかなりむずかしいことだ (新山は話すときにジェスチャーを使うことが多いが、ある意味これは似たようなことしている)。 新山は「人間の思考は空間的推論を基にしているのではないか」という 仮説をもっているので、じつは手話のほうが人間の思考体系をよりダイレクトに 表現している言語なんではないかと思っている。手話の発展過程や、手話による自発的な発話 (健聴者は考えてもみないだろうが、ろう者は独り言も手話でするのだ! でもこれは手話が彼らの 自然言語になっていることを考えればまあ当然かも) を研究すれば、 人間の認知について重要な知見が得られるのでは? 言語学では手話はどれくらい真面目に扱われているのか? すくなくとも、チョムスキー系ではぜんぜんやってないような気がする (自信なし)。
自然言語処理で手話を研究対象としているところはあるだろうか? イヌイさんのところで、ろう者を対象にした日本語の言い換えを研究しているってことは 知ってるけど、あの人々は手話をあくまで「日本語のできそこない」としてしか 扱っていないように見える。手話は口語日本語にない機能に大きく依存しているのだから、 手話は手話として研究しないとダメだろう。 イヌイさんにとくにそういう問題意識があるようには思えず、いかにもこじつけっぽくて、 ただマイノリティをダシに研究を目立たせようとしているようにしか見えない、 正直なところ。
(すべて手打ち)
つうことで、先週あたりに撮った写真などを載せておく:
きょうの今日訓: 同じものを 2度買わないこと!
filter
が remove-if-not
なのよ?
このおたんこナス!
てくるで (ところで) オブジェクト指向 (似非) で書かれたプログラムでなにが一番ムカつくかというと、 「データに、必要もないのに余計な手続きがくっついている」ときだ。 データと手続きは別々に扱ったほうがぜったい便利なときもあるのである。つまり
「将来、足し算の仕様が変更されても、13が素数じゃなくなっても対応できます!!」
「ほんとに?」
ほんとだよ。
「ホントニ?」
ホントダヨ。
わぅたぅくぅしぅはぅ、
ふといま思いついたが、arabiki という Wiki の仲間があったら面白そうだ。 いや、名前だけ。アラビア語対応が特徴なのである。くだんねー。 ちなみに類似品は hayabiki だ。Kobiki ってのはどうか。なんかカワイイ感じだよね? (いや、しかし本物の kobiki さんたちはいかつい身体をしてるだろうが) そもそもいまの時代に kobiki なんていないだろうし、あのでっかい鋸 (なんていうんだっけ?) ももうないだろう。てくるで、「チェンソー」ってじつにへんな 語感だと思うんだよ。あんなのがよく日本語として普及したもんだ。
朝から脱線です。
とある web ページをみながら「ひゃっひゃっひゃっ」と激しくニヤけつつバカ笑いしていたら、 なにかうしろに人の気配を感じ、ふりむくと手直しした論文をもった Ralph が立っていた。
ふんげaな一日。
まあそういうことも世の中にああることのうであるmas. Wkrkr(わかりける)?
「リポート (603,000)」と 「レポート (4,750,000)」は、 英語ではどちらも "report" なのに、日本語では微妙に意味が違う単語のように思える。 「リポート」っていうとなんか国際とか経済関係のニュースが思いつくが、 「レポート」っていったら大学のレポートだもんna。もはや、違う日本語が 2つできている。 まあこれは、「ガム」と「ゴム」のようなもんだ。もんか??
いやー oggoel はすごいなあ かくこと忘れた
さいきん気づいたのだが、LWN.net の金曜日の翻訳はツライということがわかった。 このサイトは基本的に週末はお休みでほとんど記事が更新されないのだが、 そのためか金曜日の夜には「これでもかっ」とばかりにドババババと新着記事があふれるのだ。 これは結構つらい。slashtod のほうはもう最初から「やっても、やってもドバドバくる」 状態なのであんまり気にならないが。
…しかし、日本語の「正しさ」というのが普及度とは別のところで定められている、 という考え方は好きではないので、ある意味、Gサマ に日本語の「標準」を定義してもらっても 新山としてはべつにかまわない。が、そもそも言語に「標準」なんてものはないので、 「統計的な平均」を示されたところで NHK と国研ぐらいしか喜ばないだろう。 つねにヒトは勝手に自分の表現をつくるだろうし、誤用から生まれた言葉ってのは結構たくさんあるはずだ。 たとえば本当かウソか知らないが、英語の「orange」がもともとは誤用だったという話。
人はいつも統計に騙される。統計は世の中の動いたあくまで「結果」でしかなく、 統計が世の中を動かしているわけではないのだが… ヒトってのは数学的思考が非常に苦手な動物らしいから。
てくるで (とこ)、G の話題ばっかりだが、 Google が Summer of Code とゆーイベントをやってるのだが、 なぜか LispNYC もスポンサーリストに入っている。 ほかのそうそうたるプロジェクトに比べると超マイナーだよね? そんで、Matt から「ユウスケお前は学生だけど、やる気あるか?」というメールがきたが、 新山はやる気ない。なぜならこの夏はすでに別の予定があるからね。 しかしFAQ をみると参加条件に国籍を規定しているわけではなさそうなので、 日本人でも参加できるような気がする。こういうのはカネに困ってる学部生には ふさわしいと思うのだが、どんなもんだろ。おまけに金額も競争ではなく「誰でもできたらあげるよ」という システムで、どっかの未踏なんとかプロジェクトよりははるかに融通がききそうでいい。 あいかわらず Google はやり方がうまい (たとえイメージ戦略だとしても、 どうせなら利用しがいのある戦略に乗りたい)。というよりは、IPA のやり方がヘタすぎるんだと思う。 どーーーせ何割かは絶対失敗するんだから数% (いや、数十% か?) のロスは 最初から覚悟のはずで、ヘンな報告書なんか書かせずに好きにさせればいいのに。 やっぱ、くだらん建前が重要なんだろうなあ。
久しぶりに時間があったので slashdot のほうもかなり訳してみた。 こうすると自分が興味をもっている分野が見えてくるなあ。 新山は、科学っぽい記事やバカっぽい記事、あるいはセキュリティ関連をよく訳しているが、 SF やゲーム関連はほとんどやらない。ギョーカイ記事もときどきやるが、たいてい興味なし。 LWN はとにかくすべての記事を訳すが、slashdot はくだらないと思った記事はめんどくさいので 訳さないこともある。
どうでもいいけどいつのまにか「認知症」などというニホンゴがあらたしくできている。 ウラシマ降下。
「ワラエル」ってカタカナでかくと、なんか天使の名前みたいじゃない?
ところで、「かたかな」って単語をヒラガナでかくと御蚊恣意。
Development of OpenBSD is not a milestone-driven series of revolutions. It is a series of small evolutionary steps headed which continue to become cleaner, tiny step by tiny step.OpenBSD の開発はマイルストーンに追いたてられた改革の連続ようなものじゃない。 それは小さな発展のステップのつみかさねだ。よりクリーンになることをめざしつづけて、 小さく一歩ずつ一歩ずつね。
聞いたか! いや、やっぱ Theo 様はスゴイわ。 しかしこのインタビュアーはぜんぜん事前学習をしていない。 これはマズイと思う。
ちなみにこの一連のインタビューシリーズ第1回目は RMS だったのだが、 これだけなぜか英訳されていない。ま、オレは RMS にはそんなに興味ないんで別にいいけど。
どうでもいいが、新山の翻訳はいつもゲリラ的です。 しかし、つづけるものはちゃんとつづけるぞ。
~/.emacs
を ~/.emacs -> rc/emacs
という symlink にしてあるんだけど、
ふつうに ~/.emacs
を編集してもちゃんとうまくいってるのに、
customize で設定をセーブすると勝手にリンクを消して ~/.emacs
をモノホンの
ファイルにしちゃうんだよ〜ぅ。なんでだば〜〜↑か!!
まあ、落ちつけと。ちょっと。な
ところで (てくる)、今日 Lisp でアスキーコードの列 (list) を 文字列に変換する方法がぜんぜんわかんなかった。リファレンスを見ても、 関数ありすぎで、何を使えばよいのかさっぱりわからず。 とりあえず
などとやれば文字型を得られることがわかった。 しかし、これを文字列にできない。どうすんの?> (code-char 97) #\a
これはできるのだが、> (string #\a) "a"
これは文字列になってくれないのだ。ふんげa。> (string #\a #\b #\c) ERROR
その後、教えてもらった方法はこうだった:
知らねーーーーよ、こんな関数。> (coerce (mapcar 'code-char (list 97 98 99)) 'string) "abc"
ちなみに、こんな書き方もできるのだという:
Whaaaatt?? (いや、どうせマクロなんだろうけど)> (loop for c across "abc" collecting (char-code c)) (97 98 99)
Lisp は嫌いだ。やっぱ Oython だね Oython!!
てくるで、 robots.txt
を設定して 10日ほどたってみたのだが、
アクセス数は大して減らなかった。で、以下は robots.txt
を
もののみごとに無視していたロボット一覧である (左端の数字はアクセス回数):
232 131.112.182.101
128 221.186.146.26
125 202.238.196.113
113 219.116.200.202
88 127.0.0.1 (← これはオレだった)
71 ...
64 ...
63 ...
見え方を確認するために、新山は自分で自分のページを読むのでこれはどうしても頻度が高くなる。 しかしそれより上にあるやつはきわだって回数が多い。 こんな頻度で GET するってのははっきり異常としか言いようがなく、 これはキチガイアンテナの証拠である。…と、いっても、新山はジョーシキ的な人間なので、こいつらを アクセス制御したりはしませんけどね。世の中にはこういうアホもいる、ということがわかればいいのだ。 ちなみにトップはオクムラ先生のところらしいのだが、 まあしょせん大学でつくるシステムなんてそんなもんだね。ようするに、目立てばイイのです。 メディアでもアクセスログでも。 「ブログロやってます」といえばアホな研究でも注目してもらえるんだからお手軽でいいよね。 (かつての自分を顧みると何もいえないが)