2003年 1月 (2)。
^ back
< 1月前半
Last Modified: Sat Feb 1 01:48:37 EST 2003 (02/01, 15:48 JST)
あー、colloquia いくか。きょうはあったかいらしく雨が降っている。
Todo: 本買え。
ネットでいろんな人の文章をみていると、
多くの人が虚勢をはっているように見える。
これは錯覚だと思うがなぜそう見えるのだろう。
これは考えるに値するテーマだと思うけどまたあとで。
大しておもしろくなかーた。画像認識関連はいつもようわからん。
そうですか。
そうでございますか。
なんだか知りませんがそういうわけでございます。
あーこれじゃまたアレだよ、アレ。
ふだん酒を呑まないのは、酒が嫌いだ。
酒は嫌いだ。酔っているとこのように
頭の中にワタがつまったような感覚。すみません。
ごめんなさい。何かが見えれば、何かが見える。
しかしそれは、ずっと遠くだ。ずっと遠く、というのは、
5光年から無限遠までをさす。世の中に存在していれば、
存在していなければのと同じ。何? だから何? あーもう酔ってるんだよ。そういうわけで。
あー、もっと早く起きるつもりだったのに…
情報を得るということが、とりもなおさず簡単に (それそのものの意味において)、
あまりにも簡単にできるようになった
(ような錯覚を得ることができるようになった) ために、
ますます人は情報を作らなくなっていくのではないだろうか。
時がたっても変わらないもの、それはあなたの妄想だけだ。
「壁に頭をうちつける音」を識別することを考える。
このためには、次の 2つの音を識別する必要がある。
ひとつは「頭が壁にぶつかったときに、壁の出す音」であり、
もうひとつは「壁が頭にぶつかったときに、頭の出す音」である。
(音) ←← 壁 | 頭 →→ (音)
しかしそうだろうか? この 2つの音は互いに素
(壁は頭にぶつかったときに「頭相手の特定な音」しか出さないし逆もまた真)
であるとはいえないだろうか?? だとすると観測するのは一種類の音だけで
いいことになる! だがまてよ、それではどんな物もぶつかった音を聞くだけで
それが何であるか (頭であるか、ないか) を判定できるということになれば、
つまり頭がぶつかったときの音は頭の「頭性」を内包しているということが
できるのだ!!!
これで電波発信実験を終わります。
なんか、あったかい。-1〜-2℃ぐらいならべつに風がふいても平気だし
耳も痛くならないから、これでは帽子を使う機会がほとんどないではないか!
しかしだいぶ寒さには慣れたような気がする。
ところで、きょう思いついた実験。
電車の中で本を読んでいる人をみつけて、その人がいま本のどれくらいの位置を
読んでいるか (まだ読みはじめたばかりなら 0.0、もうほとんど後がない状態なら 1.0) を
測定する。これはいま開いているページの厚みを目測すればいいんだから簡単。
そのようにして 100人ぐらいのデータを集めたとすると、
その結果はどのように分散しているのであろうか?
もしすべての人がすべての本を均一のペースでかならず最後まで読みおえるならば、
無作為に測定した結果の平均値は 0.5 になるはずである。でもたぶんそうはならないだろう。
たぶんこの数値は 0.5 より低くなるはずである。なぜなら
たいていの人は最初のうちは本をしっかり読むが、
後になるにつれていいかげんにページをとばす / あるいはよまなくなるから。
…なんかこんなくだらないことばっか測定してると赤瀬川源平の提唱する
アレ学 (なんていうか忘れた) みたいだな。
ところで電車の中で縦書きの本を読んでいる人は 100% 日本人である。
中国語では縦書きはだいぶ前に廃止されたからだ。
なーんと! 今期の
Honors compilers の授業は "Python を使って Python コンパイラを書く"
というものらしい! あー、とっときゃよかった。しかし honors
(博士学生向けの超きびしい授業で週2日あり4単位もらえるものをこう呼ぶ) なんぞを
とったらまた宿題だけで自転車操業になるのはまちがいないので、聴講だけしておくか。。。
新学期になってからは取る授業が「ふつうの修士向けのもの (honors でない)」だけになったので
非常におだやかな生活になった。しかし新山はヌルくなるとすぐになまけるので
つねに自分を忙しくさせておくべきである。ぬルはチ。
基本的に鶏肉な人生である。
ところである方から
google://恩で仇を返す/
は 0件であるものの、
google://仇を恩で返す/
は結構ある、というご指摘をいただきましたのですが、
はたして「を」と「で」はどっちが先にくるのが自然なのか?
これぞコーパス言語学 (藁) の面目躍如!
と、いうことで、手元のコーパス (毎日新聞 96年 1年分のテキストデータ 計約136MBytes)
と knp を使って文中の「を格」と「で格」だけをぬき出す実験してみた。その結果:
245293 ヲ
119946 デ
83176 ヲ ヲ
62416 デ ヲ
26453 ヲ デ
22574 ヲ ヲ ヲ
19346 デ ヲ ヲ
14614 デ デ
12428 ヲ デ ヲ
7334 デ デ ヲ
5971 ヲ ヲ デ
5917 デ ヲ デ
5432 ヲ ヲ ヲ ヲ
5046 デ ヲ ヲ ヲ
3091 デ ヲ デ ヲ
3053 ヲ デ ヲ ヲ
これを見ると「で」が「を」より先に出るのが自然なようだ…
が、なんかおかしい。「を」格が 2つあるやつがあるぞ?
ただ文中に出てくる格を並べるだけではダメなようだということが判明。
用言単位で切れ、ということらしい。要改良。
というかこんな実験してるのって公私混同な気がする。まあいいか。
ヒジョーに簡単な処理しかしてないので所要時間は 15分くらいでした。
やたー! 今回は一番のりー! (commit が)
授業終了。さて、さっきの実験がどうにもアレだったので
もうすこし改良したバージョンを書いてみた (オレも暇だな…)。
これは次のような文を入力すると次のようなものを返す。
$ echo '恩を仇で返したもので仇を討つ' | parse-sents 2>/dev/null | ~/work/se/dumpcase.py
ヲデ
デヲ
$
ここには 2つの述語 (「返す」と「討つ」) があり、最初の述語「返す」からは
「恩を仇で」という下線部分がとり出される。
2番目の述語「討つ」からは「『恩を仇で返したもの』で仇を討つ」の
下線部分がとり出される。
つまりこのスクリプトに記事をどんどこ feed して、
出てきた結果で「デ」が「ヲ」より先に現れている行と
「ヲ」が「デ」より先に現れている行を数えれば (これは grep でできる)、
この問題に empirical に答えられるのであります (すくなくとも毎日新聞的には)。
では全記事について怒涛のスクリプト作戦いってみよー!
$ cd ~/work/se/articles/96/mainichi
$ for i in ma*; echo $i >&2; ~/work/se/dumpcase.py $i/*.dep.gz; done > /tmp/foo
ma960101
ma960103
ma960104
...
うー今度はさすがに遅いっ! さっきのは簡単な perl スクリプトで書いたので、
10分で全記事 (あらかじめ parse してある) をスキャンできたが、
今回はけっこうかかりそうだ…。ということで、一ヶ月ぶん (=110,316文) やって諦めた。
すると、/tmp/foo には以下のようなファイルができているのであります:
$ ls -l /tmp/foo
-rw-r--r-- 1 yusuke proteus 1100346 Jan 30 19:40 /tmp/foo
$ head /tmp/foo
ノ
未ノ (「未」というのは未然格のことで、実際には「ハ」格)
ノ
ガヲ
...
ではいよいよおまちかねな測定をやってみましょう。
まずは全述語がどれくらいあったか?
$ wc -l /tmp/foo
248666 /tmp/foo
$
そのうち「デ」が「ヲ」より前にくる述語はどれくらいあったか?
$ lgrep 'デ.*ヲ' /tmp/foo | wc -l
5852
$
では「ヲ」が「デ」より前にくる述語はどれくらいあったか?
$ lgrep 'ヲ.*デ' /tmp/foo | wc -l
1194
$
ということで結論: 毎日新聞的には「で」は「を」よりも前にくるのが 4倍自然である。
すると「恩を仇で返す」よりも「仇で恩を返す」ほうが日本語的にはすわりがよい、ということか。
なんだか研究日誌のような様相を呈してきましたが、ここは研究日誌ではありあせん。
こんなクダランことばっかやってて飯が食えるほど世の中あまくないのです。
Tim Jansen 氏から vnc2swf に対するパッチを受けとったので、さっそく掲載。
見ず知らずの人からパッチをもらうというのはうれしい。
ああ、使ってもらってるのね、という気分になる。
毛沢東主義によれば文学は人民に奉仕しなければいけないらしい。
今月はすこし書きすぎたので来月は落ちこむ予定です。
研究日誌
きょうは何をやったんだっけ?
最初きのうのレポートをさらに精読してまとめて、
そのあとセキネさんのとこへいって「問題が well-defined でない」
ということについて長々とグチをたれていたのだった。
なんか毎回「これこれこういう障害を発見しました」というのは
言いわけがましく、見苦しい。結局、我々のゴールは
論文を書くことだ、ということで説得されて帰ってくる。
そうだ、研究者としてのゴールは論文なのである。
そのあとは授業に行ったからあまり研究はできなかった。
群れの中に入っていくのはつらかろうよ。
よく考えるときのうの議論はおかしい。
「言語」を学ぶことと「機構」を学ぶことをゴッチャにしている。
プログラミング言語を学ぶのとコンピュータの機構を学ぶことは、
分けて考えなければならない。たいていこれらは密接に関連しているので
わかりにくいのだが、たとえば HTML は「言語」だが、
それがどのような仕組みでレンダリングされるかを知っている人はすくない。
ちなみに新山は HTML はプログラミング言語の一種だと思っているけれど、
ある人によると「HTML はプログラミング言語じゃねーだろ」とのこと。
どうして? 文章がどう見えるべきなのかをプログラムするんだから、
プログラミング言語だと思うけど。定義にこだわってもしょうがないが、
どうも「プログラミング = 実際になにか動くモノを作る」という意識があるように見える。
それによれば HTML はただ文章を「記述」しているだけで動かない、
だからプログラミング言語ではない、ということなのだろう。
結局、そのへんの曖昧な領域にこだわっても不毛なだけなのだが、
この区別の仕方は注目にあたいする。
もし上の定義 (“プログラムというものは動かなければならない”) に
厳密に従ったとすると、プログラミング言語は必然的に手続き的、
あるいは時間軸に関連した要素を含まなければならなくなる。
しかし Prolog はどうだろう。これはプログラミング言語として
認知されているが、そこに流れている時間は明白ではない。
Prolog はほぼ確信犯的に (?) 非決定性をふくんでいるからだ。
実際には Prolog も cut なんかを使わなきゃいけない時点で手続き的なのだが、
ほかの言語よりは手続きが見えにくくなっている。これは
問題を記述する「言語」と、それを実行する「機構」がある意味 (中途半端ではあるにせよ) 分離されているといえる。
いっぽう、ほとんどの言語は標準的な計算機上で動くことを前提にして
作られているため、その記述はどうしても実際の機構 (究極的にはチューリングマシン) を
もろに反映したものとなる。しかしふつうの言語 (C や Lisp や Perl や SmallTalk など) と
Prolog をくらべれば、そのさらに延長線上にあるのが HTML ではないか?
ここではまさに「記述」がメインであり、手続きやそれを実行する「機構」は
よりいっそう見えにくくなっている。
じっさいには HTML の中にも「時間」がからむ要素はある (長い HTML ファイルは
読み込みに時間がかかるしレンダリングにも時間がかかる) が、
それは他の言語にくらべてはるかに少ないし見えにくい。
HTML を書く人は純粋に「それがどのように見えるか」を記述すればよく、
それがどういう仕組みで描画されるかなんてどうでもいいのだ。
SGML になればさらにその抽象度は上がって、もはやここまでくると
プログラミング言語とはさすがに呼べない (そもそも問題を記述してないし…)。
しかし「プログラミング言語かどうか」の境界はやはり曖昧だと思う。
すると (プログラミング言語をふくむ) あらゆる言語は
「手続き的 (プログラミング言語度・高)」と「宣言的 (プログラミング言語度・低)」を
両極とする連続な直線上に配置することができるように思える。
手続き的言語はもろに「機構」を反映しており、宣言的言語はそうではない:
手続き的 − C − Perl − Lisp − Prolog − HTML − 宣言的
でもこの直線の中で、自然言語はいったいどこに入るのか?
基本的に自然言語は宣言的だと思うが、実際には命令口調で言えば
手続き的のようにも聞こえる。むしろ自然言語は文ごとにこの直線中での
位置が変わるように思える。それは文の modality によって決定されると言えないだろうか?
あいかわらず電波な発想だな、こりゃあ。
LDC と LDP ってまちがえやすいですよね。
よく考えてみたら前の議論もやはりズレているような。
「記述の抽象度」という尺度からみるとどうだろう?
しかしまあ一方で、たかがプログラミング言語についてあれこれこだわってもしょうがない、
という気もする。とにかく研究やれや、今日は。
そういえば計算可能性からの議論があった。馬鹿だなオレは。
AI の授業、なんか最後のほうがよくわかんなかったけど復習しなくちゃ。
ところでこの国の stapler (マジで日本語わすれた…ああそうだ「ホッチキス」) には
なんでケツに「失敗したときの針ぬき」がついていないのか。
かわりにへんなピンセットのできそこないみたいなやつでオイショっと抜かなければ
ならないのだ。ぷそぷそ。
google://〜のできそこない/
新山は「ホッチキス」などという呼び方は日本でもしていなかったので、
度忘れてもしょうがないと思う。ちなみに日本にいるときは
何と呼んでいたかというと、「ガッチャンコ」だ。まいったか!!
(いわゆる「ガチャ玉」とは区別ること)
センタッキがこわれているので仕方なく外のコインランドリーでセンタクしてきた。
1時間以上かかった。盗まれるのがいやなのでずっとその場にいたのだが、
いま考えてみるとサッサと帰ってきちゃってもよかったな (ほったらかしにして
さっさと出ていく人が結構多かった)。こっちにきてから、あまり外の
コインランドリーを使わなかったので、一瞬使い方がわからずに悩んじゃったよ。
ちなみにここは日本では珍しい「ドラム横回転型」なのだ。
しかしこれ、いつも思うんだけど、すすぎの時間がやたら短かくて
大丈夫なのか? と思う。洗剤は少なめにしている (こっちはただでさえ
強力そうなのに…)。そして、両替機がものすごい。
$20 紙幣でも入れようもんなら、20×4 = 80枚もの quarters が
ドガーーーっと吐き出される。つーか、受けとるの大変。両手にずっしり。
しかし待ってる間に
人工知能の宿題 が
できたし、論文も目を通したのでまあよかったことにする。へれんは
problem 4 が難しいと言っていたけど、アルゴリズムをつかんじゃえばどうってことないじゃん…。
だがメシを食ってなかったのでいーかげん腹がへって頭がクラクラしていた。
新山はいつも空腹時のほうが頭がよく働くので、きょうは夕飯食わずにどれくらい
できるかやってみようという危険な実験をしたが、最後のほうはフラフラして
あまり問題に集中できなかった。慣れないことはやるもんじゃないな。
かえってきてから飯をたいてご飯 (そりゃ、飯を炊いたら、ごはんだ)。そしてテーブルの上に置いてあった
nytimes の一面を見たら爆笑。
ブッシュがいかめしい顔でコブシをあげて演説してる写真の上に、こんな見出しがついている:
CALLING IRAQ A SERIOUS THREAT,
BUSH VOWS THAT HE'LL DISARM IT,
AND ALSO REBUILD U.S. ECONOMY
これは新山のよくない癖なのだけど、
いつもこういうの見ると「頭の中で意訳」してしまうのであった。
その結果がこれ:
ブッシュ、イラクを「深刻な脅威」と明言、
曰く、なんとしてもかの国を武装解除せねばらないと。
ついでに、米国経済も立て直します。 (赤字下線部は新山)
「ついでに」って自分で勝手につけ足したくせに、あまりにハマりすぎてておもわず爆笑。
自国の経済はまず自分のサイフから! ってことで。自画自賛。
google://親ブッシュ 子ブッシュ/ (34件)
もうねむいので適当に。ひる考えたこと。今朝の議論もやっぱりおかしい。
だって「プログラミング言語 = turing machine と等価なものを記述できること」という定義をとれば、
たしかに Prolog はプログラミング言語であり、HTML はそうではないといえるのだ。
この定義は厳密で有無をいわせない。でもなんか「定義のための定義」という気がして、
なにも得るものがないように思える。というか TeX とか Postscript は TM 等価だが、
あれをプログラミング言語としてとらえる人はほとんどいない (同様に
HTML だって拡張して TM 等価な機能をつけ足せるのだが、やはりマークアップ言語としてしか
使われないだろう)。しかしプログラミング言語かどうかはどーでもいいんだよ。
問題はコンピュータの「機構を教えること」と「言語を教えること」はどれくらい
分離できる / すべきなのか、ということだ。つまるところコンピュータを
専門としない人には言語だけでいいんじゃないかという気もする。問題は
機構と言語がいつも完全には分離できないことだ…。そして俺はきょうは書きすぎだ。
てゆうかもう 80kbytes もあるど。いつのまにこんなに! やばいじゃないか。
そしてまだこのようにおまえは文字を増やしつづけるのだ…うひょひょhy. 自己中心主義。
(localhost から読むぶんには全然気にならないからね)
いきなり思いついたので一言。
「恩で仇を返す」のは最高の仇の返し方じゃないだろうか。
google://恩で仇を返す/ (0件)
勝った!! (←意味不明)
研究日誌
きょうは午後からずっときのうの 16個の文ペアについて
「とれるかとれないか」を分析、ぜんぶで 3時間ぐらいかかった。
ホントは最初は tree editor をつくってある程度自動化してからやるつもりだったのが、
絶対時間がたんないし、どうせ最後は人手でやんなきゃいけないのだから
16個ぐらいいいかと思った…が、やはり大変だった。
内部構造を knp 形式でダンプするルーチンはなんとか動いたが
1週間後に理解できるかどうか不安なくらいだ。
しかしなんで knp は並列構造をこんなに形で出力するのだろうか。
まあ「部分木を使う」という状況は想定外なんだろうなあ、きっと。
やばい。気づいたら 60k超えている (このページが)。
きょう布団の中で気がついたのだけど、
新山は「3モーラの音 + “こ”」という構造の単語に弱い (心ひかれる) らしい。
たとえば「うみねこ」とか「なまねこ」とか「かなてこ」とか「グアナコ」とか、
もう発音だけでメロメロって感じ。しかしよく見たら「な行が含まれている」という
制約もありそうだな。とにかくこういう…やっぱおかしいよ、こいつは。
さいきん、日替りスープをあれこれ試してみるという作戦 (なにが作戦だ、ヴォケ、と
一人つっこみ)。デリにいくと奧のほうに (奧とは限らない) スープのでっけいポット
(筒型の深い鍋) が5、6個おいてあり、そこに毎日さまざまなスープが入っていて、
客は近くにある紙製の容器を手にとって自分ですくうのだ。
複数のスープをひとつの容器に入れてミックスすることもできそうだが
そんな変態がはたしてこの世界に存在するのかどうかは知らない。
きょうは「マンハッタン・クラムチャウダー」とか書いてあるものを選んだだが、
なにがマンハッタンなんだ? というかミネストローネに見えるんだけど…。
ところでついに帽子を買った。よく見たら手袋とか帽子とかは、
道端の露店で売っているのである。$4。露店の中国人ふうのあんちゃんは、
新山の薄着ぶりを見て "you don't cold?" などという英語をしゃべった。
Todo: 「おたんこなす」の「おたんこ」って何?
そういえば話は変わるけど某研究室ではいまだにマシン名に
“ミケ”とか“チョビ”とかいう名前をつけてるのだらうか。疑問
ねむいっす。
todo: せんたく、しゅくだい (NLP:feb 6, AI:feb 4)。
机の上がちらかってるせいか、テンション低いわー。
洗濯しようと思ったらランドリーが故障してたので最悪気分悪。tick証。
♪ 黄色いニッポンぶっつぶせ、黄色いニッポンぶっつぶせ、
せーかいーのー地図〜か〜ら〜邪魔っケじゃあああ!
一部に表現の不適切な部分は最新のパッチをあてることで回避されました。1998年5月22日 バージョン 0.43 拝
喋りすぎることの功罪について。
自分自身を含め、口が軽い人や必要以上によく喋る人は嫌いだ。
というか、そもそもそういうふるまいがいちばん目に余るのは自分なのだが。
だったら、黙れよ。はい。
おい、お前、毎日おんなじことかいてねーか??
それはそれでいろいろあるっつーことですよ! ぬ!!
(あいづちを確認する「ね!!」の方言)
Eli から爆笑なメールが来たのでここに引用しておく:
thought you would appreciate this :)
eli
(((((((((())))))))))
Today is the car of the cdr of your life.
-unknown
なるほど、いちど cdr したら戻れないあたりなんかまさに…。
このように Lisp は人生哲学を語るのになくてはならぬものなのである。(合掌)
でももういまさら Lisp に戻る気にはなれないけど。
はなしは変わるのだが、コンピュータをまったく知らない人に
プログラミングの楽しさをおしえるには、Python と Scheme と
どっちの言語を先にやらせるのがいいんだろうか。
まえに Eli から聞いたのだが、米国には高校で実験的に
Scheme プログラミングを教えている教師がいるのだそうな。
しかしこれは状況によると思う。だいたいプログラミングを教えて
何をさせたいのかが問題だ:
- 計算機科学を習うときのしっかりした拠りどころとなるような
基礎概念を「目に見える形でさわらせる」ことによって身につけさせたいのなら、
Scheme や ML や Python などの「筋のよい」言語を最初に学ばせればいいと思う。
しかしこんな条件があてはまる対象者は高校生か理系の大学新入生だけだ。
これらの言語の欠点は、しばらく使い込まないと
実用的な使いみちがあまりないということだ。
お行儀がよすぎるために、実際的なアプリケーションをつくるにはある程度の慣れが必要だからだ。
だから数学をおもしろがるのと同じように「抽象的なもの」におもしろがるような
タイプの人でないと続けるのはむずかしいと思う。
初学者がいきなり正規表現や Tkinter をすんなり理解できるかといったら、あやしい。
実際的な感覚をさっさと身につけさせるなら、
もっと汚い手続き型言語のほうがてっとり早いと思う。
某教授によると、じつは欧米では Ada を最初の手続き型として教える所は
結構あるそうな。しかしあれはちょっとなあ…。
たしかに型付けシステムとしては筋がいいのかもしれないが、
お手軽さという意味では他の言語よりはるかに劣る。
- ただひたすら目に見える何かをつくって楽しみたい、
というならもっと「筋の悪い」言語でもいい。
ほんとーにコンピュータのプログラミングなんか
絶対仕事と関係ないような人々、床屋のおやじとか飲み屋のママが扱えるような言語でないとだめだと思う。
そもそもふつうの人は計算機科学なんか習う必要もないので、
日曜プログラミングの需要としてはこれが一番多いような。
そしてその手の言語はいくらでもある。
とくに最近ならビジュアル的には Director (Flash) を
使えばたいていの処理はできてしまいそうなので、Lingo をちょっと
かじっておけばプログラミングなんか必要ない時代になっているんじゃないか。
Python がこのセクションに入りこめれば大変けっこうなのだが、
いまんところマイナーすぎてダメでしょ (←自爆的発言)。
新山が Pygame に期待するのはそういう意味もある。
- C や C++ はどう考えても素人に最初にやらせる言語じゃないが、
コンピュータというものを嫌いにさせ、
プログラミングする人間に対して畏怖の念を抱かせるには格好の言語かもしれない。
- 「通」の気分をあじわう、あるいは仲間が欲しいなら Ruby をおすすめします。
どんなつまらんプログラムでも「Ruby で実装しました」というだけでホメてもらえます。
楽しいですよー。ほかの「通」の方々との慣れ合いにも最適。
“わかってない”愚民どもを見下してやりましょう。
最終目的は世界じゅうのすべてのコードを Ruby で書くことです
…てゆうか、Ruby はプログラミング言語の世界に「慣れ合い用」という新たなジャンルを築いたと思う。
(補足。もちろんすべての人がそうだといってるわけではありません。
でも半分ぐらいはそうだろうな。)
で、オレは眠い目をこすりながらなにをこんなこと書いてるわけ?
研究日誌
ミーティング。sentence-pairs extraction の最終的な
数字だけかぞえても原因とすすむべき方向がわからんので、
きちっと具体的なデータを検証してどこで数字が落ちてるのか出してこいと言われる。
まったくそのとおりで。
それからこれ: WC 3-27 M 9 A
やること:
- 明日までに:
tree editor つくれ。(いきなりかい!)
- 明日までに:
まず完璧な正解データを用意すること。16個の中から。
つぎに、parse がダメだとどれくらいおちるのか?
coref がダメだとどれくらい?
ne がダメだと? の順に評価する。
- 来週のミーティングまでに:
そいつを 41組 82文まで拡張。
そのうち完璧な paraphrases がとれるのはいくつか?
parse, coref, ne が落ちるとそれぞれどれくらい影響あるのか。
うげー大変。
そんなことよりも日本人は「学力」なんかより「握力」を鍛えたほうがいいって、マジで。
新山は握力 30kg あるかないかというところで (「女の握力」などと呼ばれていた)、
いつもかなりコンプレックスあるんだから! 手首なんか親指と小指で
くるっと巻いてもまだ結構あまるし… (手が細いのか指が長いのか)。
にもかかわらず言ってることは強気なので、実際にかかってこられたらすぐ死ぬね。
いつも「あったらいいなあ」と思っているもの。
自動的メールふりわけ器というのは沢山あるが、
eメールの束から日付だけを抜き出して
自動的にスケジュール表を作成してくれるソフトって、
あったら便利そうなのになあ。
かんたんな NE 認識器と sentence splitter がありゃ誰でもできそうなもんだが。
いつも思うのだけど、
こういうのはきっと誰かが「学術レベルでは」やっているのだろう。
しかしけしからぬのはそういう学術レベルでの成果を
きちんと使えるレベルに整備して、フリーソフトとしてリリースするような
学生がほとんどいないことである (それをやったら研究のネタがなくなるから困るのだろうか)。
フリーソフトにおいては、完成度の低さは問題ではないと思う。
むしろ「こういう可能性がある」ということを示せるということが重要なのに。
だから大学はいつまでたってもバカにされるんだよ!
それはこっちの大学にきてもそう思うのだが、
学生たちのフリーソフトに対する感心は (日本よりましとはいえ)
がっかりするほど少なくてがっかりする (トートロジーな文章だな、あいかわらず)。
まあ、こっちの国ではビジネスにするほうが重要なのかもしれないけど。
またここに書くこと忘れた。
ああもう眠くて死にそう。つうか、寝そう。神様、ゆるして。
F1
きょうのヒルネ時間は 15分きっかしでした。
そしてきょうも帽子を…買えませんでした…。
ところで「原因はワーム型ウイルス」ってナンダネ??
ワームはワームで、ウイルスはウイルスだろうが!
これは「うどん風そば」みたいなもんですか?
(wwwwwwwwwww いま一人で大ウケ wwwwwwwwwwww)
さて帰ろ。
なんだよ Kマートに寄って帰ってきたらもう9時近くじゃねーかよ、ったく。
そういえば Kマートは夜10時ごろまでやっているということを思い出し、
最後の望みを託して Kマートに向かったが、残念ながら帽子はほとんど
売り切れてロクなのがなかった。ので、あきらめる。
やはりみんなこの風にたえきれず (耳をおさえて歩いている人をよく見かける)、
ラッシュ・into・帽子、なのであろうか。んー、やっぱ長年英語圏で生活すると
このように日本語と英語をまぜて使うようになってしまうのであろうか。
それはいやだな。「ミーは」とか。そういや「ミー」といえば、
イヤミが一人称として「ミー」を使うのは、ほとんど唯一考えられる選択である。
あの漫画はイヤミが「ミー」を使うことによって辛うじて均衡を保っているのだ。
だってやつが「オイどん」とか「それ菓子」とかいう一人称を使うところを
想像してみてよ。唯一ほかに思いつくのは「イヤミは」という自分の
名前をそのまま使うものだが、これではインパクトが少ない。
しかしナゼオレハこんなことをわざわざスパゲッティ茹でながら書いているのか?
バカか? 寒いところを通ってくると脳内麻薬が分泌さるれためか(wざto)、
やたらとハイになるのかもしれない。ふん。というか今日はすこしましだと思うぜ、
いま表は -11℃だけど。つーか、いま日本の天気を見てみたら旭川よりぜんぜん
あったかいじゃねーか! こんなことでは道民にバカにされてしまう (知り合いいないけど!)。
うわー、電波!
ところで高校のころのよせがきに「猫にネコって名付けた人は偉いね」と書いた
新山であるが、名前にまつわる語感とはこのように(どのように?)すべての認識を
左右する根本的なものなのである。「バラを他の名前で呼んでもよい香りがする」
と言ったのは誰だっけ? アナトール・フランスかなんかだったような気がするが
(いや、これはただ思い出した名前を言ってみただけで実際はぜんぜん違うと思うが、
じゃあゲーテってことにしとこう)、新山の理論によれば、それは、違う! ということなのだ。
どうでもいいけど。いまふと考えたのだが「ブタ」ってのはいかにも
よくない響きがして、よくない。そして (これが本題なのだが) かわりに、
「このブタ野郎!」というかわりに、「このトントン野郎!」といってみたらどうだろうか?
そうすれば世界はもっとメルヘンになりそうな気がする。あくまで気がするだけだし
これは今げんざいのデンピーが去ってしまえばなんともおもわなくなるのかもしれない。
それにしても憑依とはうまいものだ、いやこわいものだ。なんとかならんのかな。
やめましょう。嫌われるだけですよ。
そういやー "waza.to" っていうドメイン名、誰もとらないのかな。
テンションが下がってきたので、さっき書いたものを見ると死にたくなります。
例のスッドレが 1000いく前に dat 落ちしたのが心残り。
ノックの間隔について思うこと。自分は余裕のない人間であるので (ヘンな奴)、
いままでノックはつねに「ココン!」という感じでしてきた。
しかし、よく考えてみるとこのノック方式は安っぽいうえに、
相手を焦らせるし自分も焦っているようにきこえる。
それよりも 1.4秒ぐらい間隔をおいて、「コン、コン」とノックするほうが
好ましいのではないか…と思ったのであった。
これくらいの間隔だと、ノックする側 (ノッカー) の確固たる決意を思わせる。
ノックされる側 (ノッキー)。言うと思ったでしょ。だから何だって話だが。
てゆうかトイレん中で電話するのやめてよ Owen、
だからオレがこんなところで暇をもてあましてつまらんことを考えなきゃならんくなるんだ。
研究日誌
NE 認識器の精度向上についての課題についての考察について。
- pih はパターンの順序については何も考慮しておらず、
ただ上から当たるまで順番に試していくだけの方式らしい
(ノヴァタさんいわく「awk式」)。
- (重要) まだ正解データがない! ので、パフォーマンスは
測定できない。つまり精度向上うんぬんはまず
精度が計れるようになるまで待て
ということ。いま正解データ作成組が作業してるので、
それがある程度できてきてから。
- ある程度文脈のようなものの考慮 (前後数単語のマッチング) は
できるようになっている。パターンの長さと結果の長さは
同じである必要はない。
- 引数の書き方はてきとう。
- 曖昧性甲斐性。2つのパターンが同時にヒットしたら、
どうするか? セキネさんによると、
まったくべつの NE クラスに同時に 2つあてはまるということも
あるらしいので (今やっているのはそういうタグづけ)、
その場合は 2つタグをつけちゃってもいいんではないか、ということ
(でもこれ、使う側がなあ… QA システムニトッテハイイラシイケド)。
で、とりあえず Brill な方法で改善できそうなのはどこか、というと:
- まず順番をかえてみる。
同一の NE クラス内パターンにおいて、
どの順番が一番パフォーマンス上がるか?
あるいはことなる NE クラスパターンの集合の順序。
全部のパターンを一度にやると終わんなそう (約 1000! = 102567 通り) なので。
- 文脈センサの検出 (??センサの検出とは??)。
ウインドウを前後数単語 (まあせいぜい 1 か 2 だろう) に広げてみて、
パターンを学習、なにが起こるかをテスト。
- プレフィックス、サフィックスの検出。
前後数文字をプレフィックスあるいはサフィックスとして切り取ってみて、
その文字列が他のパターンにも適用可能かどうかをテスト。
- 以上のくみ合わせ。
そしてきょう、「Bri る」という新しい日本語が誕生した…。
スピードアップのための論文 NAACL 2001, Ngai (なんて読むのだろう、この人は)。
10記事 276個のエラーを分析して傾向をまとめる。時間がかかった。
でもこれでレポートが書けるな。
- 60個 : 取れたけど間違っている。
- 216個 : 取れてない。
- 103個: 照応関係を解決しないと取れない。
- 91個: とにかく取れない。たぶん辞書エントリがないのだろう。
- 11個: めずらしい名前なもの (「落田さん」とか)。
- 9個: appositionがカヴァーできなかった。
ついに発見!
Google をミラーしているサイト。
おそろしや。
今日は廃人の火だ。いやいつもだ。訂正! 訂正!
雪がふってきたよ。さっさと買い物にいっておけばよかった。。
sikasiあんまり冷えてはいなかったので、雪のちらついているうちに
(まだ「降る」までいってない) さっさと買い物へ。
気がついたら買い物カゴをもって「わーかめすきすきー♪」と歌っていた。
これが日本ならばこんなアヤしい男には誰も近づかないはずだが、
さいわいこちらでは歌いながら歩いている人は多いし、
それ以外にもなんか見えない存在に向かって喋っている人は
ときどきみかけるので、あまり変な顔はされない。
しかしこっちにきてはじめて見たのだけど、ヘッドホンと
マイクをつけて携帯電話をやってる人って、ありゃ最初見たときは
アタマおかしいのかと思ったよ。だって何も持ってないのにひとりで
喋ってんだもん…。まあ誰であっても新山よりはマシですが。
あれ、タナカ先生っていつのまにか 人工知能学会 の
会長になってたの? ちなみに人工知能学会の略称は JSAI だが、
www.jsai.or.jp は 農業情報学会に先取りされてたりする。
Owen と Ryan が Superbowl を見ている。そういやもうそんな時期だよなあ。
あれから一年たったのか…。
彼らはギャーギャーサワイでいる。オレはアメフトのルールが全然わかんない。
久しぶりにみんなで集まってメシを食う。
夕食は Owen お手製のサラダと Ryan のラビオリ (といってもインスタントなものを
適当に調理しただけ)、あとはフライドチキンという、ひどくアメリカンな食事。
今年の SuperBowl は San Diego でやってるようだ。
まだテレビでは向こうは4時ごろで明るい。
このスーパーボウルってやつも新山にはぜんぜん理解できぬしろもの。
いかにもアメリカだなあって感じ。なんつーか、“頭からっぽ”的 (おまえが言うなって感じだが)。
あのマヌケなポーズ (両手の人差指をたてて両腕をあげている) のバカデカ風船人形やら、
チアガールに囲まれた入場行進やら、選手を前にした有名シンガーによる国歌斉唱、
今イラクに向かっている軍人さんたちもがんばって云々。
毎年毎年よくあきねーな。Ryan によると
スーパーボウルのチケットはメチャ高いらしく、ふつうたとえば
Buffalo (彼の地元) でのゲームは外野席が $45 ぐらいなのに対して
(それでも野球よりはかなり高いもんだ、ゲームの回数が野球にくらべてぜんぜん少ないかららしい)、
スーパーボウルは最低でも $200 ぐらいはするだろうとのこと。ふーん。
しかしなんでスーパーボウルっていうわけ? という疑問は解決する気がない新山、その日。
ちなみに、Ryan は会社の同僚とやっている「賭け表」を持っていた。
100人ぐらいの名前が記してある。何度もコピーしたせいか、かなり字はよみにくい。
これだけの規模のゲームだから、やはり金を賭ける人々は多いらしい…。
連中はまだ 10分おきぐらいにキャーキャー騒いでいる。
終わったらしい…。
オレは他人の幸せを素直に喜べない性分だが、考えてみれば自分の幸せも素直に喜べないような気がする。
そういう人間は、一生不幸なままでいればいい、と思う。
ときどきはね。
ずけずけと寝坊する。
ああ、きのうのあの重さはアタックされてたのか。
誰もこういうことは書かないけれど。
自分を許す理由などありませんしね・・・
ああ、どうか目の前から消えてくれ。たのむから目の前から消えてくれ。
どうかお願い。後生だから。
夜になった。
i030125.jpg
Googlia のコードを改造して、
すべての名詞を『〜の中の人』に変換するというアホな実験をやってみる。
こっちのほうがおもしれえや。
あれま。
Slashdot のこの記事 を
見たらなんかおそろしいコトの中の人が書いてある。SCPSの中の人ってどこだろう?
最近の中の人思うのだけどNYUの中の人って「カネの中の人のためならなんでもやります」的な大学の中の人だよね。
日本の中の人でいえばワセダみたいの中の人なもんだ(勝手の中の人な推測)の中の人。ところで
google://アニヲタ氏ね/
ってのは彼らの中の人の間では呪詛の中の人というよりもむしろ挨拶の中の人なのだろうか。
こっちで発売の中の人されたというショーネンジャンプの中の人はいつまでつづくのだろうか。
|
幼いころからなんの疑問も持たず。
ずうっと家にこもっていると考えがだんだん抽象的かつ内部的 (? 内省的とはいわない) な
ものばかりになっていき、ついには崩壊する。あーいかんいかん、もっと外の空気を吸わなければ!
納豆にひややっこ、豆腐とワカメのみそ汁という大豆ばっかりな晩ご飯をすませる。
ヴァイタミンが足りてないようなので Owen が買ったトマトを一個失敬。
新山はとくに肉が嫌いだというわけではないのだが、ふつうにメシをつくると
なぜかいつも肉は食わないことになってしまう…。まあ煮干しでダシをとったので
魚は食ってることになるけど (うちではみそ汁のダシをとったあとの煮干しを
取り出さずにそのまま具と一緒に食っていた、母いわく「だってそのほうが栄養あるじゃん」)。
どうでもいいが、「ばんごはん」という語感のひびきは好きなのだが、
漢字でかくときは「晩ご飯」と表記したい。この「晩」と「飯」の
まんなかにはさまってる、ひらがなの「ご」がいい味をだしてるのだ。…と、個人的には思う。
「真ん中」もまんなかに「ん」がはさまってますね。
しかしなぜか「まんなか」はひらがなで表記するほうが好きである。
「なか」って部分がいいのだな、きっと (意味不明)。
新山のような趣味の人間をなんと呼ぶのだろう。語感フェチだろうか。
おっかねー (何が?)。しかしながら「煮干し」は漢字である。
送りがなはつけること! (“煮干”なんてのはもってのほか)
連続カキコ。
趣味は何ですか? ときかれたら、「やせ我慢」と答えたい
(まあ実際には尋かれることもないし答えないと思うけdo)。
そして「やせ我慢」と答えたときから、すでに偉大なる
やせ我慢は始まっているのである!! ふんがあ。
とにかくヘイキですよ、という何くわぬ顔をして日々を楽しげに楽しげに過ごすのだ
(考えてみれば誰でもやっていることだが)。
しかし真のやせ我慢はこんなところで自分のネタをばらしては
ならない。まだ是修行必要。
死ぬまでに一度見てみたいもの: けさらんぱさらん
(また狂ってきやがったかこいつは…と考えているあなたも実は同じです)
なぜか MIDI エディタをさがしはじめて sted2 に行きついて gmc をみつけて
気がついたら mod ファイルをダウンロードして聴きまくっている自分がいた。
xmp のページからリンクをたどると、
読み人知らずな曲がたくさん落ちている。おもに mod ファイルってのは
出自が Megademo らしくどれもテクノっぽいのだが、結構カッコイイ。
とくに Chicago_Song とか…。オレは一体なにをやってるのか。
そういやー昔 (2年前だがもう遠い昔のことのように思える)
藤本裕之がやってた xemem ってのは、
どうなったんですかね。まあいかにも途中で雲散霧消しそうな
プロジェクトだ、と思ったのだが、なんだかこれと googlia のやってることは
似ているように思う (それにしてもはえーな、もう登録されてるよ)。
手前味噌。しかしなんでいきなりこんなことを思いついたんだか。
風呂に入るとやはり思考が活性化されるらしい。
この手の「頓挫しました (あるいはしかけてる) プロジェクト」一覧を
展示してるお墓のようなサイトって誰かつくってないのかしらぬ
(google://if2000.co.jp/
はもうドメインごと消えてしまった…)。いつも思い出すのは
「墓としてのWWW」
いいですよねえこれ。別冊宝島時代の山形浩生はめちゃくちゃサエていたと思う。
しかし死んだかどうかはどうやってわかるんだ。
web ページの URL 変更をトラッキングする、という考えはたしかいろいろ紹介されてたが…。
ハーボット は
アイデアというよりもキャラで持ってるような気もする。
どうしても "havoc" という単語を思い出してしまうのだが。
こう、思考がアサッテな方向にあちこち飛散する、というのは
うちの家族と話していても思うのだが、うちはこういうブンレツ者な家系なのだらうか。
ところで最近 freenet や winny の騒ぎをみていて、ふと、
データが完全に分散しだしたら、検索エンジンもとーぜん完全な並列分散処理になるのだろうなあ、
と思う。そうするとどうなるの?
なぜかこんな早い時間に目がさめる。。。
眠いのだけどなんか自分に言い訳したくてしょうがない気分だ。
が、べつにまだ起きなくていい時間なんだから
まだテンション上げる必要はない。でもなんかみょうに悲しい。
これは生理的なものなのか、それともなにか別の要因があるのか
わからないがとりあえずここに記録しておく。
さてまた寝るか
あーきょうもまたサムそうだなあちくしょう
さかなだ! さかなが空を飛んでる!
…そういえば高校生のころ「マンタ (エイの一種) が
空を泳いでたらカッコいいだろうなあ」と思っていた。
やつらは水中だと両手 (?) をゆっくりと上下させるのでまるで飛んでいるように見えるのである。
しかし大学に入って大瀧詠一の「空とぶくじら」を聴いてからは、
この幻想はクジラにかき消されてしまった。やつのほうがデカいじゃないか!
というか、一番でかいね、クジラは…それ以上でかいのいないじゃん…。
乱暴だなあ。
電車の中の広告で "Are you an A4 driver?" というのがあって、
「A4 ドライバーってことはつまり、"ペーパードライバー" ってコトですカ??」
と一人でウケていたら、Audi A4 のことだった。
google://見ないふり!/ (約1,200件)
nytimes の "European Leaders Move to Ease Tensions With U.S. on Iraq" という記事を
見て「ほー…モノは言いようだなー…」とつぶやく。この新聞は右よりなので、
世論の煽り方は学ぶ価値がある…らしい…よ (といってもじつは新山にはぜんぜんわかりません)。
しかしこの読者ってインテリ層中心だからなあ。地下鉄や PATH (貧乏人多し) で
NYtimes を読んでる人なんてほとんど見かけない。彼らが読むのは基本的に
ゴシップっぽい内容の New York Post である。うちのビルディングで
nytimes をとっているのは Owen だけだし (基本的に JSQ はヒスパニックや黒人が多く、
nytimes を読むような層は少ない)。「NYtimes はユダヤ寄り」つーのも十分ありうる話で、
エルサレム関係のテロニュースはやたらみかけるが、パレスチナ人側が
やられたという記事はほとんどない。どうでもいいけどオレ、ここにこんなことを
書いちゃってていいんでしょうか?
この 1000個以上のブックマークのうち見てるのは 20個ぐらいだけ。
使用頻度を見て整理してくれる機能があればいいのになあ。。。
だっていまだに「きょうの森首相」とか「なみかれ」とかいうリンクがあるんだよ?
ああ趣味がばれる、趣味が。
きょうはすこしあったかかったので (といっても -5℃だが…)、
このチャンスを逃すまじと買い物にでかける。日本食料品屋 (あーめんどくさい、
なんでこんなにかさばる名詞しかないの?) へ行ったら
エレベータがこわれていて隣の居酒屋 (これも日本風) から
入ることになってた。笑える。
そして帰りはまたネギを袋からはみ出させて (べつにわざとじゃない)
電車にのる。すると 2人の黒人が話していたが、かれらは
どうみてもインド=ヨーロッパ語族じゃない言語を喋っていた。
どうやらアフリカ人らしい。
しかしじっくり観察すると、彼らは見た目もアメリカの黒人とは
だいぶ違うということがわかる。まず色が圧倒的に黒い。
漆黒の闇から目だけ白く出てるってかんじの黒さ。
目つきもどことなくキレ長で全体的に精悍な顔つきである。
そして黒人というとだいたいいつも顔がテカテカしてるという印象があるが、
彼らの皮膚はテカテカしてなかった。なんか、すべすべしてそう。ゴム製品みたいだ。
すこし黙れよオレは…
あれま。
Slashdot のこの記事 を
見たらなんかおそろしいコトが書いてある。SCPS ってどこだろう?
最近思うのだけど NYU って「カネのためならなんでもやります」的な大学だよね。
日本でいえばワセダみたいなもんだ (勝手な推測)。ところで
google://アニヲタ氏ね/
ってのは彼らの間では呪詛というよりもむしろ挨拶なのだろうか。
こっちで発売されたというショーネンジャンプはいつまでつづくのだろうか。
どうでもいいけど "British Columbia" って名前がいいよなー、なーんか。
(もうまったく脈略ないんだけどいいや、書いちゃえ、と書いた文)
んー、なんか、大学が異様に重い。
そりゃ大学は重いだろ馬鹿! と一人つっこみ。
研究日誌
「信者」とか「脱会」というのは NE なんだろうか??
きのうの TODO のほぼすべてを完了。
まず人手コーパスのほうに OFFENCE
が入ってなかったので
そいつをタグづけ。新しいタグを考えるのはめんどくさかったので ARTIFACT
でいいや (チョウ適当)。
しかしこれが結構時間かかった…。
つぎに pih のつけた階層タグ → 人手タグへの変換テーブルをつくる。
これは awk '{print$12}' *.dep | sort | uniq -c | sort -rn
したやつを
手で編集すればいいだけ。そのあと変換テーブルを使って文字レベルに分解して
2つの結果を比較するスクリプトを書く。そんで precision, recall を計算。
しかしそもそもの体系が違うのでちょっと苦労する。
たとえば機械は「麻原容疑者」を「PERSON + POSITION_TITLE
」と解析するのに対して、
人間 (=新山) はすべてをひとかたまりで「PERSON
」のタグをつけていたのだ。
そうすると、文字レベルで分解したときに
となってしまって、実際には 60%しか当たってないことになってしまうのね。
結局、こういうケースではインチキをする。ほかにも「脱会」がどうしてもうまく
形態素解析されないとか、記事中のダッシュ (――) が片方では1文字に縮退されるのに
もう片方ではされないので文字レベルでのマッチングがうまくいかないとか…
いま考えてると diff のアルゴリズムを使えばよかったのかもしれないが、
ただの diff をつかうと厄介なんだよな。まあいいや。
人手の出力を正解データとすると以下のような結果を得た:
- Human: 7853 chars (correct.)
- Machine: 5660 chars (4969 correct, prec. 88%, recall. 63%)
Recall が落ちているのはおもに 2つの原因が考えられる:
- Coref がとれてない。
- Apposition がとれていない。
どちらも予想できていたことである。
Apposition というのは「逮捕されたのは、住所不定、無職、田辺○○○容疑者(40)。」とかいうやつの
下線部のことね。新山は「住所不定、無職、田辺○○○容疑者(40)」はすべて人を表している表現だから
「住所不定、無職、」の部分は apposition とみなすのが妥当だろうと思っているが、
しかし実際には機械が人名として認識するのは「田辺○○○」の部分だけである。
えーと、これは IE (InternetExplorer ではないよ) のときには望まれた結果なんだけど、
新山の目的のときにはもっとデカイ部分をとってもらわないとノイズが増えてしまう。
これをいかに処理するか? たぶんフィルタをかますということになるんだろうな…。
いったい何段階の前処理になるのだろう。おそろしい。
Todo:
夢。どこぞの屋内駐車場に入ったら、そこは北朝鮮の核ミサイル開発基地だった、
という夢を見た。つうか駐車場で開発してんのかよ! (実際ありそうでこわい)
そこには黄色と黒のシマシマな糸を吐く奇妙な蜘蛛がいて、新山は
蜘蛛はそんなにスキじゃないのでどうにも気味が悪かったのだが、
「なるほどこの蜘蛛を使えば黄色と黒の
シマシマ標識 (なんていうのあれ) を
簡単に作れるのだな」とみょうに感心していた。なんだったんだあれは。
Googlia のログを調べてみたら
なんかすげー数の人が来てる (といってもたかだか 1000ヒットぐらいだが) ので
びっくりする。tabesugi.net にそんなアクセスがあるわけはないので、
どこからどう情報が伝わったのかわからんが、とにかくどこかからか伝わるらしい。
でも基本的に新山のページは「Google 駆動型」だと思う。(アリジゴク型ともいう)
とりあえず作るだけ作っておいて、べつに宣伝もせずにひっそりと置いておく。
そのうち検索エンジンで誰かひっかけるだろう…という程度のつくりである。
みずから売りこんでくる情報は嫌いなのだ。
あいかわらず縦通りを歩くのが危険…。
しかし思うのだけど、こういう何の役にも立たない「色モノ」ソフトウエアばっかり
注目されるのは悲しい (おめーがそんなのばっかり作ってんだろ!
でもじつはひそかにもっと地道なソフトウエアの計画も
進めているんだけどまだ不確かでここには書かない)。
これはオープンソースの問題点にも共通する。ようするにみんな
派手なことばっかりやりたがり、派手な奴が目立つ。
そしてほんとうに重要な部分をやる人 (改良意見を送るとか文書化するとか) には
光があてられない。な〜にが『贈与の文化』だよ。
ドキュメント翻訳でもそうで、派手な「色モノ」ばかりが先に訳され、
地味だけど重要なドキュメント (とくにリファレンスのたぐい) は手づかずという状況があまりに多い
(そもそもオープンソースの世界では文書じたいがろくに顧みられないという現状があるのだが)。
しかし、ほとんどの人が現実世界では地味な仕事をやっているんだから、
趣味の世界ぐらい色モノでもいいんじゃないか、どうしていけないのか? とも思う。
だから、まあ、そういうことなのだろう。幻想にしがみつくのはやめようや。
個人的な結論としては、さっさと
おめーの python ライブラリマニュアル担当分を訳せ
ってことですね、新山。
ありもしない話。
しかしロシア語ってすげーよなー、よくあれで舌からまないもんだよ。
イ ツ ホ ゜ ン シ カ ナ イ モ ヌ ク ゛ ヮ カ ル ム ワ ケ ナ テ ゛ ス ヨ ネ 。 。 。
google://スーパーわんた/
クイアリ。蟻食。
夕方ごろスドウさんがきて、「あれ? 新山さんって NLP の授業とってたんじゃなかったでしたっけ?」という。
とってますが。「今やってますよ?」 へ? 金曜日じゃないの? ガーーーソ!
そんなバカな!! …というわけで最初の Ralph 授業を半分 (=約1時間) 聞きのがしましたよ。
アホかおれは。しかも敗因がかなりマヌケだ…:
- この授業は時間割の一番右端のカラムにかかれていた。
そこはとーぜん (右端だから) 金曜日だろうと思っていたら、
じつは木曜日だった (金曜日はこの学科は授業がない)。
ほとんどパターン認識みたいな読み方しかしてないからそうなるんだ。
- Albert (nyu学生のための授業申告・成績管理システム)
でも授業スケジュールを印刷してわざわざ机の前に貼っておいたのだが、
この授業は曜日欄に「R」とかかれていた。
この R はとーぜん "FRiday" の R だろうと思っていたら…
"ThuRsday" の R だったのですね。
よく考えてみりゃそうだよな、Friday の F は T と違って他の曜日と
カチあっていることはないので、そのまま F と書かれるはずなんだから!
ということでですね、いきなり遅刻したわけです。まあいいんだけど。
しかしなんか人がいっぱいいたよ。やだなあ。混んでる授業はそれだけで
やる気がそがれるので、もうちょい人が減ってほしい。
今日はたぶん「なるべく風に切られないで家に帰る方法」の最適解を
発見したと思う、たぶん…。まずいきなり左に曲がるのではなく、
Broadway を北上するのだ。この道は途中で折れているのでホイホイである。
つまり、風が通りぬけない ( *** なんで「ホイホイ」なんていってんだか自分でも理解不明 *** )。
そこで 9st. までいってから左に曲がる。しかしやっぱ寒いけどナー。
もうここ数日はあまりに寒いので、帰りに寄り道したりはまったくできない。
いかに平穏な日々がありがたかったかを今あらためて思う。
というか、きょう気づいたこと。新山はもともと帽子をかぶるという習慣がなかったのだが、
きょう街に出てあたりを見回してみたら、帽子をかぶっていないのは新山ぐらいだった。
てゆうか耳痛いしね、そろそろ。つまり帽子はヨイのである。帽子を買え! 買え! 帽子!
いやそれにしてもだ。
「スーパーわんた」ってスゴいよね!! つうかなにあの手抜き絵。
脱力もいいところって感じ。いや、あのダメぶりが好きだったんだけど。
通常作業するときはもっぱらイルカ君でしたが。しかし「イルカ」を「カイル」と
置換するのはなんだか安直すぎてセンスを疑う。おまえはギョーカイ人か!!
新山は“ギョーカイ人”はなんでもかんでも単語を置換して使うという偏見をもっている。
「ああ、これからクーウーニョへ行くんだよね、ドナイテッユがサントウしちゃってさあ、
いいクーコーシャカイだったのにヘンタイだよ、ネンザン」というふうに喋るのだろう、
かれらは。られはか。
フタが閉まらん! フタが閉まらんぞ!
なんとなく「徒弟制度」というものについて考える。
新山はじつは徒弟制度は好きである。UNIX を覚えたのはまさに
先輩の職人からワザを盗んできたようなものだった。新山にとっての師匠というと
イマイさんとかウエキさんなのだが (もっともかれらは新山ごときを弟子などとは
思っていなかっただろうけど)、かれらが研究室で端末を打っているところを
肩ごしにのぞきこみ、毎回のように「ああ、history ってあんなふうに使うのか」とか
「このコマンドにはこんな使い道もあったのか」という発見をした。
Linux のカーネルコンパイル方法とかも口承だったし…
彼らはいまどうしているのやら…。あとでふりかえってみて、
「自分は大学時代 (あるいは大学院時代) にいい教育を受けた」と思えるのは
幸せなのかもしれない。今ではそういう徒弟制度は薄れてきているように
見えるけど、それでも頭いいやつはちゃんと学習できんのかな。
よい師匠に教えを受けた人間は自分もよい師匠にならなければいけないと
思うのだけど、自分がそうなっているかと考えればはなはだ疑問であるとしか
いいようがない。結局何が言いたいんだろ俺。またただの自己卑下か?
研究日誌
そもそも recall がいちじるしく下がったのは sentence-matching の段階であるということ。
この時点ですでに食われてたわけね。文ペアを出力した段階ですでに倍以上の差がある:
- 手動 : 出力 41組 (文)、正解 38、あやしい 1、不正解 2 (prec. = 93%)
- 機械 : 出力 19組 (文)、正解 17、あやしい 1、不正解 1 (prec. = 89%)
sentence-matching がうまくいかないのはなぜか?
問題はおおきくわけて 2つある:
- NE recognition の recall の低さ。
- coref がうまくいってない。
NE の出力数じたいを見てみると:
- 手動 : 1377個 (のべ 7438文字, 5.4字/個)
- 機械 : 1860個 (のべ 5931文字, 3.2字/個)
で機械でやったときのほうが多い。
しかしいまのシステムでは NE tagging したあとの名詞句は
なんでもいっこにまとめちゃうので、数を比べても意味がないということが判明。
coverage としては実際には手でやったときのほうが範囲がひろいのだ
(つまり、文中でより多くの部分を NE として認識できている)。
カヴァーしている文字数を比べると手動のほうが多かった
(手動では coref もやっているので、これは coref も解決したあとの数字である)。
だから NE あたりの文字数でみると手動と機械とではかなり差がある。
しかしこれは手動のほうがいいということを意味しているわけではない。
NE はこまかく切ったほうが照応解析のときには役立つのではないか?
でもそもそも照応解析を "NE のレベルで" やるべきかどうかは
なんともわからない。別の解析が必要だと思う。
そもそも NE tagger はある人名がどの名前の省略形かなどということは
なにも考えていないのだから…
ええっと、つまり、どうやって評価すりゃーいいんでしょうかね?
まずタグの種類自体が人手と機械とでは違うので、そいつを
あわせなきゃなんない。いまんとこ機械を人手に合わせるほうがラクそうだな
(どのみち機械は 150種類も使いわけてはいないのだ!)。
しかしそれはいいとしても、そのあとどうする?
そもそも segmantation がくい違ってるところがいやらしいな。
こっちは機械に合わせるか。でもそれだと作業が大変になるなあ
(手動でまとめた NE をまた segment せねばならない、なんか二度手間っぽい)。
まず明らかに、機械の場合でカケているところがあるだろう。
それは degrade しなければならない。でも「やりすぎてる」ところはどうする?
人手のほうが「完璧な答え」と仮定すればそれはないはず…。
ま、そういうことか。
つまり TODO:
- 片方はタグに入っているのに、片方は入ってない、という部分をさがす
(これはすぐできんだろ)。
- それをもとに、人手のほうのタグづけを完璧化。
- 文字単位で precision-recall を評価する。もちろんタグがまちがってるとこは数えない。
ひさしぶりに Owen と朝の「トイレ・洗面所争奪戦」をくり広げる。
そうだ、これがあったんだった。
一年ほど前に 毎日他人の日記なんざ見てる奴はバカだ と
書いたのだが、いまじゃ気づいてみたら毎日のように
ミヤノさん日記 を
チェックしている自分がいたのであった。
いままでほとんど人の書いた日記というものを面白いと思ったためしがないのだが、
このかたの文章は激おもしろいです (日記以外の文章も気に入っていて、
とくに個人的には
ブロントサウルスとお花見
なんかがえもいわれぬ雰囲気)。
去年 11月ごろから読みだしたのだけど、
そのころの自分の日記を見るとあからさまに影響されているのがわかっておもしろい
(ちょうど 11月あたり から文章量がやたらと
増えている)。
つまりこれはミイラ取り ⇒ ミイラ。(これは不可逆変化 (フカグャク))
google://フカグャク/
すんげーー〜〜〜ー寒いです。風びゅーびゅー的駅前。
Journal Sq. でもすごかったが、Manhattan についてからも
あいかわらずすごかった。5av. は南北にさえぎるものが何もないので
ビルの谷間を風がふきぬけていく。つーか、ジーンズが凍りそうです。
新山は基本的に薄着なのだが、風がないときは基本的にかなり寒くても平気なのだが、
風があるとだめ。何分もさらされていると、まあ、比喩的にいって (いわなくても)、死にそうになる。
あまりに寒いので狭い路地の Washington Mews に逃げる。でもあいかわらず風は吹いていた。
その後 University Place にあるデリでスープ (クラムチャウダー) を買ってオフィスに来る。
授業がはじまったので、そこら中にアホ学生 (自分含む)がうろうろしているが、
連中もさむそうだな。とくにすごいのが、ルンペン。おまえらマジで死にますよ?
このごろ毎日 Broadway に白人の女の子が座っているのをみかける。
他の人と同じように彼女も "please help" とか手書きで書かれたしわくちゃの
ダンボールを前に置いている。寒いだろうなあ。
もうあれだけ座っていると感覚が麻痺してるかもしれない。その努力は買うよ。
だけど一体こいつらはオレにどうしろというんだろう。新山はホームレス救済の
慈善団体に寄付することはあるが (Union Sq. にでも行けばそこいらじゅうで募金を募っている)、
そのへんにいるホームレス個人に寄付したことはまだ一度もない。
しかしこの理由を説明するのはむずかしい。かれらは毎日同じところにいるし、
もし今日金をあげて明日あげなかったとするとそれはそれは…
ああ、やめよう。自分が偽善者だというのはもうずっと前からわかりきっていることだ。
能力主義で考えれば、個人的な能力に応じて金を受けとってなにが悪いのか?
ということになる。彼らの「哀れさのアピール度」に応じて金を払う奴がいたっていいじゃないか?
べつにオレだってそんなに確固としたポリシーをもっているわけじゃないが、
でも言い切るのには度胸がいる。わからん。むしろ…いやしかしそれでは… (以下略)。
そしていま気づいた。「クラムチャウダー」はクラムが入っているからクラムチャウダーだということに。
いま Expo から帰ってきた。やっぱりそんなに面白くなかった。というか、
地下鉄 34st. で降りてから会場まで 500m ぐらい歩くのに文字通り凍りつきそうになり、
来たことを激しく後悔。いざ会場についてみても、ブースの
半分以上はサーバ屋とかストレージ屋とか、そんなんばっかり。
唯一 ".org ブース" だけはそこそこアヤシイ雰囲気でおもしろかった。
日本 Linux 協会 (JLA) はことしも来ていて、
某T氏をみかける。
今年も来てたんですか? 本人いわく「引きつぎですよ」とのことだが、
何もやっているようには見えなかった。
これで税金から旅費が出てんだからいいよなー、いい身分だよなー。
このひとはいちおう (自然言語処理をやってる学生という意味で) 新山の同業者ということになるのだが、
本人ぜんぜん研究しているようには見えない (実際してないらしい)。
JLA のブースはほかとくらべてもおかしな機材がたむろしていて
みるからにアヤしさ抜群、彼らが展示していたのは、
まず Linux ベースのリアルタイム画像イフェクタで、
これはまあ、へー、って感じなのだが、すごかったのが
「プレステの rgb 出力を画像認識させてゲームを自動プレイさせる」というシステム。
ものすげえアホ (←誉めてるつもり)。何の役にも立たん! (←誉めてるつもり) えらい!
そこを訪れたあめりか人は「JLA って Justice League America の略じゃないの?」
とかいっててウケマシタ。しかし思うのだけど、
こういうオタク的ヘンテコ展示をよろこぶアメリカ人は結構いっぱいいると思うので、
もっと積極的に宣伝すればよいのになあ。もったいない。
…で、T氏とは何を話してたかというと「いまドストエフスキー読んでんですよ」
「訳者は江川卓だっけ?」とかいう ここまで来てする話題かというような話。
しょーもないなー、ホントに。あんたここに一体何しに来てんだよ? と言いたい
(おまえもな新山)。しかしよかったのは、別のところで
生で動いている PyDDR を見れたことである!
このブースはいちばん人だかりができていた。すごい! でもあんまり画面は派手じゃないんだ…。
あとは企業のブースはぜんぜんダメだな。
興味をもったのはフォント屋の Bitstream くらいか。
5時から授業があるので 4時前には大学に帰ってくる。
結局、むこうには 2時間ちかくいた。
授業おわる。新山は寒くてずっとションベンしたかったのです。
いやー、ぶるぶるぶるぶる。今日はマジサミーっすよ。ほんとに。
たぶん今まで NY で経験した中でいちばんの寒さだと思う
(去年はあったかかったからね)。おもてはすでに氷点下 10℃くらいあるし。
とにかくこの風が…。風に当たるとマジで痛いので、風の吹いているところでは
走ってしまうという状態。
5av. なんか、横切るだけで死にそうになったですよ。ほんとに。
てゆうかもうやめてくれと。オレが悪かったと。ほんとに。ほんと。いやーー。
よくゲームなんかで「炎の呪文」とか「吹雪(氷)の呪文」ってのがあるけど、今まで
「火でダメージ受けるのはわかるけど、なんでサムいだけでそんなにダメージ受けんのよ?」
と疑問に思っておりました。しかし、今日わかった。
こりゃダメージ受けるわ。だって痛いもん。
この Windows Manager は
sawfish です。absolute-e というテーマをコピーして色だけ変えました
(ちなみに名前は absolute-g で、g は「ごっつぁんの g」を表す)。
以下のようにしてつくります。
$ cd ~/.sawfish
$ mkdir themes
$ cp -a /usr/share/sawfish/1.0.1/themes/absolute-e ./themes/absolute-g
(以下、absolute-g 以下の *.png を Gimp で色つけ)
現在、外気温 -11℃ (体感温度は -21℃)。いま Owen が外から帰ってきた。
「これこそニューヨークの冬だ!!」とかいってる。
お前元気だな。。。
研究にっし
ほとんどやってません。やれよ手前。
きょうも目が覚めた (そりゃ、冷めるわな)。
起きたあとはいつも非常に気分が不安定で、
ああもうこのまま目が覚めなきゃよかったのになんでまた
オレは起きちまったんだろう、と思うことがよくある。
口を閉じろ口を閉じろ!
、むしろ、コッチラのほうが、雰囲気であるという、ことに、
誰かが何物かが気ずくかも、しれません、。
それはありでしょうか? それはありですか??
「あろうことか」という言葉がとりもなおさず敗北向けに作られていることに
あなたは留意せよ。あろうことか! この「ろ」の部分がとにかく敗北っぽい。
つうかもう「ろ」を含む単語はぜんぶ敗北決定。
高い所に登るのは好きだが (バカだから!)、
高い所に登ったまま降りてこない人 (つまり永続的バカ, persistent baka) は嫌いだ。
思うに、もともとは高いところなど存在しなかったのだから
その信念自体がアホげていると言うべきだ。
そういやー明日から
Linux World Expo
だっけ。いちおう 11月中に申し込んだからフリーパスは手に入るのだが、
今年はなんかおもしろいんだろうか? (ちなみに、去年はつまんなかったです。)
また日本から誰か来んのかな?
てゆうかこれ、もろビジネス向けって感じだからなあ。
面白いものを見るんなら そのへんの LUG に
行ったほうがいいのかもしんない。
なんか低不調。。。
Computer Center でうろうろしてたら新刊の“blogハウツー本”を 2冊みつける。
どちらも特定の blog 用ソフトウエアをつかって「いかに初心者が blog をはじめるか」が
書かれている。それによれば、もしあなたが「ずっと自分のサイトを持ちたいと思っていて、
でもまだ持っていないか、あるいはすでに自分のサイトを持っているけれども
あまりに更新に時間がとられるので嫌気がさしている」ならば、
blog は "top solution" なんだそうな。ふ-n。
でも、そもそも web ものグサラー (ものぐさな web サイターのこと、いま考えた造語) の
新山は web の更新なんてまったく時間がかかりません。ただ打つだけだし。
それにこういうのは時間がかかってはだめなのだ。なにしろ思いつきがかんじんなので
(とどこかのドキュソ芸術家のようなことを思っている)
インスピレーシォンが湧いたときにはすぐ書きだしておかないと
みるみるうちに溶け落ちてしまう。いずれにせよ blog の歴史とか、
思想とか、文化 (かっこわらい) にまつわるうんちくを語っている本よりはこういう
実際的な how to 本のほうがまだましな気がする。まあどっちも必要ないけどね、
オレにはケロッグがあれば十分だ!。しかしあれのコーンフレークは日本では高い。ような気がする。
おでん食いたい。。。
それが不可能ならせめて大声でおいおいと男泣き。
あまり進まなかったけどもう帰ろう。
なんか今日は落ちこんでる。
こんなふうに日によって気分が大幅に上下するようではまずい。
なんか書いてみる。hogehoge
…という様子を録画してみる。
研究日誌
ミーティングでとりあえず先週の成果をほおこく。
もうちょいきちんとした数字をまとめてレポートにしたほうがいいと言われる。
これは他人のためではなく、自分のため。
新山は自分が何をやったかあとで忘れることが多いため (ダメだな〜本当に)、
後世の自分(?) を説得する資料がいるのである。
まちがえやすい単語シリーヅその2:
家を出てから、ああ きょうは休日だった のね、
ということに気づく。
ああ〜どんどん binder クリプーがへってくよう〜 -
きょうはそれほど寒くもなく、むしろ今までとくらべるとあったかいのだが、
あすからの気温を見ると鬱だわさ。
ネムくなったので (時間測定のため) F1 キーを押して昼寝する。起きたら 15分たっていた。
夢の中の新山はおそろしいプロジェクトに手を出していた。
いくら落ちこんでるからってあんなことに手を出しちゃあーいかんだろう。
ある意味、自爆テロ。
「自分は8月3日に死ぬ」ということを誰かが (夢の中で) しきりに言っていたような
気がするけど 8月3日ってなんかあったっけ? さっぱりわからん
なんとなく頭がさえないので論文をポケットにねじこみ
喫茶店をさがして旅に出る。Soho までいくと遠いし高いので
Bleecker St. とか、そのへんで。
とちゅう Mercer St. を南下していたら痛い風がビュゴゴゴーーーーと
吹いてきて (しかも歩くとよろけるほどの強風で)、凍死しそうになった。
おッ! 今日は一発変換。
エスプレッソ。
うわあああ!
ほェにッくス がこんなに
ヨかったとは!!
というか Mozilla はいらなくなってしまうのではないか?
Owen が台湾での結納を終えて帰ってきた。おつかれさん。
どうした婚約指輪がついてないじゃないか! と思ったら、
向こうではつねに指輪をつけているという習慣はないらしい。
かれは向こうでの結納式の写真がわんさか入った CD-ROM を持ってきたので、
あれこれと見る。へえこれが中国式の結納というものか。
似たようなのはチャイナタウンでも一度見たことはあるんだけど、
やっぱりバクチク! なんだな! メデタイのは爆竹! もうこれ決定!!
(なーにをオレは興奮しているのだろう?)
つ、ーか、写真にうつっていた Owen はあきらかに緊張している。
なんかスーツを着て髪をビシっとキメていると台湾マフィアみたいに見える。
これであとサングラスかければ完璧だよ? などとは言わないが…。
しかしうらやましいなあ、聞いたか? かれはまっとうな人間なのだ。
それにひきかえオマエはなんだ、おい新山?
30近くにもなってまだ学生ってなにそれ? あたま大丈夫?
とひとしきり自虐ってみる。しかしコストはすでに支払われてしまったので。。。
あとは元をとるしかないんだよね。。。
そしてオレの短い自堕落な一人暮らしは終わったのであった
(でもこれは「一人暮らし」が終わっただけであって、
自堕落はまだぜんぜん終了していないことに注意)。
どうでもいいが SOHO じゃなくて Soho だわな。
しかしソーホーという地名はいったい世の中に何箇所あるのだらう。
知らんもんね。
石はなんで黙ってるのか。
研究日誌
そもそももの評価基準を思い出すこと。
「意味」の判断を勝手にしない。
それはアプリケーション依存だ。
あくまで当面は IE (注: InternetExplorerではありません) の精度向上に使うのだ。
これに関しては、いろいろありそう。
さて、曖昧なやつを結果から除去するようにしたら、出力が大幅に減った。なんと
- 手動 : 出力 10組、正解 5、あやしい 3、不正解 2 (prec. = 50%)
- 機械 : 出力 5組、正解 3、あやしい 1、不正解 1 (prec. = 60%)
こんだけになっちまった。これはちょっと…少ないでしょう。
機械では 4記事から 1つの割合でしか出てないじゃん。
200記事使っても 50組か。しかもそのうち正解は 6割ときた。
これではダメだねー。どうしよう?
- 曖昧性の基準を緩くする (同一の entity が含まれていなければ原理上はオッケーだ)
- その他
もしかしてバグを入れたのだろうか?
と思ってよく見たら…うげげ、やっぱりバグってんじゃん!
しかも、つまんないところで。python のインデントは好きなのだが、
ときどきつまらないミスをする原因になる。ということで再実験:
- 手動 : 出力 16組、正解 10、あやしい 2、不正解 3 (prec. = 63%)
- 機械 : 出力 5組、正解 3、あやしい 1、不正解 1 (prec. = 60%)
機械のほうは変わっていないが、手動のほうの prec. はこんなもんだろう。
これは NE matching 曖昧性の除去でそのぶんの不正解が減ったということだろうか?
いずれにせよ coref. の解決は prec. を上げるわけではないらしい。
あと、構文的に正しければどうなるかという評価をまだやっていない。
そうそう。tree editor は作っておいたほうがいいのでわ
ありませんか? GUIにするのはめんどくさいので、emacs のマクロでいいかな。
既存の XML Editor を流用できるとラクかもしれないんだけど、
Xeena はなんか
けしからぬことにダウンロードできないし (エラーがでて先へ進めない)、
Amaya はなんか面倒くさそう。。。
マウスでやるのはどのみち効率が悪いしなあ。
ちなみに Penn Treebank の作成は emacs マクロでやったそうだ。
じっさい、素人相手に使わせるインターフェイスであっても
キーボードのほうがいちど覚えてしまえばはるかに効率がいい。
そういうもんだ。
ああ、python で書くべきだったか。
「バス、ガス爆発」という早口言葉を、いつのまにか忘れていて
「ガスバスバクハツ」「ガスバスバクハツ」と練習していたら、
あれー…なんかちがうなー…と思った。
そんなもん練習するやつはバカ! 俺だけど!
また呪われた検索フレーズを発見した。
google://もうここにはきません/
である。web 掲示板上の喧嘩ばかりひっかかる。
しかしこの事実じたいは面白いが、他人の喧嘩を見てもおもしろくないのであった。
あと
google://閉鎖しました/
とかね。
いつも思うのだけどなんでみんな「閉鎖」というかたい言葉をつかいたがるのだろう。
硬い気分であるということか、いやそれとも
もう言葉なんて考えるのが面倒くさくてどうでもいいのか。
「すこし控えることにします」とか
「お前もはやく真人間になれよ」とか、いろいろあると思うのだが。
(1/21 追記)
そもそも「終わり」を中途半端にやってしまうのはよくないと思う。
終わりはいつもよく考えて練らなければならない。
むしろ終わるために、はじまっているのだ、と。(何が??)
Owen が帰ってくる前に部屋の掃除をしておくかってことで、今日は発作的に掃除する。
だからそのあいだ tabesugi.net はしばらく止まってた。
でもこないだ買った安物な掃除器はダメダメだ。
安物買いのゼニ失いとはこういうことをいうのだろう。
しかし欲しいのは高物でもいいから「小さい掃除器」なんだよ。
なんでこの国にあるものはなんでもかんでもデッカイいの??
そういえばまえにある韓国人系アメリカ人と話していてびっくりしたことがある。
彼女は韓国を旅行したことがあるのだが、そのときの感想をこう言っていた。
「でもわたしはあの国では暮らせないと思う…だって日常生活で使うもの何もかもが小さいし…」
彼女はかなり小柄なのだが、それをきいてオレは、へえーこんな小柄なヒトでも
この国の「デカい物品」に慣れるとそっちのほうがいいのだな、と思ったものだ。
さて…
「これからがんばればいいや」と思っているうちは、まだ逃避は終わっていない。
すみません、大笑いしました。
サムライPG
こんなのばっかり見てちゃいかんだろ。
RedHat 8.0 を (ようやく) 入れてみたのである。
なぜかというと /etc/X11/fs/config のフォントパスの確認をしたかったからである。
使えるプラットホームはなるべく試す。でもいまいちばん欲しいのは「まこすえっくす」だ。
いくら Jobs が彩色主義でハゲようとも中年太りしようとも、性格悪くてヤキが回っていようとも、
新山は根はマカーである。中学生のころからずっと (SE/30 はまだ実家にある)。もんくあkka.
時間について
運や実力の問題ではない。それ
は、あなたもすでにわかっているように、なにもないところから
引き起こされる。なぜを問うのはやめることだ。言葉はつねに
言外の意味をもつ。それにつきまとっている場合、
逃げ遅れはたいてい無意味になる・・・
「どういうことだ?」
とあなたはいうだろうが、それに切手を貼ってはいけない。
電話機が凍りついている。後悔しているらしいが、すでに草は生えてしまった。のだから。
「降臨」は神にしか使わないが、「光臨」は人につかうらしい。
知らなかった。
オレの「首の皮」はあと何枚、残っているのだろうか?
祈るのは自分のことについてなどではない、他人のことだ。
自分の将来について心配することなどいまはひとつもない。
なぜなら、…まあいいや。けれども、人のこととなるとそうはいかない。
期待にこたえようとするあまり、かえってストレスがたまるというのは
よくあることだ。そう思う。でもそれが自意識過剰ということなのだ。
じゃあだれかが「おまえは努力なんかしなくていいんだ、
どうせ誰もお前などには期待していないのだから」といってくれれば
問題はそれですむのだろうか? …今日はあまり“生産的”な日では
なかったな、と反省する。だが考えてもみよ (なにこの口調?)。
人が、あるときに…いや、その解釈は傲慢にすぎる。
ああどんどん記憶が後退していくじゃないか。
記憶は交代すべきであって、オマエはどっちを向いているんだ?
と自我持参。これが壁に描いたモチのように見えるならば
今日の存在には意味がなかった。
“意味”ってなんだ?
過去は美しくないと自分に言いきかせろ。
いつでも自己陶酔から抜けだすために必要以上に自分をいためつけろ。
そして願わくば願わくばこの文章が誰からも共感されませんように。
同情を求めているのだということがバレたら、このうえないプライドからして屈辱の。非文。
google://人門/
チャイナタウンの店に「歓迎光臨」と書いてあるのをみるといつもニヤっとしてしまうんですけど。
光臨って、ふつう日本語では「神だ! 神光臨!!」とかいうときにしか使わないでしょ?
何かについて。誰かについて。そりゃいつでも何かについてだろうし、誰かについてだろうさ!
いつでも! いつか! いつまでも!
ついに tabesugi.net 宛にも spam がきた。あのメールアドレスの書き方ではひっかかるらしい。
おー寒い。きょうも真冬日だな。
きょうは 5av. の BN に行こうと思っていたにもかかわらず、9st. で反射的に降りてしまう。
14st. まで乗っているべきだった。まあ歩ける距離なのだけど、なにしろ寒いから。
ここは専門書の充実度ではニューヨーク随一だと思う。計算機科学関連の書籍も充実しており、
Aho & Ullman や Cormen, Leiserson & Rivest、Russel & Norvig などが
平積みになっているのを見てびっくりする人は多いだろう (でも値段は普通)。
Stevens なども当然ほとんどそろっている (新山はじつは一冊も持っていないが)。
というか、神保町とかいってもこれだけの規模のものって見ない。
そこでしばらくうろうろするが、けっきょく統計学のいい本はみつからなかった
(数がありすぎる)。なんらかの recommendation がほしい。
つーか工学部出身で統計を知らぬとは、どういうことよ!?
ふつう習うだろ? それともオレが学部時代にサボっていたのだろうか。
まあいいや…。
眠いっすよ。
責める相手がいなければ、自分を責めるんですね。
誉める相手がいなければ、自分を誉めるんですよ。
けさ、布団の中で思いついた「文章中の名詞句をぜんぶ Google 化する」というプログラムをつくってみた。
連想記憶的な web ページができないかと思ったが、たいして面白くないな…。
おー寒い。きょうも真冬日だな。
きょうは5av.のBNに行こうと思っていたにもかかわらず、9st.で反射的に降りてしまう。
14st.まで乗っているべきだった。まあ歩ける距離なのだけど、なにしろ寒いから。
ここは専門書の充実度ではニューヨーク随一だと思う。計算機科学関連の書籍も充実しており、
Aho&UllmanやCormen,Leiserson&Rivest、Russel&Norvigなどが
平積みになっているのを見てびっくりする人は多いだろう(でも値段は普通)。
Stevensなども当然ほとんどそろっている(新山はじつは一冊も持っていないが)。
というか、神保町とかいってもこれだけの規模のものって見ない。
そこでしばらくうろうろするが、けっきょく統計学のいい本はみつからなかった
(数がありすぎる)。なんらかのrecommendationがほしい。
つーか工学部出身で統計を知らぬとは、どういうことよ!?
ふつう習うだろ?それともオレが学部時代にサボっていたのだろうか。
まあいいや…。
|
…しかしいちおう Googlia という名前で公開してみる のであった。
研究日誌
オフィスに行ったらセキネさんが某学会にだす論文が置いてあった。ほうほう。
なんか web とかもちゃんと作ってあるじゃないですか。yarune-.
実験結果の評価が終わる。それによると
- 手動でやった場合: 出力 40組、正解 17、あやしい 17、不正解 6。 prec. = 43%
- 機械でやった場合: 出力 20組、正解 11、あやしい 4、不正解 5。 prec. = 55%
おどろくことに機械のほうが精度がいい。
出力数は減っているけど正解率のほうが重要である。
これはどういうことによるものか? おそらく手で coref. をやると entity が
たくさんあてはまりすぎてしまうためか、と思ったが、記事中に登場する entity の
数とクラスタをかぞえてみるとどちらもそんなに差はないようだ:
- 手動 coref: occurence=3084, cluster=1382, O/C ratio=2.23155
- 機械 coref: occurence=4091, cluster=1903, O/C ratio=2.14976
まあ、ちょっとは差はあるけど…。
で、この差が (手動の場合) naive な部分木マッチングを増やしてしまったということだろうか?
しかしこの結論を出すにはもうちょい詳しく調べてみる必要がある。
問題は、なぜまちがったのか、だ。どうも不正解になったものをみると、
knp の解析間違いがけっこう多そうなのだ。すると、疑問は
- 木が間違っていたために不正解になった例はどれくらいあるのか。
- もし正しい木があれば正解になっていた例はどれくらいあるのか。
いちばん重要なことは「木および coref、NE tagging が正しくてもやはり不正解になった例」
がどういうものかを調べることだ。ここに本物の問題がある。
それをきちんと address できりゃあ Ph.D ぐらいの価値はあるだろうよ…。
あと、今回は sentence-matching がだいぶきいているみたいだ。
とりあえずざっと見た中で、文レベルでくい違っている表現はまったくなかった
(ただし各記事の最初にある見出し文だけは間違っていたことが多かったが、
これはもともと文法的な文ではないから、次回の実験ではこの最初の1行は
はずそう)。しかし、2つの文意に包含関係は存在することがある。
こういう場合にどうやって「片方がもう片方の一部である」ことを判定できるか?
とくに coref が解決されたあとだと同一の entity が2度出てくることがある。
どっちがどっちだと判定できるのか? 単一の文の中で、さらに「文脈」のような
ものを考える必要があるだろうか?
TODO:
- 人手による版のほうをもうちょい詳しく検査。おもに木の関係。
- まったく同じ表現はカウントしないこと。(done)
- 最初の見出し文は抜かすこと。
現在の entity マッチングが naive すぎるというのも問題だ。
たとえば
- 「〜容疑者を指名手配した」
- 「〜容疑者の逮捕状を取り、指名手配した」
この 2つの文はあいだに余計な一般名詞「逮捕状」がふくまれているために
一致しない。こういうのは全部マッチしなくても、ある程度は
ディスカウントするようにしたい。
しかしこれはそもそも一般名詞ぜんぶを entity としてしまうことが
間違っているのかもしれない…。うん、そのへんは名詞のユニークさとか、
そういうものを測定する必要があるかもしんないぞ。
これは coreference のほうにも役立つだろうし。
いま間違ってた理由を分析してみたら、
木の間違いがかなり多い。
しかしこれは木を直したらちゃんとうまくいくかどうか実験の必要あり。
あと、1文に同一の entity が 2回以上出てくるために起こったミスが
そのつぎ。あとはもともと言ってることがちがうとか。
文意が包含されていることによる間違いはそんなになかった。
あと並列構造で 2つの部分木が等価になってしまうケース。
これは…どうすんだろうなあ。NE matching の曖昧性もそうだけど、
これはなにか新しい尺度を導入しないと解決できそうにないぞ。
単純に「曖昧な結果はぜんぶ捨てちゃう」という方針もあるわけだが。
つまり結果として 1文からは 1つのパターンしか出てきちゃいけない、という考え方ね。
それもなかなかいいかもな。しかし、recall が…。
固形物をくれ。。。
発作 (= 料理つくりたい病) がおきたためいきなり真夜中に野菜を切りはじめる。
まともな社会人になるためにはまずこの手の挙動をどうにかせねばなるまい。
まじめで、
正直で、
日記なんか書かず、
タマネギを見ても涙を流さず、
妄想はつねに論理的に説明でき、
葬式にはちゃんと数珠をもって出席し、
ボーリングの球を見ても爆弾とは思わず、
辻仁成の小説をボロクソにけなしたりなぞはせず、
森永と明治のチョコの味の差異を気にしない、
そんな寛大な人間に。
…てゆうかあれって小説?
あれ読むんだったら「ものみの塔」のパンフを読むよ、オレなら。
雪がドサドサ降ってるー
夢。いくらリアルな夢をみるからといって、
さすがにこっちが本当の現実なのだとまでは言えないが、
夢は現実に対する「分岐」として機能しているように思う。
つまり現実ではとりかえしのつかないさまざまなこと (ハゲるとか自殺するとか) が
夢では起こり、目をさますとそれらの結果は "Undo" されていて
なにもかもが元に戻っている、という状態ね。
もちろん現実でもハゲるかもしれないし、
自殺もするかもしれないんだけど…
新山の夢では「これは夢だ! 夢にちがいない!」という状況がもろに起こっていることになる。
ただ不思議と夢の中ではそういう思いつきはしないんだなあ。
一度やってみたいのが、サーバを相手に酒を呑むというやつだ。
サーバ室にサケを持ち込み、地ベタに置いて、
サーバの電磁波をもろに浴びながら「お前もむかしはよく落ちたよなあ」
などと一人語りするのである。差しでね。
google://えげつある/ (1件)
すげーー遅刻。何様だおまえは!
昼ごろマンハッタンに来て大学に行こうとブロードウェイを歩いてたら、
向こうからトランクをゴロゴロしたへれん御一行様に御遭遇。帰ってきたらしい。
「メシ食い行かない?」「行く」ということで今来たのと逆方向に
引き戻される。9st. にある Evergreen という中国料理屋。
しかし彼らの会話についていくのはやっぱ疲れますね…。
英語で話してたのが途中から中国語になったりするし。
なんか食べる前より腹へったような気がするぞ。
またこれから英語と中国語がまじった日々がはじまるのか。
お茶、お茶。
ということで今日の占いクッキー:
A person is never too old to learn.
Lucky Numbers 2, 8, 32, 33, 39, 40
|
ああそうだ、ところで写真を受けとりましたのですが…
なんつーかこれが妙に恥ずかしい代物で…
しかしあいかわらずオレってデッパだなあ。
横向き写真をとってはいかんということだな。イヤミかお前は!
世間には多くの「有名になりたい人々」がいるが、彼らの感覚って理解できないと思う。
有名になると何がそんなに楽しいのだろうか。正直いってろくなことがないにちがいない。
やることなすことすべてが強烈な色眼鏡を通して見られるだろうし、
なにをやっても人の目にぶつかる。はっきりいってみずからの自由を進んで
放棄しようとしているようにしか見えない。それともこれは素人考えなのだろうか。
もちろん有名になることで得られる自由というのはあるだろうが、それでも
総体的な“自由”は圧倒的に減少するように見える。「好きなようにやる」権利を
捨てるのに見合うだけの利益があるのだろうが、わからん。錯覚だよ。
「金が欲しくてやった。」が「MINERAL1 が欲しくてやった」に変換されたのには笑えた!
キンじゃねーって!
しまった、返品しにいくの忘れた。
TODO: 返品。
帰りに食料品屋へ寄ったら例のアナハイムの彼 (いまだに名前覚えねー) が
St. Marks から出てくるところにひょっこり出くわした。
おーこんなところで。なんか、今日は同級生によくあうな。
「へい、成績どうだった?」「なんとかパスしたよ」などと話す。
前にも書いたような気がするが、こういうところで何気なく友達に会えるってのは
この大学の楽しいところのひとつだ。まあキャンパスで会うようなもんなのだが。
まさにうちの場合は街がキャンパスということで。
どこかで聞いたような台詞である。
ちなみにここは社会科学系や SFのペーパーバックなどが充実している「その筋な本屋」で、
某ヤマガタさんも前に会ったときは「そんじゃあ St.Marks よってきますんでー」
といってここで別れたっけ。そのときは、へーやっぱこのヒトはちゃんと
こういうところでネタを仕入れてるんだ、すげえなあ、と思ったですよ。はい。
アイデアを思いつくのは簡単である、電波な人間にとっては。
放っといてもポンポン出てくる。けれども重要 (でかつむずかしい) のは
「アイデアを切り捨てる」ということなのだ。
「創造的な人間」などという人を小馬鹿にした形容ががまんのならないあなたへ。
ふふふふふふふふっふうfふふふふu
口を開いて寝ると邪悪なものが入ってきて腐りけける。
かといって口を閉じて寝ると窒息して寝てしまう。
それまたこまったモンテスマ [← 注目]。
ふと「針の山」と「針のむしろ」の混合物として
「むしろの山」
ってどうだろうと思いつく。もう誰かがやっていた。くそ。
くやしいので、なにげなく
「俺の心の叫び」
というキーワードで検索してみる。
ふーむ。そうかそうか。
新山はいつもこうしてアヤしいページを発見しています。
研究日誌
ふと思ったのだが、NE の分布が一般名詞とは違うということはありそうだ。
複数のドキュメントがあった場合、もしふたつのドキュメントが同一の
名詞句 (一般名詞) をふくんでいたら、それを definite な名詞句
(つまり実質的には NE) とみなせるのはどんなときだろうか。
それは照応解決や NE の recall 向上には使えないもんだろうか。
getpp-from-pairs.py のバグ修正。
これで sentence-matching をとり入れた評価をやれる。
いまちょっと見たところだと、どうやら機械でやった方は一致する文が少ないらしい。
つまり recall は下がことになる。まあこれは coref 解決をきちんとやってないから
とうぜん予想できたこと。ほかには?
これから結果を印刷して、評価しなきゃね。
週末の課題。
5.3節で時間がかかっている。χ二乗検定がわからない。
やっぱり統計はまともに勉強しないと、この本だけじゃだめだろう…。
それから Baldwin (Tim さんじゃないよ) の論文ね。
TODO:
- 評価。(週末)
- 論文よむ。(週末)
- 統計のいい本さがす。(週末)
- 並列構造における体言の抜き出し
(とりあえず手動評価のときはいらないけれど)。
- 正解データベースの考案。
Yusuke Shinyama