人間、ウソをついているときが一番感動的だ。
うんねこね〜ん
ウ | ソ |
これ | だ! |
目を動かしましょう (サッケード演習第一):
←
→
←
→
…
↓
うげーーー火災警報
今日やるつもりだったのにできなかったこと: merge. まあ、明日やりゃいいや。
意識のなくなった人間と
無意識に過ごしてる機械、
オレたちゃ仲良くなれそうだ!
なんとなくね。
インスタンスに lifetime があるように、クラスにも lifetime がある。
個体に寿命があるように、種族にも寿命がある。
以下略
10:29: ralph の照応解析器はなぜこんなにミスが多いんだろう? オレの使い方が悪いんだろうか? それと構文解析の影響もなんとかして測定せにゃならん。正解データがすでにある場合なら oracle を使えるが、そうでない場合はどうする。ランダムにアホな構文解析結果をまぜようか? 毎度のことながら、下の層がアホっているとほんとに苦労する。 新山の問題意識はアホな下層のシステムを見つづけることで成長してきた部分がかなりあると思う (これは負の教材だが、自然言語処理以外の分野ならまともな教材もあるので)。 この数年間というもの、ロクでもない結果を返す (しかもその動きがよくわからない、コードも腐っている) プログラムに依存するというのがどれほど精神衛生上よくないかを身にしみてわかった。
11:28: げっ、もうこんな時間。いままで NE の文脈をみるのにうつつをぬかしていた。
apf を sgml にして、各 ne が現れる周囲の単語の頻度をみてみる。なんで ORG のまわりに
こんなにカッコが多いんだ? と思ったら "(XINHUA)
" などの新聞社名がすべて
ORG になっている、ということが判明。それにしても偏りすぎていたが、
オレが使ってたのはたかだか 300文書で、データが少なすぎたらしい。
つまらんことに時間をついやしちまった。飽きたのでようやく本題にもどり、
これから原因の追求に入る。
12:21: …原因判明。オレの使い方がまずかった。しかも、大いにまずかった。
ひとつは、なんで North Korea
が "North
" だけになっちゃうかっていうと、
これはオレの側の前処理がまずくて "North Korea.
" という文字列を渡していたから。
ピリオドが入ると別物になってしまうという脆弱さ加減。でも、これは、まだいい。
もっと問題なのは nested tags だる。入れ子になってるときは内側の mention しか
使わないほうがいいんだなあ。はっきりいって、外側はひどい間違いだらけ。
これは深く考えずに後処理を書いてしまったオレがわるい。それに、entity merging も
もっと真面目にやったほうがいいな。結局 (ケッキョキ)、こういう本質とはまったく関係ない問題で
少しずつオレの精度が削りとられていく (そして卒業できない) っていうのが非常にムカつく…。
あとは「NE じゃないけど名前です」っていうタイプを新しく導入して、
種類がわかっているやつも backoff したパタワンを作成するのがいいと思う。
ポイントは discriminating patterns をなるべく多く取ることなんで、
決定はなるべくあとまで延期させるほうがいいわけ。
とあるのを、endpos = len(self.words) self.ranges.append( (startpos, endpos) )
のようにしないこと。 ここでは値self.ranges.append((startpos, len(self.words)))
len(self.words)
の用途を示すために
わざと変数 endpos
に代入しているのであるよ!
これが自然言語を使わずに意味を記すの法。
ついでにいうと新山は
のときは空白を入れないが、
a.append(x)
のときはわざとタプルの前後に空白を入れるようにしている。
(実際には
a.append( (x,y) )
(x,y)
のようにあまりに短いときはすぐわかるから入れないんだけどね)。
なぜならこのほうが読みやすいから。似たよなことで、
ジェネレータ式にはカッコ内の最初と最後に空白を入れる。
s = sorted(( f(n) for n in seq ), reverse=True)
あーーーっ、やべ、12:00 からの SRG に出るの忘れてた!! ショック誌。今日のは面白そうだからぜひ出ようと思って早く来たのに、 なんてこった!
どうでもいいけど中国人はなぜみんな cache のことを「きゃっちゅ」と呼ぶのだろう??
…このように、研究のコトを書いても、ちっとも面白くない。
明日のヤルコト: 評価用ツールを書く。 merge.
思うに、前近代的な社会においては、何かを「知っている」ことがカッコよかった。 ところが今日の情報化社会においては、「知らない」ことがカッコいい。 そりゃー、山奥に住んでて知らないのはどうってことないけど、 都市部で生活すればするほど情報に汚染されやすいので、 「知らない」ことのカッコよさが高まる。といっても、 すべてに関して無知というわけではない。とりわけ、 「自分の知るべきことだけを知っており、知らなくてもいいことは見事なまでに何も知らない」というのが 一番カッコいい (これはようするに「オタク万歳!」ってことか?)。 少なくともオレはそういう価値観で生活してんで、 いまだに前近代的な価値観の人はキッタなく見えて困りますね。
(○○に○○○○ことは○○○は■■■■よ。うちの近所では。)
"より多くの検索結果を得るには、検索条件から引用符を削除してください。"
いま現在これをクックリすると、
「検索が32語までに制限されているのでし
とその後の語句は検索には使用されていません。」
と出てくる。あっそ。つまり「し」の前までで 32語なんですね?
「より多くの検索結果を得るには、検索条件から引用符を削除
」 (27文字)
問題は、これをどうやって 32語に分割するのかということである。
分割案1: 「よ り タ タ く の 検 索 糸 吉 果 を 得 る に は 、 検 索 糸 吉 果 か ら 弓 | 用 符 を 肖 リ 除
」 (32語)
…アホらしくなってきたんでもうやめた。 オレはこんなことしてる暇はねえ!
天国耳 【てんごくみみ】 - (1) 自分に対する賞賛の言葉しか聞こえないこと。
ある意味、これは地獄耳よりヤバいよ!
s = ''.join([ str(i) for i in xrange(1000000) ])
s = ''.join( str(i) for i in xrange(1000000) )
というわけで、無線ネットワークへのアプローチというのは 2つに大別できる。
ひとつは、無線ネットワークをなるべく『有線っぽく』扱う方法で、
ようするになるべく信号を分離するアプローチである。こっちのほうが扱いやすいし、
携帯電話なんかがやっている CDMA とか TDMA という分割方式はそういう考え方だ
(追記: TDMA は時分割で混信を避ける。
CDMA はむしろ混信を利用するが、電話と基地局が 1対1で通信するという意味では同じ)。
どのみち携帯電話が「無線」なのは基地局まででそこからは有線の電話回線なんだから、
基地局どうしの混信は心配する必要がない。ところが、
完全に独立した (有線通信をまったく使わない)
無線機だけで数ホップもルーティングしようとすると
おそろしいことになる。実際、そうやってインドの山村にネットを通そうという
プロジェクトがあるのだが (Lakshmi はもともとインド出身だが、これに関わっているらしい)、
まともにネットワークを構築するだけでも大変らしい。
で、無線ネットワークへのもうひとつのアプローチというのが、
せっかくだからこの「放送」の利点をフルに活用してやろうという試み。
で、後者のアプローチをとっているスゲー頭いい論文を読んだ。
XORs In The Air: Practical Wireless Network Coding
というやつ。以下のような無線ネットワーク
A ^ B
の内容を放送)
A ^ B
は A と B の内容の XOR をとったものである。
こうすると、A と B はお互いに自分自身が送ったメッセージは知っているから、
「自分の送ったメッセージ」と「放送されてきたメッセージ」のビット表現の XOR をとれば、
その結果は「相手の送ったメッセージ」になるわけ。…か、かしけぇ!!
なんか暗号プロトコルで似たようなのがあったような気がするけど、
これによってスループットが飛躍的に上がるということだった。
Saltzer の論文では、基本的に情報というものは冗長だから end-to-end なシステムが可能になっていると論じている。 そもそも冗長性のまったくない情報というのは gzip ファイルみたいなもんで、 ほとんどランダムな文字列に見える (cf. Chaitin's_constant、 これは定義上、いかなるアルゴリズムで計算できる複雑さをも超えた複雑さをもつ)。 自然言語に冗長性があるのはよく知られているが、それは具体的にどういったたぐいの冗長性なのか。 おそらく、それには言語の文字列以外のところを見る必要があるだろう。 いくつか種類があるだろうが、計算機にとって扱いやすい冗長な情報というものもあるはずだ。 自分たちがふだん冗長だと思っていないものの中にこそ、じつは冗長性があるのかもしれない。 たとえば、○○○○…
…というようなことを考え始めて、もう 2年になります。 が、まだあと 20年くらいは考えなきゃいけませんね。 気の長いことよ。
(追記) それは「言語の知識」ではなく、「メタ知識」に分類されるものかもしれない。 が、新山は「言語機能」と「そうでない機能」が明確に分離されるという チョム好きー的な理論を信じてないので、どっちでもよろ。
ともあれ、一般に日本では比較広告は好かれないと思う。 日本で Mac を売るんだったらコカコーラが "I feel coke." でやったような イメージ戦略をやったほうがいいのに。といってもオレはそんなの嫌いだが。
しかし実は泣いているのかも知れず、区別がつかない。
と
ギ
終
人
なぜか「人間」という語句が後のつくときは 「〜ぜ人間」 という言いまわしが多いようのだる。
2、3度おいしい朝食。
アナウンサー: いまやほとんどのカルガリー市民の家にはコンピュータがありますが、 市内に住むある自称コンピュータ・ギークは 45台ものコンピュータを所有しています。 この人物はこれらのコンピュータを、いま世界的な注目を集めつつある オペレーティングシステム、OpenBSD の開発に使っているのです。レポーター: この部屋には Theo de Raadt 氏が使っている 45台のコンピュータがすべて 収められていて、そのための空調施設が入っています。
Theo de Raadt: このサーバファームにかかってる電気代は毎月600ドルだよ。 警察が hydroponic farm (水耕農場?) をこの地下室にチェックしにこないのが救いだね。
レポーター: 個人からの寄付によって、Theo 氏は OpenBSD と呼ばれるオペレーティングシステムの開発を 監督しています。これは HotMail などのウェブサイトの頭脳と似ているとのことですが、 多くの人はより安全かつ信頼性があり、もっとも清潔なコードを使っていると言います。
Theo de Raadt: 記録をとってるんだけど、 いまんところ 8年間で 1つのセキュリティーホールしか見つかっていないんだ。
レポーター: これらの人々は 15ヶ国から 1週間のあいだカルガリーに集まり、 OpenBSD システムをアップデートし、バグのないものにしています。 アルバータ大学の Bob Beck氏は OpenBSD を使用しています。
Bob Beck: うちでは OpenBSD を使ってるよ、セキュリティと他にはない機能があるからね。
レポーター: トロントにある聖ミカエル病院で働いている Ken Westerback氏です。
Ken Westerback: うちの病院の DNS サーバに OpenBSD を使っていますが、 他にもいくつかのアプリケーションを考えてます。
レポーター: 開発者によると、このようにグループで集まることによって作業がはかどるのだそうです。
Mickey Shalayeff: ある種のことをやるにはこのほうが楽なんだよ、難しい問題も人が寄れば解決しやすいしね。
レポーター: しばしば「コンピュータ・ギーク」と呼ばれるこれらの人々は、新しい地平を開拓しています。 そのいくつかのアイデアは Microsoft Windows にも使われているということです。
Theo de Raadt: 自分たちがギークだというのは認めるけれど、オタクっぽい (nerdy) とは思っていないね。
レポーター: Theo 氏によれば、安全上の理由から名前を挙げられない企業や、 個人ユーザでもデスクトップで OpenBSD を使っている人がいます。
アナウンサー: 最近では Forbes 誌が今後の問題について Theo 氏にインタビューしています。 このオペレーティングシステムについてより詳しく知りたい方、あるいは実際に使ってみたい方は、 ウェブサイト www.openbsd.org まで。
どうでもいいけど (どうでもよろ)、 このアルバータ大学のおっさんが着ているオレンジ色のTシャツに注目。
へえ、長さが違うスライスへの代入をすると、挿入になるんだ。 じゃあ削除もできるのかな?>>> s = [1, 2, 3] >>> s[0:0] = ['a'] >>> s ['a', 1, 2, 3]
できたのであった。知らんかったゲソ。>>> s[0:2] = [] >>> s [2, 3]
ところで、「…でゲス」という語尾はもともとどこの方言なんだろ? (てくるで。)
おまけ: google://力ーリング/ 読み方はきっと「リキーりんぐ」だ。そうちにがいない。
ちなみにカウント伯爵の正式名称は「Count von Count」らしい。 この Wikipedia のページはおもしろい。いわく 「…カウント伯爵は、数を数えることに対する強迫性障害 (compulsive disorder) の持ち主である。…」 こういう人 (Arithmomania) ってのは、ホントに実在するらしい。一種の偏執狂だな。 同様の病気として Parenthmania とか Indentatiomania とかも実在しそうである。 オレがそうだけど。
どうでもいいが (胴でもよろ)、カウント伯爵はどことなく志村けんに似ている。 …っていうか、そのものに似てるんじゃなくて志村けんの人形に似てるんだな。 きっと、アレをデザインした人はセサミストリートの影響を受けてると思う。
10日ぐらい前に送ったのに、反応が遅すぎると思った。
じごくみみ 【地獄耳】 - (1) 人の秘密などをすばやく聞きつけること。
grep a foo >> foo
) を繰り返し入力すると、最初はすぐ終わってしまうのですが、
ある時点から無限にファイルが伸びるようになります。(Linux でも FreeBSD でも)
$ echo a > foo $ cat foo a $ ls -l foo -rw-r--r-- 1 yusuke proteus 2 Nov 21 16:45 foo $ grep a foo >> foo $ cat foo a a $ ls -l foo -rw-r--r-- 1 yusuke proteus 4 Nov 21 16:45 foo $ grep a foo >> foo $ cat foo a a a a $ ls -l foo -rw-r--r-- 1 yusuke proteus 8 Nov 21 16:45 foo $ grep a foo >> foo (16バイト) $ grep a foo >> foo (32バイト) $ grep a foo >> foo (64バイト) $ grep a foo >> foo (128バイト) $ grep a foo >> foo (256バイト) $ grep a foo >> foo (512バイト) $ grep a foo >> foo (1024バイト) $ grep a foo >> foo (2048バイト) $ grep a foo >> foo (4096バイト) $ grep a foo >> foo (8192バイト - 臨界) $ grep a foo >> foo (無限ルウプ) ^C $ ls -l foo -rw-r--r-- 1 yusuke proteus 2068480 Nov 21 16:46 foo
問題。なぜこのような現象が起きるのでしょうか?
そういや、某ビヅュツ館でヌスまれた絵が発見されたんだってね。 新山は盗まれたことすら知らなかった。が、いっこ 「ご迷惑をおかけしております、まだ届いてません」って絵があったんだけど、 アレがそうだったんだな。
クマだって!!
…このようにして私たちはつねに間違った知識を植えつけるのに努カしています。
どうでもいいが、 Wikiquote日本語版で、 2、3 の記事を英語版から翻訳したら削除されちまった。 なんでも日本ではまだキング牧師やボーアの著作権が切れていないからだそうだ。 Wikipedia とちがって quote は引用が主なので、日本の法律では 著作物の複製にあたる、という理屈らしい。それはまあわかるのだが、アホな話である。 これって Wikiquote 日本語版をほとんど閉鎖するといってるのと同じだよね。 なぜなら「警句を引用する」という文化はほとんど西洋のものだし、面白い文句はたいてい 近代の人物によるものが圧倒的に多い。最初からこのようにキツキツの運用をしていると、 おそらく集まる人も集まらなくなるものと思われるが、もうオレはやる気をなくしたんで どうでもよro。
<meta>
による charset 指定を 1度しか受けつけないのである。
そしてこれは正しいのである。これに対して、新山の書いた HTML parser は
律義に何度もドキュメント中の文字コードを変えることを許していた
(実際にはそんな必要はほとんどないと思っていたが、そうするのがラクだったのである)。
ところが、このサイトとかを見ると、
さいしょの meta では chaset=Shift_JIS
と書いてあるのに、
しばらくして chaset=ISO-8859-1
とかいう meta が挿入されていることがある!
しかも、ときどき。どうやらバナー広告のサーバによって
入ったり入らなかったりするらしい。くそったれ。ところが新山のパーザは
こいつを真に受けてしまうために、そのあとの記事を全部 iso-8859-1 として解釈して
バケバケになっていた。(ひどいことに、この後 meta は一切現れないか、ISO-8859-1 指定が
2度現れたりする、くそったれ。)
つくづく HTML みたいないーかげんな仕様は嫌いだが、
これが XML になったらなったで、もっと微妙な実装依存が出てくるだけなんだろうな。
ああやだやだ。
os.getlogin
が Windows で使えんのじゃあボケ!!
とお怒りのあなたへ。
def getlogin(): import os if hasattr(os, 'getlogin'): return os.getlogin() try: import _winreg key = _winreg.OpenKey(_winreg.HKEY_CURRENT_USER, 'SOFTWARE\\Microsoft\\Windows\\CurrentVersion\\Explorer') (name, _) = _winreg.QueryValueEx(key, 'Logon User Name') key.Close() return name except ImportError: return '???'
Windows、UNIX、まっこすで動くことを確認墨。 OS9 は知らん。OS-9 はもっと知らん。どうでもいい。 しかし Windows ユーザ名は unicodeオブジェクトで返されるので注意のこと。
それにしてもウィソドウズはすげえ。何がすげえって、 使っているうちにストレスがたまって死にたくなる。こんなすごいもんをみんな使っているんだから、 ほんと、尊敬するよ人間。(men の日本語訳)
今日やったこと:
今やっていること:
夢の中でやること:
明日の朝一番にやること:
♪ ああ富士の麓 山中の森かげに
(フェードアウト)
Document ID: f33304ffa0dc2a2b2303e8d290e264c5
Yusuke Shinyama