まずは残念な報告をしなくてはならない。予告した「インターネット形容率」であるが、まだ研究が中途半端なのだ。とりあえずは現在の状況を報告させていただこう。
基本コンセプトは、インターネットにおける名詞と形容詞の結びつきを数値化しようというものである。数値化の根拠として、名高い検索エンジン"google"の検索におけるヒット数を用いる。つまり、この数値は時間に依存した関数なのだ。将来的には時系列データにしたいものである……話がそれた。
最初は「名詞」(例えば"雑文")で検索したときのヒット数に対して「形容詞名詞」(例えば"寒い雑文")で検索したときのヒット数の割合を定義しようと考えていた。仮にこれを「形容率」と呼んでいた。
例えば、「ポンポコリン」(2830)、「おどるポンポコリン」(1300)「踊るポンポコリン」(395)であるから、単語「ポンポコリン」の「おどる」の形容率は46%、「踊る」の形容率は14%である。
この調子で雑文その他の文章と形容詞の組み合わせで調査したのが以下の表である。
雑文 22700 | 小説 704000 | エッセイ 187000 | 駄文 34800 | 随筆 25100 | |
寒い 404000 | 寒い小説 24 | ||||
おもしろい 319000 | おもしろい小説 462 | おもしろいエッセイ 110 | |||
つまらない 121000 | つまらない小説 196 | つまらないエッセイ 21 | つまらない駄文 30 | ||
最強の 131000 | 最強のエッセイ 3 | ||||
最高の 530000 | 最高の小説 88 | ||||
意味のない 32700 | 意味のない小説 18 | 意味のないエッセイ 7 | 意味のない駄文 17 | ||
究極の 152000 | 究極の小説 18 | ||||
笑える 96300 | 笑える雑文 31 | 笑える小説 142 | 笑えるエッセイ 274 | 笑える駄文 7 | |
和む 15100 | 和むエッセイ 15 | ||||
ありがたい 157000 | ありがたい小説 25 | ||||
哀しい
33600 |
哀しい小説 33 |
どの文章も形容しなかった言葉たち。 いかす (14900) ナウい (2700) 白ける (1540) とっておきの (59700) 救いようがない (2650) 至高の (10600) バカみたいな (2940) 大味な (3830) 好感が持てる (12600) 凍り付くような (807) さびしい (35600) 苦しい (134000) いさぎよい (800) 胸のすくような (1010) 赤い (328000)
確かに含蓄のある真理は引き出せた。
「要するに雑文は笑えるものだ」
「世の中にはつまらない雑文などないのだよ」
「随筆は地味である」
「和める文章はエッセイであるが、最強なのもまたエッセイである」
「小説は最高ですか」
が。しかし。これではつまらない。要はサンプルが少なすぎるのだ! これでは「シャア専用文章」が分からないし、形容率がよくて0.1%しか届かない。これは前提が間違っていたと判断するべきであろう。そこで形容率の定義を変えるのだ。
やはり「このエッセイは和む」という文書を拾えないのはまずい。ここはやはり「和む雑文」ではなく、「和む 雑文」で行こうではないか! その成果が下表である。
みたまえ。この充実ぶり。実に魅力的ではないか。それにしても小説の赤さが目だつ。エッセイや雑文ははおもしろいを安直に使用するなあ。バカみたいな随筆ってないんだなあ。駄文の寒さは凄い。10%にせまる勢いである。
横軸で見るのもいい。小説はこんなに好感が持てるものなのか。世の中の好感が持てるものの10%以上を占めている。
というところで現在調査結果に埋もれてしまっいる。指標化はまた次回。アデュー!
スクリプトは単純。検索語リストを読み込んで、それぞれをwgetに渡してperlの//で拾って出力しているだけ。出力フォーマットが不安定。「単語群1」「単語群2」を読み出して上のようなテーブルをはき出すプログラムすら書いてないです(あ、これ書いたほうが絶対楽だったなあ……)
実はスクリプトにバグがあって(検索結果に「約」がつかないことがあるなんて……)いちどデータを差し替えたのですが、短時間で随分結果は変わるんですね……時間によるデータの推移はテスト環境が落ち着いたら。といわけで、テスト時間は3/1 23:00くらいと3/2 0:45〜1:00の間にわかれています。既に上の数字とリンクはだいぶ変です。