検索力調査は1996年1月から開始しました。その当時はまだコンテンツが少なく、検索してもあまり見つからなかったものです。そこで、どれ位のデータが入っているかを調べるために、ロボット型やディレクトリ型の検索サイトを検索しレポートにまとめていました。それが検索力という形になったのは1996年9月です。検索数をベースに海外検索サイトを対象にしたものです。1997年3月末にgooが検索サービスを開始したのを機に、日本語検索サイトの検索力調査を毎週実施し、公開してきました。4年以上続いたことになります。
インターネットによる情報発信が増加するにつれて、ロボット型検索サイトのデータ量は増大し、検索すると読みきれないほどの検索結果が得られるようになりました。検索結果をランキングしてますが、実際は大変難しいことです。各検索サイトのランキングを評価することは、少なくとも2000年までは不可能でした。5月7日に検索の視点に、ロボット型検索がページ検索に加えてサイト検索もできるようになったことを記しました。
これを受けて長年続けてきた検索力調査をバージョンアップすることにしました。以下、その背景、検索力を算出する要素として、検索数、サイト検索、関連サイト検索、そして総合評価方法、今後の検索力調査について述べます。
Web検索の有用性に気づいた人は、無料のWeb検索サービスを1日に何十回と検索しています。現代の情報通はWeb検索通です。そのような人は検索キーを少なくとも3個以上使うAND検索を使います。その場合には、データ量、すなわち検索数が重要になります。したがって検索数調査は今後も継続します。
ロボット型がページだけを処理しているため、サイトのトップページがランキングの上位に表示されず、サイト検索に較べて短所であると長い間指摘されていました。それを補うために、フレッシュアイが1999年4月に「ずばリンク」を開始しています。企業名、自治体名、大学名などの検索であれば、検索結果の先頭に表示するシステムです。gooの「ぴったりgoo」、InfoseekJの「ジャストシーク」、LycosJの「公式サイト」「情報源」、InfoNavigatorの「ダイレクトリンク」など、名前は異なりますが、同種のシステムです。この例外処理は当たり外れが大きく、サイト検索対応の暫定版とみなせます。
2000年8月に日本語検索サービスを始めたFastSearchやGoogleはデータベースの構成自体がサイト検索向きになっており、それを受けてgoo、ODIN、4月にサービスを開始したNexearchなど、ディレクトリ型のサイト検索よりも優れた結果を示すものが登場してきました。
そこで新しい検索力調査は、1)従来の検索数調査、2)あるサイトが検索できるかどうかを調べるサイト検索調査、3)検索の視点#20で行ったキーワードからサイトを見つける関連サイト検索調査、の3項目から求めます。
この調査はサーチエンジンの性能を客観的に得るために始めました。海外検索サービスは96年9月から、日本語検索サービスは97年3月から、毎週日曜日の朝に実施し、そのデータを公表しています。調査は非常に簡単な方法をとっています。各検索サイトに対して15種類のキーワードで検索し、検索結果に表示される検索数をベースにします。
2001年5月13日に調査したものを表1に記します。横に検索サイト(略号)、縦にキーワード、その交点に検索数を示します。キーワードの検索数は、例えばgooの場合、グルメの818,000からvrmlの31,000と大きく変化しますので、15種類の検索数を合計したものを比較しても意味がありません。
表1 検索数調査データ(単位:1,000) 調査日:2001年5月13日
No | 調査キー | go | gg | ks | fs | al | ex | is | lc | od | in | ns | fe |
1 | イントラネット | 77 | 85 | 58 | 34 | 64 | 45 | 59 | 53 | 21 | 26 | 31 | 3 |
2 | 楽器 | 225 | 351 | 361 | 268 | 221 | 185 | 201 | 155 | 88 | 73 | 78 | 11 |
3 | グルメ | 818 | 486 | 240 | 172 | 205 | 207 | 116 | 100 | 88 | 64 | 113 | 44 |
4 | コミック | 178 | 369 | 337 | 128 | 195 | 168 | 151 | 124 | 79 | 59 | 65 | 13 |
5 | ヒント | 207 | 326 | 235 | 35 | 148 | 156 | 144 | 112 | 68 | 66 | 64 | 13 |
6 | 生物 | 381 | 567 | 502 | 460 | 349 | 255 | 239 | 200 | 184 | 137 | 119 | 12 |
7 | 時計 | 416 | 462 | 635 | 451 | 360 | 257 | 283 | 205 | 131 | 96 | 103 | 19 |
8 | 図書館 | 427 | 224 | 470 | 393 | 322 | 329 | 286 | 306 | 180 | 157 | 152 | 19 |
9 | ドメイン | 757 | 397 | 297 | 410 | 216 | 186 | 168 | 139 | 219 | 68 | 103 | 141 |
10 | 博物館 | 334 | 234 | 364 | 326 | 250 | 260 | 222 | 189 | 131 | 118 | 135 | 17 |
11 | 病気 | 388 | 588 | 567 | 462 | 318 | 343 | 339 | 253 | 146 | 146 | 136 | 20 |
12 | 文学 | 686 | 602 | 385 | 408 | 278 | 197 | 153 | 174 | 149 | 81 | 79 | 9 |
13 | マーケット | 485 | 315 | 313 | 199 | 257 | 361 | 275 | 92 | 113 | 96 | 67 | 39 |
14 | 野球 | 553 | 609 | 641 | 555 | 422 | 312 | 318 | 240 | 158 | 111 | 142 | 55 |
15 | vrml | 31 | 22 | 16 | 8 | 23 | 12 | 16 | 20 | 9 | 14 | 9 | 1 |
D | 合計 | 5,962 | 5,637 | 5,421 | 4,310 | 3,628 | 3,274 | 2,971 | 2,361 | 1,764 | 1,313 | 1,063 | 417 |
No | 調査キー | go | gg | ks | fs | al | ex | is | lc | od | in | ns | fe |
そこで、最大の検索数を示すものを100として、その相対的な値を求めます。その結果を表2に示します。表2のイントラネットで説明しますと、表1で最大の検索数はGoogleの85,000ですので、それを100にします。gooは100×77÷85=91、kensaku.orgは100×58÷85=68、などと計算していきます。表2のD:合計は15キーの合計を示します。そして、最大値の1,232を100に調整したものを求めます。E:検索数指数は従来の検索力と同じものです。
表2 検索数指数 調査日:2001年5月13日
No | 調査キーワード | go | gg | ks | fs | al | ex | is | lc | od | in | ns | fe |
1 | イントラネット | 91 | 100 | 68 | 40 | 76 | 53 | 70 | 63 | 24 | 31 | 36 | 4 |
2 | 楽器 | 62 | 97 | 100 | 74 | 61 | 51 | 56 | 43 | 24 | 20 | 22 | 3 |
3 | グルメ | 100 | 59 | 29 | 21 | 25 | 25 | 14 | 12 | 11 | 8 | 14 | 5 |
4 | コミック | 48 | 100 | 91 | 35 | 53 | 46 | 41 | 34 | 21 | 16 | 18 | 4 |
5 | ヒント | 63 | 100 | 72 | 11 | 45 | 48 | 44 | 34 | 21 | 20 | 20 | 4 |
6 | 生物 | 67 | 100 | 89 | 81 | 62 | 45 | 42 | 35 | 32 | 24 | 21 | 2 |
7 | 時計 | 66 | 73 | 100 | 71 | 57 | 40 | 45 | 32 | 21 | 15 | 16 | 3 |
8 | 図書館 | 91 | 48 | 100 | 84 | 69 | 70 | 61 | 65 | 38 | 33 | 32 | 4 |
9 | ドメイン | 100 | 52 | 39 | 54 | 28 | 25 | 22 | 18 | 29 | 9 | 14 | 19 |
10 | 博物館 | 92 | 64 | 100 | 90 | 69 | 72 | 61 | 52 | 36 | 32 | 37 | 5 |
11 | 病気 | 66 | 100 | 96 | 79 | 54 | 58 | 58 | 43 | 25 | 25 | 23 | 3 |
12 | 文学 | 100 | 88 | 56 | 59 | 40 | 29 | 22 | 25 | 22 | 12 | 12 | 1 |
13 | マーケット | 100 | 65 | 65 | 41 | 53 | 74 | 57 | 19 | 23 | 20 | 14 | 8 |
14 | 野球 | 86 | 95 | 100 | 86 | 66 | 49 | 50 | 37 | 25 | 17 | 22 | 9 |
15 | vrml | 100 | 71 | 50 | 26 | 74 | 38 | 52 | 64 | 31 | 45 | 28 | 2 |
D | 合計 | 1,232 | 1,212 | 1,156 | 852 | 832 | 723 | 694 | 577 | 383 | 328 | 328 | 75 |
E | 検索数指数 | 100.0 | 98.4 | 93.8 | 69.1 | 67.5 | 58.6 | 56.3 | 46.8 | 31.1 | 26.6 | 26.6 | 6.1 |
No | 調査キーワード | go | gg | ks | fs | al | ex | is | lc | od | in | ns | fe |
日本と海外とあわせて20検索サイトありますが、更新するのは約15ありますので、毎週15×15=225回の検索を手動で実施しています。最初のころは検索数を紙に筆記していましたが、最近は直接エクセルに入力しています。終了後、エクセルで表2の計算を行ないます。なお、調査用の検索ページを独自に作成し、それを使っています。
資料⇒視点:検索可能性をあらわす検索力について 1996.9.16
サーチエンジンの発展の流れからいえば、このサイト検索は次の関連サイト検索よりも先にクリアすべきものです。検索の視点#20はサイト検索調査を飛ばしてしまいました。#20で用いたのと同じサイト名で検索し、検索結果の順位を求めたのが表3です。表で、Nは4位以上、ぴはぴったりgoo、ダはダイレクトリンク、ずはずばリンク、などを示します。
表3 サイト検索調査の順位表と指数 調査日:2001年5月9日
No | 調査評 価サイ ト名 | go | gg | fs | od | nx | is | ex | al | lc | in | fe |
1 | Yahoo! ショッ ピング | 1 | 1 | 1 | N | N | 1 | N | 1 | N | N | N |
2 | 首相 官邸 | ぴ | 1 | 1 | 1 | G | 1 | 1 | 1 | 公 | ダ | ず |
3 | 国税庁 タックス アンサー | 1 | 1 | 1 | 1 | 2 | 2 | 1 | 1 | 1 | ダ | ず |
4 | 国立 国会 図書館 | ぴ | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 公 | ダ | ず |
5 | ジョル ダン | 1 | 1 | 1 | 1 | G | 1 | 1 | N | 2 | N | ず |
6 | Mapion | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 3 | 源 | ダ | ず |
7 | CHINTAI WEB | 1 | 1 | 1 | 1 | 1 | N | 1 | 1 | N | 1 | N |
8 | ヤマト 運輸 | ぴ | 1 | 1 | 1 | G | 1 | 1 | 1 | 源 | ダ | ず |
9 | IPド メイン SEARCH | 1 | 1 | 1 | 1 | 1 | N | 1 | 1 | 1 | 3 | N |
10 | アスキ ーデジ タル用 語辞典 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | N | N |
11 | 検索 デスク | ぴ | 1 | 1 | 1 | 1 | 1 | 1 | 1 | N | ダ | N |
12 | 全国旅 行・観 光情報 | 1 | 1 | 1 | 1 | 1 | 1 | N | 1 | 3 | N | N |
13 | 日経就職ナビ | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 2 | 1 | ず |
14 | アサヒ ・コム | 1 | 1 | N | 1 | 1 | N | 2 | N | N | N | N |
15 | 医者か らも らった 薬 | 1 | 1 | 1 | 1 | 1 | 1 | 3 | 1 | 1 | N | N |
16 | TVガ イド | 1 | 1 | N | 1 | 1 | 2 | 3 | N | 1 | ダ | ず |
17 | tenki. or.jp | 1 | 1 | 1 | 1 | 1 | 2 | 1 | N | 1 | N | N |
18 | @グルメ ぴあ | 1 | 1 | 2 | 1 | 1 | N | 2 | 1 | N | N | N |
19 | 新刊書 籍検索 | 1 | 1 | 1 | N | N | 1 | 1 | 1 | N | N | N |
20 | Chance It! | 1 | 1 | 1 | N | N | 1 | 3 | N | N | N | N |
A | 1位 | 20 | 20 | 17 | 17 | 16 | 13 | 13 | 14 | 10 | 9 | 8 |
B | 2位 | 0 | 0 | 1 | 0 | 1 | 3 | 2 | 0 | 2 | 0 | 0 |
C | 3位 | 0 | 0 | 0 | 0 | 0 | 0 | 3 | 1 | 1 | 1 | 0 |
D | 得点 5*A+ 3*B+C | 100 | 100 | 88 | 85 | 83 | 74 | 74 | 71 | 57 | 46 | 40 |
E | サイト 検索指数 | 100.0 | 100.0 | 88.0 | 85.0 | 83.0 | 74.0 | 74.0 | 71.0 | 57.0 | 46.0 | 40.0 |
No | 調査 評価 サイト名 | go | gg | fs | od | nx | is | ex | al | lc | in | fe |
この調査結果から指数を求めるのですが、誰でも使えるように非常に簡単な方法を採用しました。各検索サイトごとに、20の結果からA:1位の数、B:2位の数、C:3位の数を求めます。順位間に重みをつけるため、1位5点、2位3点、3位1点にして、各検索サイトのD:得点を求めます。そして最大値を100に基準化したものをE:サイト検索指数とします。
この結果から、指数80以上は5検索サイト、それを70以上にすると8検索サイトがクリアしています。もちろん調査キーによるわけですが、ロボット型の弱点が相当克服されてることがわかります。ロボット型で対応できない場合に、ページ検索結果の前にディレクトリのサイト検索結果を表示する場合があります。純粋にページ検索ではないですがここではそれを順位に採用しました。
この関連サイト調査は「検索の視点#20:検索結果をもとにした日本語サーチエンジンの評価(2001.5.7)」と内容は同じです。得点の集計や指数化は前述のサイト検索調査と同じですので、説明は省きます。gooとGoogleがよい成績を得ました。ページ検索でサイト検索に対応してないところは悪い結果になり、差が大きく開いてしまいました。大変難しい検索ですが、まずサイト検索をクリアし、それからこの関連サイト検索をクリアすることが一つの目標になるのではと思います。
表4 関連サイト検索調査の順位表と指数 調査日:2001年5月3日
No | 調査キーワード | 評価サイト名 | go | gg | nx | od | ex | fs | is | al |
1 | ショッピング | Yahoo!ショッピング | 1 | 1 | 1 | 1 | 3 | 1 | N | 1 |
2 | 総理大臣 | 首相官邸 | 1 | 2 | 1 | 1 | 1 | 3 | N | 3 |
3 | 税金 | 国税庁タックスアンサー | 1 | 2 | 1 | 3 | N | 1 | 4 | 2 |
4 | 図書館 | 国立国会図書館 | 5 | N | 3 | 1 | 1 | 2 | 1 | 4 |
5 | 乗り換え | ジョルダン | 1 | 1 | 2 | 1 | 1 | N | 1 | N |
6 | 地図 | Mapion | 1 | 1 | 2 | 3 | N | 1 | N | 2 |
7 | 賃貸 | CHINTAI WEB | 1 | 1 | 3 | 5 | 1 | 2 | N | N |
8 | 宅急便 | ヤマト運輸 | 1 | 1 | 1 | 3 | N | N | 2 | 6 |
9 | ドメイン | IPドメインSEARCH | 1 | 1 | 1 | 1 | 1 | N | N | N |
10 | 辞典 | アスキーデジタル用語辞典 | 1 | 1 | 1 | N | 2 | 1 | N | N |
11 | 検索 | 検索デスク | 1 | 8 | 3 | 4 | 3 | 6 | N | 3 |
12 | 旅行 | 全国旅行・観光情報 | 1 | 1 | 2 | N | 9 | N | 2 | 5 |
13 | 就職 | 日経就職ナビ | 1 | 1 | 2 | 2 | N | N | N | 7 |
14 | 新聞 | アサヒ・コム | 1 | 1 | N | 8 | 1 | N | 2 | N |
15 | 薬 | 医者からもらった薬 | 1 | 5 | 1 | N | 4 | N | 2 | N |
16 | テレビ番組 | TVガイド | 1 | 1 | 8 | 4 | 5 | N | N | N |
17 | ひまわり | tenki.or.jp | 2 | 1 | 7 | 1 | N | N | N | N |
18 | グルメ | @グルメぴあ | 1 | 2 | N | 1 | N | N | N | N |
19 | 書籍 | 新刊書籍検索 | 3 | 2 | N | N | 3 | N | 10 | N |
20 | プレゼント | Chance It! | 2 | 2 | N | N | N | N | N | 6 |
A | カウント | 1位 | 16 | 12 | 7 | 7 | 6 | 4 | 2 | 1 |
B | カウント | 2位 | 2 | 5 | 4 | 1 | 1 | 2 | 4 | 2 |
C | カウント | 3位 | 1 | 0 | 3 | 3 | 3 | 1 | 0 | 2 |
D | 総計 | 5*A+3*B+C | 87 | 75 | 50 | 41 | 36 | 27 | 22 | 13 |
E | 関連サイト検索指数 | Dの最大値を100に調整 | 100 | 86 | 58 | 47 | 41 | 31 | 25 | 15 |
No | 調査キーワード | 評価サイト名 | go | gg | nx | od | ex | fs | is | al |
新しい検索力は以上求めた3種類の指数の和を100に基準化して求めます。その流れを表5にまとめました。従来は検索数だけでしたが、それにサイト検索と関連サイト検索を加えたものです。検索数の順位がよいとか、サイト検索の順位がよいとか、あるいは関連サイト検索の順位がよいとか、利用する分野や検索に対する習熟度により異なるかも知れません。今後は、検索デスクの配置はこの検索力をベースにします。
表5 検索力の算出 調査日:2001年5月13日
No | 検索サイト | 検索数 | サイト検索 | 関連サイト検索 | 合計 | 検索力 |
1 | goo | 100.0 | 100.0 | 100.0 | 300.0 | 100.0 |
2 | 98.4 | 100.0 | 86.2 | 284.6 | 94.9 | |
3 | FastSearch | 69.1 | 88.0 | 31.0 | 188.1 | 62.7 |
4 | ExciteJ | 58.6 | 74.0 | 41.4 | 174.0 | 58.0 |
5 | Nexearch | 26.6 | 83.0 | 57.5 | 167.1 | 55.7 |
6 | ODiN | 31.1 | 85.0 | 47.1 | 163.2 | 54.4 |
7 | InfoseekJ | 56.3 | 74.0 | 25.3 | 155.6 | 51.9 |
8 | AltaVista | 67.5 | 71.0 | 14.9 | 153.4 | 51.1 |
9 | LycosJ | 46.8 | 57.0 | 0.0 | 103.8 | 34.6 |
10 | kensaku | 93.8 | 0.0 | 0.0 | 93.8 | 31.8 |
11 | InfoNavi | 26.6 | 46.0 | 0.0 | 72.6 | 24.2 |
12 | FreshEye | 6.1 | 40.0 | 0.0 | 46.1 | 15.4 |
結果から、検索サイトが3つのグループに分かれました。トップグループはgooとgoogleです。80点以上をAとすれば、3項目ともAAAです。次のグループは、FastSearch、ExciteJ、Nexsearch、ODiN、InfoseekJ、AltaVista、の6検索サイトで、検索力62.7から51.1までの狭い範囲に入っています。このグループのサイト検索指数は71以上ありますので、サイト検索指数が大きく影響しています。最後は、LycosJ、kensaku.org、InfoNavigator、FreshEyeですが、まだページ検索のなかにサイト検索が入っていないようです。特に、関連サイト検索がかんばしくなかったのが響いています。
検索力調査ですが、1回の調査に必要な検索回数は、検索数 15×15=225回、サイト検索 20×12=240回、関連サイト検索 20×12=240回、となります。今までに較べて約3倍になります。
したがって、検索数は従来通り毎週調査しますが、サイト検索と関連検索サイトに関しては月1回の更新にしたいと思います。もちろん、各検索サイトのデータ更新やシステム変更は頻繁に行われていますので、大きな変化が認められたときは随時行います。それに難しい問題ですが、サイト検索調査や関連サイト検索調査で使う調査キーワードや調査サイトは少しづつ入れ替えたいとも思っています。