検索デスク 視点(21) 2001年5月19日

サイト検索を考慮した検索力調査
   視点(21) 2001年5月19日

1. 検索力調査について

  検索力調査は1996年1月から開始しました。その当時はまだコンテンツが少なく、検索してもあまり見つからなかったものです。そこで、どれ位のデータが入っているかを調べるために、ロボット型やディレクトリ型の検索サイトを検索しレポートにまとめていました。それが検索力という形になったのは1996年9月です。検索数をベースに海外検索サイトを対象にしたものです。1997年3月末にgooが検索サービスを開始したのを機に、日本語検索サイトの検索力調査を毎週実施し、公開してきました。4年以上続いたことになります。

  インターネットによる情報発信が増加するにつれて、ロボット型検索サイトのデータ量は増大し、検索すると読みきれないほどの検索結果が得られるようになりました。検索結果をランキングしてますが、実際は大変難しいことです。各検索サイトのランキングを評価することは、少なくとも2000年までは不可能でした。5月7日に検索の視点に、ロボット型検索がページ検索に加えてサイト検索もできるようになったことを記しました。

  これを受けて長年続けてきた検索力調査をバージョンアップすることにしました。以下、その背景、検索力を算出する要素として、検索数、サイト検索、関連サイト検索、そして総合評価方法、今後の検索力調査について述べます。

2. ロボット型の進化:ページ検索に加えサイト検索可能

  Web検索の有用性に気づいた人は、無料のWeb検索サービスを1日に何十回と検索しています。現代の情報通はWeb検索通です。そのような人は検索キーを少なくとも3個以上使うAND検索を使います。その場合には、データ量、すなわち検索数が重要になります。したがって検索数調査は今後も継続します。

  ロボット型がページだけを処理しているため、サイトのトップページがランキングの上位に表示されず、サイト検索に較べて短所であると長い間指摘されていました。それを補うために、フレッシュアイが1999年4月に「ずばリンク」を開始しています。企業名、自治体名、大学名などの検索であれば、検索結果の先頭に表示するシステムです。gooの「ぴったりgoo」、InfoseekJの「ジャストシーク」、LycosJの「公式サイト」「情報源」、InfoNavigatorの「ダイレクトリンク」など、名前は異なりますが、同種のシステムです。この例外処理は当たり外れが大きく、サイト検索対応の暫定版とみなせます。

  2000年8月に日本語検索サービスを始めたFastSearchやGoogleはデータベースの構成自体がサイト検索向きになっており、それを受けてgoo、ODIN、4月にサービスを開始したNexearchなど、ディレクトリ型のサイト検索よりも優れた結果を示すものが登場してきました。

  そこで新しい検索力調査は、1)従来の検索数調査、2)あるサイトが検索できるかどうかを調べるサイト検索調査、3)検索の視点#20で行ったキーワードからサイトを見つける関連サイト検索調査、の3項目から求めます。

3. 検索数調査

  この調査はサーチエンジンの性能を客観的に得るために始めました。海外検索サービスは96年9月から、日本語検索サービスは97年3月から、毎週日曜日の朝に実施し、そのデータを公表しています。調査は非常に簡単な方法をとっています。各検索サイトに対して15種類のキーワードで検索し、検索結果に表示される検索数をベースにします。

  2001年5月13日に調査したものを表1に記します。横に検索サイト(略号)、縦にキーワード、その交点に検索数を示します。キーワードの検索数は、例えばgooの場合、グルメの818,000からvrmlの31,000と大きく変化しますので、15種類の検索数を合計したものを比較しても意味がありません。

  表1 検索数調査データ(単位:1,000) 調査日:2001年5月13日

No調査キーgoggksfsalexislcodinnsfe
1イントラネット77855834644559532126313
2楽器22535136126822118520115588737811
3グルメ818486240172205207116100886411344
4コミック17836933712819516815112479596513
5ヒント2073262353514815614411268666413
6生物38156750246034925523920018413711912
7時計4164626354513602572832051319610319
8図書館42722447039332232928630618015715219
9ドメイン75739729741021618616813921968103141
10博物館33423436432625026022218913111813517
11病気38858856746231834333925314614613620
12文学68660238540827819715317414981799
13マーケット48531531319925736127592113966739
14野球55360964155542231231824015811114255
15vrml31221682312162091491
D合計5,9625,6375,4214,3103,6283,2742,9712,3611,7641,3131,063417
No調査キーgoggksfsalexislcodinnsfe

略号 go:goo、gg:Google、ks:kensaku、fs:FastSearch、al:AltaVista、ex:ExciteJ、is:InfoseekJ、lc:LycosJ、od:ODiN、in:InfoNavigator、nx:Nexearch、fe:フレッシュアイ

  そこで、最大の検索数を示すものを100として、その相対的な値を求めます。その結果を表2に示します。表2のイントラネットで説明しますと、表1で最大の検索数はGoogleの85,000ですので、それを100にします。gooは100×77÷85=91、kensaku.orgは100×58÷85=68、などと計算していきます。表2のD:合計は15キーの合計を示します。そして、最大値の1,232を100に調整したものを求めます。E:検索数指数は従来の検索力と同じものです。

  表2 検索数指数 調査日:2001年5月13日

No調査キーワードgoggksfsalexislcodinnsfe
1イントラネット911006840765370632431364
2楽器629710074615156432420223
3グルメ10059292125251412118145
4コミック481009135534641342116184
5ヒント631007211454844342120204
6生物671008981624542353224212
7時計667310071574045322115163
8図書館914810084697061653833324
9ドメイン100523954282522182991419
10博物館926410090697261523632375
11病気661009679545858432525233
12文学100885659402922252212121
13マーケット100656541537457192320148
14野球869510086664950372517229
15vrml100715026743852643145282
D合計1,2321,2121,15685283272369457738332832875
E検索数指数100.098.493.869.167.558.656.346.831.126.626.66.1
No調査キーワードgoggksfsalexislcodinnsfe

略号 go:goo、gg:Google、ks:kensaku、fs:FastSearch、al:AltaVista、ex:ExciteJ、is:InfoseekJ、lc:LycosJ、od:ODiN、in:InfoNavigator、nx:Nexearch、fe:フレッシュアイ

  日本と海外とあわせて20検索サイトありますが、更新するのは約15ありますので、毎週15×15=225回の検索を手動で実施しています。最初のころは検索数を紙に筆記していましたが、最近は直接エクセルに入力しています。終了後、エクセルで表2の計算を行ないます。なお、調査用の検索ページを独自に作成し、それを使っています。

  資料⇒視点:検索可能性をあらわす検索力について 1996.9.16

4. サイト検索調査

  サーチエンジンの発展の流れからいえば、このサイト検索は次の関連サイト検索よりも先にクリアすべきものです。検索の視点#20はサイト検索調査を飛ばしてしまいました。#20で用いたのと同じサイト名で検索し、検索結果の順位を求めたのが表3です。表で、Nは4位以上、ぴはぴったりgoo、ダはダイレクトリンク、ずはずばリンク、などを示します。

  表3 サイト検索調査の順位表と指数 調査日:2001年5月9日

No調査評 価サイ ト名goggfsodnxisexallcinfe
1Yahoo! ショッ ピング111NN1N1NNN
2首相 官邸111G111
3国税庁 タックス アンサー111122111
4国立 国会 図書館1111111
5ジョル ダン1111G11N2N
6Mapion11111113
7CHINTAI WEB11111N11N1N
8ヤマト 運輸111G111
9IPド メイン SEARCH11111N1113N
10アスキ ーデジ タル用 語辞典111111111NN
11検索 デスク1111111NN
12全国旅 行・観 光情報111111N13NN
13日経就職ナビ1111111121
14アサヒ ・コム11N11N2NNNN
15医者か らも らった 薬111111311NN
16TVガ イド11N1123N1
17tenki. or.jp1111121N1NN
18@グルメ ぴあ11211N21NNN
19新刊書 籍検索111NN111NNN
20Chance It!111NN13NNNN
A1位20201717161313141098
B2位00101320200
C3位00000031110
D得点 5*A+ 3*B+C100100888583747471574640
Eサイト 検索指数100.0100.088.085.083.074.074.071.057.046.040.0
No調査 評価 サイト名goggfsodnxisexallcinfe

略号 go:goo、gg:Google、fs:FastSearch、od:ODiN、nx:Nexearch、is:InfoseekJ、ex:ExciteJ、al:AltaVista、lc:LycosJ、in:InfoNavigator、fe:フレッシュアイ、  N:4位以上、ぴ:ぴったりgoo、G:Go、公:公式サイト、源:情報源、ダ:ダイレクトリンク、ず:ずばリンク

  この調査結果から指数を求めるのですが、誰でも使えるように非常に簡単な方法を採用しました。各検索サイトごとに、20の結果からA:1位の数、B:2位の数、C:3位の数を求めます。順位間に重みをつけるため、1位5点、2位3点、3位1点にして、各検索サイトのD:得点を求めます。そして最大値を100に基準化したものをE:サイト検索指数とします。

  この結果から、指数80以上は5検索サイト、それを70以上にすると8検索サイトがクリアしています。もちろん調査キーによるわけですが、ロボット型の弱点が相当克服されてることがわかります。ロボット型で対応できない場合に、ページ検索結果の前にディレクトリのサイト検索結果を表示する場合があります。純粋にページ検索ではないですがここではそれを順位に採用しました。

5. 関連サイト検索調査

  この関連サイト調査は「検索の視点#20:検索結果をもとにした日本語サーチエンジンの評価(2001.5.7)」と内容は同じです。得点の集計や指数化は前述のサイト検索調査と同じですので、説明は省きます。gooとGoogleがよい成績を得ました。ページ検索でサイト検索に対応してないところは悪い結果になり、差が大きく開いてしまいました。大変難しい検索ですが、まずサイト検索をクリアし、それからこの関連サイト検索をクリアすることが一つの目標になるのではと思います。

  表4 関連サイト検索調査の順位表と指数 調査日:2001年5月3日

No調査キーワード評価サイト名goggnxodexfsisal
1ショッピングYahoo!ショッピング111131N1
2総理大臣首相官邸121113N3
3税金国税庁タックスアンサー1213N142
4図書館国立国会図書館5N311214
5乗り換えジョルダン11211N1N
6地図Mapion1123N1N2
7賃貸CHINTAI WEB113512NN
8宅急便ヤマト運輸1113NN26
9ドメインIPドメインSEARCH11111NNN
10辞典アスキーデジタル用語辞典111N21NN
11検索検索デスク183436N3
12旅行全国旅行・観光情報112N9N25
13就職日経就職ナビ1122NNN7
14新聞アサヒ・コム11N81N2N
15医者からもらった薬151N4N2N
16テレビ番組TVガイド11845NNN
17ひまわりtenki.or.jp2171NNNN
18グルメ@グルメぴあ12N1NNNN
19書籍新刊書籍検索32NN3N10N
20プレゼントChance It!22NNNNN6
Aカウント1位1612776421
Bカウント2位25411242
Cカウント3位10333102
D総計5*A+3*B+C8775504136272213
E関連サイト検索指数Dの最大値を100に調整10086584741312515
No調査キーワード評価サイト名goggnxodexfsisal

略号 go:goo、gg:Google、nx:Nexearch、od:ODiN、ex:ExciteJ、fs:FastSearch、is:InfoseekJ、al:AltaVista、N:11位以上

6. 新しい検索力の算出法

  新しい検索力は以上求めた3種類の指数の和を100に基準化して求めます。その流れを表5にまとめました。従来は検索数だけでしたが、それにサイト検索と関連サイト検索を加えたものです。検索数の順位がよいとか、サイト検索の順位がよいとか、あるいは関連サイト検索の順位がよいとか、利用する分野や検索に対する習熟度により異なるかも知れません。今後は、検索デスクの配置はこの検索力をベースにします。

  表5 検索力の算出 調査日:2001年5月13日

No検索サイト検索数サイト検索関連サイト検索合計検索力
1goo100.0100.0100.0300.0100.0
2Google98.4100.086.2284.694.9
3FastSearch69.188.031.0188.162.7
4ExciteJ58.674.041.4174.058.0
5Nexearch26.683.057.5167.155.7
6ODiN31.185.047.1163.254.4
7InfoseekJ56.374.025.3155.651.9
8AltaVista67.571.014.9153.451.1
9LycosJ46.857.00.0103.834.6
10kensaku93.80.00.093.831.8
11InfoNavi26.646.00.072.624.2
12FreshEye6.140.00.046.115.4

  結果から、検索サイトが3つのグループに分かれました。トップグループはgooとgoogleです。80点以上をAとすれば、3項目ともAAAです。次のグループは、FastSearch、ExciteJ、Nexsearch、ODiN、InfoseekJ、AltaVista、の6検索サイトで、検索力62.7から51.1までの狭い範囲に入っています。このグループのサイト検索指数は71以上ありますので、サイト検索指数が大きく影響しています。最後は、LycosJ、kensaku.org、InfoNavigator、FreshEyeですが、まだページ検索のなかにサイト検索が入っていないようです。特に、関連サイト検索がかんばしくなかったのが響いています。

7. 今後の検索力調査について

  検索力調査ですが、1回の調査に必要な検索回数は、検索数 15×15=225回、サイト検索 20×12=240回、関連サイト検索 20×12=240回、となります。今までに較べて約3倍になります。

  したがって、検索数は従来通り毎週調査しますが、サイト検索と関連検索サイトに関しては月1回の更新にしたいと思います。もちろん、各検索サイトのデータ更新やシステム変更は頻繁に行われていますので、大きな変化が認められたときは随時行います。それに難しい問題ですが、サイト検索調査や関連サイト検索調査で使う調査キーワードや調査サイトは少しづつ入れ替えたいとも思っています。