検索デスク 視点(20) 2001年5月7日

検索結果をもとにした日本語サーチエンジン評価
   視点(20) 2001年5月7日

1. 検索結果がよくなってきました

  最近の日本語サーチエンジンによる検索結果は以前に較べ格段によくなっています。4月29日の検索力調査で、「検索」をキーに検索したところ、多くの検索サイトで「検索デスク」が上位にリストされていることを知り、これをきっかけにいろいろな分野の検索結果を調べてみました。その結果、検索サイトに大きな変化が生じていることがわかりました。

  一部の検索サイトを除いて、多くの検索サイトは大きく変貌しています。この要因は2つ考えられます。第1はディレクトリと比較して検索結果のランキングに対するユーザーの不満、第2は昨年秋にオープンしたGoogleの検索リストの評判、です。このディレクトリとGoogleへの対応がどの程度進行しているか、それを明らかにしたいと思います。

  まず、検索結果をもとにした評価を行うために、20の検索キーを使って、8検索サイトでの順位を求め、総合評価をします。そして、各検索サイトのコメント、ディレクトリへの影響などを取り上げます。

2. 検索数の多少にかかわらず、よい検索結果を求めている

  検索サイトを利用するユーザーは、1)検索頻度は少なく、しかも一つのキーしか使わない初級者が75%、2)1日に数回検索し、2~3個のキーを使う中級者が20%、3)1日に数時間検索し、検索式を使う上級者が5%、などに分類できます。しかし、検索キーを一つしか使わない検索が多いため、検索サイトはトラフィックを得るためにも初心者への対応が必要になっています。

  ロボット型検索はディレクトリ型検索に較べて、初心者には使いにくいとよく指摘されます。ディレクトリも登録型から厳選型へ移行し、その検索結果はますます洗練されたものになっていますので、そのギャップは拡大する一方です。しかしロボット型検索は検索数が100以下になるように検索式をつくって検索するのが本来の姿であり、検索数の多い検索では枝葉末節的になるのはやむを得ないとみなされていました。しかし、多くのユーザーはポピュラーなキーを使って検索し、検索数が多くても質の高い検索結果を求めています。

  ロボット型の欠点はサイトをこまぎれにしてページ単位に情報を整理していることに起因します。これを解決するにはサイト単位にまとめたものを付加することです。ページでもトップページはサイトを表します。従来はそのページだけからデータを構築していましたが、サイト全体のページを含めて構築すれば解決します。このサイトデータの作成方法はいろいろ考えられます。それに索引キーワードをベースにするか、リンクをベースにするかなど、各社の企業秘密でもあり、なかなか表に出てこないものです。そこで、それらの複合的な産物である検索結果をもとに検索サイトを評価します。

3. 20種類の評価用データ

  検索結果の評価には全部で20種類のサンプルを使いました。以下、調査キー、評価サイト名、サイトのURL、をリストします。

  1. ショッピング ⇒ Yahoo!ショッピング shopping.yahoo.co.jp
2. 総理大臣 ⇒ 首相官邸トップページ www.kantei.go.jp
3. 税金 ⇒ 国税庁タックスアンサー www.taxanser.nta.go.jp
4. 図書館 ⇒ 国立国会図書館 www.ndl.go.jp
5. 乗り換え ⇒ ジョルダン「乗換案内」 www.jorudan.co.jp
6. 地図 ⇒ Mapion[情報地図コミュニケーション] www.mapion.co.jp
7. 賃貸 ⇒ CHINTAI WEB -日本最大級の賃貸物件検索 www.chintai.co.jp
8. 宅急便 ⇒ ヤマト運輸ホームページ www.kuronekoyamato.co.jp
9. ドメイン ⇒ IPドメインSEARCH www.mse.co.jp/ip_domain
10. 辞典 ⇒ アスキー デジタル用語辞典 www.ascii.co.jp/ghelp
11. 検索 ⇒ 検索デスク - SearchDesk www.searchdesk.com
12. 旅行 ⇒ 全国旅行・観光情報 
13. 就職 ⇒ 日経就職ナビ job.nikkei.co.jp
14. 新聞 ⇒ アサヒ・コム www.asahi.com
15. 薬 ⇒ 医者からもらった薬がわかる rose.ruru.ne.jp/minori/drug/drinf001
16. テレビ番組 ⇒ インターネットTVガイド www.tvguide.or.jp
17. ひまわり ⇒ tenki.or.jp tenki.or.jp/himawari
18. グルメ ⇒ @グルメぴあホームページ g.pia.co.jp
19. 書籍 ⇒ 新刊書籍検索 www.trc.co.jp/trc-japa/search/trc_www.asp
20. プレゼント ⇒ Chance It! - 懸賞・プレゼント情報検索 www.chance-it.com

4. 8検索サイトで何番目に載っているか

  検索結果を調べた結果、サイトにウェイトをもつ日本語サーチエンジンとして以下の8検索サイトが該当しました。カッコ内はテーブルで使用する略号と4月29日に調査した検索力です。

  1.goo(go,100)、2.Google(gg,79)、3.AltaVista(al,68)、4.FastSearch(fs,65)、5.InfoseekJ(is,57)、6.ExciteJ(ex,51)、7.ODiN(od,31)、8.Nexearch(nx,27)。
一方、サイトにウェイトがないため除外した検索サイトは、kensaku.org(95)、LycosJ(47)、InfoNavigator(27)、FreshEye(6)、です。

  2001年5月3日に調査した結果を以下の表にまとめました。表の中の数字は検索結果の順位を示し、Nは10番以内に含まれないことを表します。例えば、No.11で説明しますと、調査キー「検索」で検索すると、評価サイト「検索デスク」が、goo 1番目、Google 8番目、Nexearch 3番目、ODiN 4番目、ExciteJ 3番目、FastSearch 6番目、AltaVista 3番目、InfoseekJ 20番以内に含まれず、そして最後は8社の平均検索数207万を示しています。

  表1 8検索サイトの順位表と平均検索数(単位:万) 2001年5月3日

No評価サイト名goggnxodexfsisal検索数
1Yahoo!ショッピング111131N168
2首相官邸121113N34
3国税庁タックスアンサー1213N14213
4国立国会図書館5N31121428
5ジョルダン11211N1N9
6Mapion1123N1N276
7CHINTAI WEB113512NN14
8ヤマト運輸1113NN265
9IPドメインSEARCH11111NNN27
10アスキーデジタル用語辞典111N21NN20
11検索デスク183436N3207
12全国旅行・観光情報112N9N25117
13日経就職ナビ1122NNN732
14アサヒ・コム11N81N2N139
15医者からもらった薬151N4N2N42
16TVガイド11845NNN13
17tenki.or.jp2171NNNN7
18@グルメぴあ12N1NNNN20
19新刊書籍検索32NN3N10N40
20Chance It!22NNNNN676

5. 検索結果の評価

  表1で得られた順位データから2段階のステップで点数化し評価します。

  ステップ1 順位から点数に変換
1位5点、2位3点、3位1点、その他はゼロとします。少し厳しいですが、順位間に差がでるようシンプルな方法にしました。表1から、各検索サイトごとに1位の数、2位の数、3位の数を求めます。

  ステップ2 検索サイトごとの合計を求め100に基準化
1位の数を5倍したものに、2位の数を3倍したものを加え、さらに3位の数を加えます。その中で最大のところが100になるように調整します。

  表2 検索結果をもとにした検索サイトの評価

No検索サイト1位2位3位合計検索評価
1goo162187100.0
2Google12507586.2
3Nexearch7435057.5
4ODiN7134147.1
5ExciteJ6133641.4
6FastSearch4212731.0
7InfoseekJ2402225.3
8AltaVista1221314.9

6. 各検索サイトのコメント

  Web検索結果をベースに定量的評価が実施できたのは、最近のロボット型サーチエンジンの進歩が著しかったからです。評価方法にはいろいろあり、上記の方法は一例にすぎませんが、何か新しいものが感じられます。調査キーはポピュラーで、評価サイトはよく知られたのを使ったため、初心者向けの評価とみなせるかも知れません。以下、各検索サイトごとのコメントを記します。

  goo(100)
Googleを抑えてトップです。昨秋からモデルチェンジを繰り返し、Googleへの対応どころか、総合力でトップになりました。意気込みを感じます。20評価サイト中3位内に入ったのが19あるのには驚かされます。最近、重要なキーワードについて研究しており、サイトデータの構築も相当進んでいるとみなせます。それをベースにしたロボット型ディレクトリが今夏に登場するとのこと大いに期待できます。

  Google(86)
検索やデータ収集にリンク情報を利用するGoogleの検索結果にはすばらしいものがあります。20評価サイト中3位内に入ったのが17あり、実力は十分です。国立国会図書館は他のサイトにあってGoogleになかったのですが、国立国会図書館の逆リンクは図書館の上位グループの逆リンクよりもはるかに多いので、何か索引などで問題があるのかも知れません。

  Nexearch(58)
4月17日にオープンしたほやほやの日本語サーチエンジンですが、Googleと同様にリンク情報をもとにデータベースを構築しています。予想通りの好結果となりました。検索数による検索力は27とgooの4分の1くらいですが、他の検索サイトを押さえて3位になったのはりっぱです。日本語の複合語検索はOR検索しますので、検索数が大きくなる傾向があります。

  ODiN(47)
4月22日にODiN Directory をオープンしていますが、サーチエンジンを使ってディレクトリのコンテンツを作成している成果が評価によい影響を与えています。当然サイトデータの構築は進んでおり、今後も加速するものと思われます。成長が期待されるサーチエンジンの一つです。

  ExciteJ(41)
ロボット型でありながら使いやすいと評判を得ています。早くからサイトデータを蓄積していた成果が評価にあらわれたようです。しかしサイトデータ自体が少ないためか、分野によってむらが生じているのは残念です。

  FastSearch(31)
InfoseekJ(25)
AltaVista(15)
このクラスになると20評価サイトのうち3位内に入るのは7~5で、まだサイトデータを意識した本格的なデータベースは作られてないように思われます。それぞれ特徴のあるサーチエンジンですので、今後のソフト開発に期待したいと思います。

7. ディレクトリへの影響

  ロボット型サーチエンジンでサイト検索できるかどうかを評価したのですが、この方法はサイト中心のディレクトリの評価にも適用できます。4月29日の検索力レポートに少し書きましたが、ロボット型の進化がディレクトリへ影響することを感じました。

  ディレクトリはカテゴリの構成とそれを構成するサイトが重要です。その使い方は、カテゴリを順にサーフする場合と、キーを入力する場合の2通りあります。後者の場合、検索結果の表示方法は2種類あります。第1はカテゴリ順にカテゴリとサイトを示すもので、Yahoo!J、LycosJ、ExciteJ、gooなどがあります。第2は、ロボット型検索と同様のランキング順に示すもので、InfoseekJ、MSN、LookSmart系などがあります。サーフやカテゴリ順は少し冗長になりますが、カテゴリをみて絞り込めるという利点があります。一方のランキング出力の方はロボット型と競合します。

  ランキング出力するディレクトリ型のInfoseekJとMSNに対して上記の評価を試みました。結果だけを記しますと、MSNは21.8.InfoseekJは18.4でともに7位のInfoseekJと8位のAltaVistaの中間に位置します。これから明らかになったのは、ランキング出力するサイト検索においてロボット型の方がディレクトリ型よりもよい結果を得たことです。

  これは驚くべきことです。しかし、冷静に考えてみますと、サイトを構成する情報量はロボット型の方がディレクトリ型よりも数十倍多くもっています。これではとても勝ち目はありません。上位にランクされたサーチエンジンはサイトデータの構成とサイトの重要度を測る方法を見い出だしたものとみなせます。このような技術を開発したサーチエンジンが膨大な情報をもとにサイト間の関連性やクラスタリング技術でカテゴリを構成できる日は時間の問題です。これが実現するとディレクトリへの影響が大きく、今後の進展が注目されます。

8. まとめ

  以上、少ないサンプルで検索結果を評価しましたが、大きな成果を得ました。以下に、それをまとめます。

  1)サイト検索のできるロボット型サーチエンジンが登場しています。
2)検索結果から検索サイトを評価する方法を示しました。
3)goo、Googleがよい評価を得ました。
4)サイト検索するサーチエンジンの評価はランキング出力するディレクトリよりも上です。
5)カテゴリの自動作成技術の開発は近いものと思われます。
6)今後、検索力調査にもこの成果を取り入れる予定です。

  自分の得意分野の調査キーとURLを決め、表1と表2を作成すれば、よく利用する分野の検索サイトランクが得られます。挑戦してみてください。ただ、検索サイトは生き物のように変化しますので、固定した考えをもつのでなく、ときどき見直してリフレッシュして下さい。

追記

  改定 2001年5月17日
5.検索結果の評価において、等分の10点評価をしましたが、1位5点、2位3点、3位1点、で評価し、カウントするだけで算定できるよう簡略化しました。それにともない、処理結果のデータを変更し、付録1と付録2を削除しました。

  関連 2001年5月19日
検索の視点#21:サイト検索を考慮した検索力調査

  紹介Thanks 2001年5月18日
団藤保晴の記者コラム、「インターネットで読み解く! 第103回 検索サイトの常識に変動あり」