検索デスク 視点(4) 1996年4月11日

登録情報だけでよいのか?
   視点(4) 1996年4月11日

1. 新着情報を見ていますか

  索引サービスの多くはホームページ作成者の自薦による登録をもとにデータベースを作成しています。この収集した登録情報は新着情報として一般に公開されています。毎朝、新聞に目を通すように、毎日、新着情報を見る習慣がつけば立派なネットサーファーと言えます。 → 新着・新聞情報

2. 新着情報のデータ収集

  CSJインデックス、InfoNavigator、NETPLAZA、NTT新着情報、そしてWWWナビゲーターの5種類の96年4月2日(火)から8日(月)まで1週間分の新着情報を収集しました。土日が休みの所は土日分を月曜日に処理する関係で曜日が変則になっています。1週間分のデータ総数は1,992で、各日ごとのデータ数を以下に示します。

索引サービス4.2火4.3水4.4木4.5金4.6土4.7日4.8月合計
CSJインデックス53783929----107306
InfoNavigator76484888----119379
NETPLAZA89783989----62357
NTT新着情報545576100334581444
WWWナビゲーター82627478627870506
合計新着数354321276384951234391992
合計バイト数(KB)121991021403440151687

3. 重複したリンク数のカウント

  新着情報の各記事にあるリンクを手がかりに、重複した登録数を調べました。以下のテーブルのCSJインデックスの場合で説明しますと、1週間の新着総数は306、CSJだけにあるのが152、他の1個所と一緒に登録しているのが72、2個所のが42、3個所のが23、他の4個所(全部)にも登録してるのが6あり、同じ内容のが重複して含むのが11あることを示しています。他も同様です。

索引サービス総数単独2個所3個所4個所5個所重複数
CSJインデックス306152724223611
InfoNavigator379861451083361
NETPLAZA357142104752466
NTT新着情報444298632721629
WWWナビゲーター50619514810831618

4. 情報発信者の登録パターン

  5個所の合計新着数の1,992から重複の65を引いた1927は複数の所に登録したものを含んでいる延べ数で、実際の新着実数は1,298です。重複リンクを調べることによって情報発信者が同時に何個所の所に登録しているかその行動パターンが得られました。それを示しますと、
(1) 1個所に登録 -- 873/1298 - 67.3%
(2) 2個所に登録 -- 266/1298 - 20.5%
(3) 3個所に登録 -- 120/1298 -  9.2%
(4) 4個所に登録 -- 33/1298 -  2.5%
(5) 5個所全部に登録 -- 6/1298 -  0.5%

  実際には、登録者が同時に登録していないこと、また各サービスごとに登録処理方法が異なるなどの理由で、数箇所に登録された新着情報は異なった日付になる場合がほとんどです。従って、4月2日に単独であっても4月1日に他の所に登録されていることが考えられますので、単独の数が少なくなり、その分だけ複数の方が多くなります。

5. 重複登録のパターン

  (1) 2個所へ同時に登録する場合、InfoNavigatorとWWWナビゲーターが72、InfoNavigatorとNETPLAZAが59、CSJインデックスとWWWナビゲーターが33などが多い組み合わせのパターンです。
(2) 3個所の場合にはInfoNavigator、NETPLAZA、WWWナビゲーターが59、CSJインデックス、InfoNavigator、WWWナビゲーターが23などとなります。
(3) 全部に登録したのが6ありました。
(4) 重複数65は全体の1992からみれば3%位になります。
(5) 単独の比率ですが、NTT新着情報の72%に対して、InfoNavigatorは23%です。これをどう説明したらよいか少し難解です。

6. 最も重要な事実

  データベースにとって大事なことが2つあります。その一つはデータの新鮮さ、もう一つは網羅性です。ここでは、後者の網羅性に関して新事実が浮かび上がってきました。新着実数の1,298を用いて、各サービスの新着情報が占める割合を求めてみました。
(1) CSJインデックス - 295/1298 - 22.7%
(2) InfoNavigator  - 378/1298 - 29.1%
(3) NETPLAZA.    - 351/1298 - 27.0%
(4) NTT新着情報   - 415/1298 - 32.0%
(5) WWWナビゲーター - 488/1298 - 37.6%

  如何ですか。このパーセンテージは驚くべきことを示しています。超有名なNTTの新着情報でさえも、新着情報の3分の1しかカバーしていません。すべての新着情報がこの5個所に登録されてないので実際はもっと少ないパーセンテージになります。従って、登録情報だけによるデータベースの構築は網羅性を満たさないと言えます。

7. ユーザーは如何に対処すべきか

  ユーザー側の網羅性を高めるには、1個所だけではなく、複数の所を訪問する必要があります。新着情報も、検索サービスも、索引サービスも、リンクも、少なくとも2~3個所をチェックする必要があります。手前味噌になりますが、この「検索デスク」の中にある「オール索引」は索引の場合に威力を発揮します。

8. データベースは如何に対処すべきか

  日本ヤフーのサービス開始で、索引データベースは登録情報だけで構成されてないことがはっきりしました。米国ヤフーの登録情報によるデータベースの構築は広く流布されていたため、InfoNavigatorを除くほとんどの索引サービスは登録情報だけでデータベースを構築しています。ユーザーは網羅性の高いデータベースを求めています。この機会に新しい方法の導入が望まれます。