検索デスク 視点(3) 1996年2月23日

新陳代謝の激しいWeb情報は更新型
   視点(3) 1996年2月23日

1. OpenTextの統計データ

  Web情報の正体を知ることは検索や索引を利用するユーザーやそれを作成する人にとって必要なことです。しかし、誰も管理者がいないWeb情報の世界を把握することは困難です。そこで、ロボットでWeb情報を収集しているOpenTextの統計データをもとにWeb情報の実態に触れてみます。

2. ロボット収集

  ロボットはそのプログラムに従って、いろいろなサイトにリンクをたどりながら訪問し、情報を収集してきます。すでに持っているデータと新たに収集したデータとをつき合わせた結果を以下に示します(1996年1月15日)。

  A: 24,141件 所有しているが、見つからない
B:105,078件 所有しているが変更があった文書数
C: 25,859件 今までのものと同じであった文書数
D: 53,203件 新たに追加した文書数
E:208,281件 合計(1日あたりの収集Web文書数)

3. 20万収集

  当時、大学に籍をおいていたLycosの1年前のロボットは2台のマシンを使って1日に5,000と10,000収集していましたが、昨年の6月に公開したOpenTextはさらに大掛かりになり、1日5万収集しました。それが、今回では20万になっています。それでも、1,000万以上あるWeb文書を再収集し更新するには、2ケ月以上かかります。

  ロボットで収集する日本のTITANやODINの総数は30万件ですから、2日分です。日本語の壁はありますが、世界的規模の所が日本へ進出してきたらと危惧します。検索や索引を作ってサービスしている、そういう所に金がまわっていき、競争によってよいサービスができる、ということが必要です。みなさんお願いしますよ。

4. Not Found

  上記の統計データはWeb情報に関して非常に重要なことを示しています。現在の文書数はA+B+Cの155,078です。15.6%を占めるAはすでに削除されています。従って、検索で得たリストの中には、すでに削除したものを含むことを意味します。

  新しい段階では問題になりませんが、もしデータベースの作成側でこのような削除データをそのままにしておきますと、ゴミが蓄積され、総数に占める割合がだんだん大きくなっていきます。

5. データの破棄

  これはロボットの場合だけでなく、紹介文を収集する場合にも当てはまります。ネットニュースのFAQは少なくとも1ケ月に1回、最近は毎日更新している所もあります。Web情報は少なくとも3ケ月に1回位の更新が必要なようです。

  重要度に応じて更新する期間を変えてる所もあります。このようにWebの検索や索引の世界は苦労して集めたものを3ケ月位で見直して破棄し更新しなければなりません。

6. データの更新

  次に、Bは67.8%で、データの更新を表しており、リンクで見ることができ、更新した新しい情報が得られます。Cは16.6%あり、変化してないことを示します。Web情報は蓄積型よりも更新型の情報が多いことをを示しています。

7. データの増加

  Dの新規データは現状(A+B+C)から見ると34.3%の増加になります。何ケ月分の増加か分かりませんが、Webの世界がまだ拡大していることを示しています。これらから、

  現在6つのデータがあるとしますと、1つは削除、4つは更新、1つは現状維持で、6つの内5つを廃棄することになります。そして2つ追加されて、結局6つが7つになります。

8. 結論

  結論として、従来のオンラインデータベースは蓄積型でしたが、Webデータベースは更新型であると言えます。この点を考慮せずに、蓄積型の検索システムや索引システムを構築してもゴミの山を築くだけになります。ユーザーの方もこの点を理解して利用するとともに、検索・索引サービスに対する一層のご理解をお願いします。