6月20日のロボット系検索力のコメントを書くために、18編ある「検索の視点」が検索サイトにどれだけ入って入るかを調べました。その結果、InfoNavigatorに17編、ExciteJに12編、その他のロボット系検索サイトはゼロという結果になりました。前のURLのときは多くの検索サイトに紹介されていましたので、まだ新URLへの切り替えが進んでないものとみなせます。
ホームページを作り始めた頃は自分の作ったページが検索サイトにどのように紹介されているか関心があり、よく見ていたのですが、3年も経つと関心がなくなりチェックしていませんでした。「検索の視点」を調べた際に検索デスクをコピーしたものを発見しましたので、「検索デスク」を追加してさらに詳しく調べました。驚くことに全部で7件のコピーページを発見しました。
私的に使う分にはかまいませんが、サーバーに公開すれば明らかにルール違反です。「検索デスクはコピーされるほど有用だ」と人から言われて満足しているわけにはいきません。この問題はWeb情報を発信する人、Web情報を流通させる人、あるいは今後進展する電子商取引などにも非常に重要な内容を含んでいます。そこで、検索の視点で急遽取り上げることにしました。
日本の代表的なロボット系検索サイト6社(S1~S6)で、2種類のキーワード、「検索デスク」と「検索の視点」を使って調べました。6月21日の時点で、S1は2件、S2は5件、S3は4件、S4は1件、S5は0件、S6は0件のコピーが見つかりました。重複分を除いたコピーページは計7件でした。
次の表は見つけた7件(A~G)の概要について、検索サイトの収集年月の古い順にリストしたものです。少し説明しますと、「ページ」はトップページ以外に複数のサブページのコピーがあるかないかを示します。「コピー年月」はトップページの内容から推定しました。「Copyright」はオリジナルにあるCopyright表示をそのまま載せているか、削除しているかを示します。「その他」はカウンタの有無などです。「検索サイト」は該当ページを紹介している検索サイト、「収集年月」は紹介文に示される更新年月日の古い方です。
コピー7件のうちメールアドレスの判明した5件に対して、6月21日に、「著作権違反の警告」メールを発信しました。いずれも翌22日に、お詫びと該当ページ削除の返信を受け取りました。アドレス不明の2件に対しては、サーバー管理者へメールや電話で違法なことを伝えました。この2件はともに29日に該当ページを削除しています。各検索サイトに対する削除依頼は各人が行ないました。
コピーページのHTML文をみると私のページと異なる部分がありますが、いずれもホームページを発信している優秀で若い人ということを考慮して、このコピーの件に関しては不問にしました。一罰百戒ということも考えられますが、将来、インターネットの世界で活躍することを願っています。
表1:コピーページ:その内容と検索サイト (1999年6月21日現在)
. | ページ | コピー年月 | Copyright | その他 | 検索サイト | 収集年月 |
A | トップ・サブ | 1997.8.14 | ASAI Isao | カウンタ有 | S1、S3 | 1997.10.12 |
B | トップ・サブ | 1997.11.9 | ASAI Isao | カウンタ有 | S1、S2、S3 | 1997.11.11 |
C | トップ | 1998.4.26 | ASAI Isao | カウンタ有 | S2 | 1998.4.27 |
D | トップ・サブ | 1998.6.18 | 削除 | --- | S2、S4 | 1998.9.7 |
E | トップ・サブ | 1998.12. | 削除 | --- | S2、S3 | 1999.1.13 |
F | ロボット | 1999.2. | 削除 | --- | S3 | 1999.3.2 |
G | トップ・サブ | 1999.3.15 | 削除 | --- | S2 | 1999.4.17 |
実際に調査してみて、いろいろと考えさせられる結果が得られました。まず、検索サイト別のリストを示します。行に検索サイト、列に用いた2種類の検索キーをとり、検索結果の適合度の順番に、○はホンモノのトップページ、△はホンモノのサブページ、×はコピーページです。例えば、検索サイトS1で「検索デスク」を検索すると、4番目と30番目にコピーページが出てくることを示しています。
S1のコピーページは2種類ですが、いずれも収集年月が1997年10~11月と、1年半以上前から紹介しています。1ヶ月前にURL検索でホンモノが入っているのを確認してますので、なぜホンモノが消されてコピーページが残ったのか理解できません。
S2は5種類のコピーページがありますが、ホンモノは見当たりません。「検索デスク」の場合、10位内にサブページを含めて7件のコピーページがあります。検索結果の表示がタイトルにウェイトをかけているために上位を占めています。旧URLのときには多数のページがあったのですが、これにはなすすべがありません。
S3は3種類のコピーページが上位を占め、その後に旧URLのサブページが続きます。しかし、上位にホンモノはありません。
S4はホンモノのサブページが多数入っており、30位以降にコピーページが一つでてきます。コピーページまでたどりつく人はないとみなせます。S5ですが、「検索デスク」の1番と2番は移転のお知らせです。ここはホンモノのトップページだけが入っており、コピーページはありません。S6はホンモノのサブページが多数入っており、コピーページはありませんでした。
これには皆さんも驚いたことでしょう。特に、S1~S3で「検索デスク」を検索した人はコピーページにしか行けません。有名な検索サイトでこのようなことが続いていたわけですから、検索デスクへの悪影響は計り知れないものと思われます。デパートで品物を買った人がニセモノを買ったと知らない間はその品物を非難します。しかし、ニセモノをつかまされたと知れば今度はデパートの信用は台無しです。
表2:検索サイト別のコピーページ分布 (1999年6月21日現在)
検索 | コピー | 検索デスク | 検索の視点 |
S1 | A、B | 4-×、30-× | 5-× |
S2 | B、C、D、 E、G | 2-×、3-×、4-×、 5-×、6-×、7-×、 8-× | 7-×、9-×、11-× |
S3 | A、B、E、 F | 2-×、3-×、4-×、 6-△、7-△、10-△、 18-△、34-△ | 1-×、2-× |
S4 | D | 1-△、2-△、3-△、 この間に△12、32-× | 1-△、2-△、3-△、 この間に△16、35-× |
S5 | なし | 1-△、2-△、 11-○ | 7-○ |
S6 | なし | 10-○ | 1-△、3-△、4-△、..... |
Webが使えるようになってからは毎日膨大な情報が通り過ぎていきます。一部は記憶に残りますが、ほとんど忘れてしまいます。そこで、情報を整理したいと思うのですが、なかなか思うように行きません。ポータルや検索関連の記事を毎日紹介していますが、1日に十数件集まり、それを作るだけで精一杯です。記憶するのか、リンク集をつくるのか、誰かが作ったのを利用するのか、あるいはオリジナルをハードディスクに持つのかなどは一長一短です。Webだけでなく、メールもあります。
エージェントソフト(巡回ソフト)は電話代を節約するのに重宝です。以前に購入した巡回ソフトはトップのページを指定すると、その中にあるすべてのページをハードディスクにコピーしました。これに驚き、それ以降使っていません。ブラウザのIEにも巡回ソフトが組み込まれるようになり、パソコンやプロバイダーのキャッシュにもページが蓄積されます。
検索デスクにも毎日多数の巡回ソフトがきます。ログからそれを見分けるのは簡単です。まず、グラフを収集しません。それから、短時間にファイルを規則的に収集します。同一IPから1日に30ファイル以上アクセスするのをロボットとみなして、ログ分析からはずしています。現在、1日あたり約2万ファイルのアクセスがありますが、その3分の1は巡回ソフト分です。
巡回ソフトのバグや使い方のミスもみられます。1箇所から1日に4,700ファイルをダウンロードしたところ、あるいは、同一ファイルに対して2秒おきにアクセスがあり、管理者へ連絡してソフトを止めるまでの13時間で約28,000ファイルのアクセスなどは珍記録です。しかも、金曜日の午後9時半から始まり、あまりのタイミングのよさに感心しています。全ファイルを1日に数十回もアクセスする人がいますが、ファイルは書き換えられるので、その人は気づいてないかも知れません。
Webの場合、オリジナルは1箇所しかないのですが、コピーは複数箇所に存在します。個人が利用するパソコンならともかく、キャッシュサーバーはトラフィックの軽減という大義名分があるものの著作権上の問題はどうなってるのでしょうか。それに最新のものを得るためにクリックを2回するという無駄なことをしています。今回のケースは自分のハードディスク上においておけば問題なかったのですが、これをサーバー上に公開したのが間違いのもとでした。少し知識があればすぐに実現してしまうのも問題といえば問題です。
骨董品の世界はオリジナルをホンモノ、それを真似て作ったものはニセモノです。物の世界はコピーできないので、ニセモノはすぐに見破られてしまいます。それに真似て作るわけですから、オリジナルの作成年代は古く、それを真似て作ったニセモノの年代は新しいのが常識です。それが逆転してニセモノの年代が古いということはありません。
Webの世界はよくリニューアルします。車の場合は4年でフルモデルチェンジしますが、ホームページは1年でフルチェンジします。まもなく3年半経とうとしている検索デスクも、今まで数十回の更新をしています。現在のよりも前のほうがよかったという人もいます。現在のトップ・ページは1年前のものに比べて大幅に変更しており、その経過を知らない人は1年前のものをホンモノと思うかも知れません。それにURLの変更したことを知らなければ別物とみなすかも知れません。
Web情報のホンモノとニセモノは何で区別できるのでしょうか。Web情報の著作者本人が発信しているのがホンモノで、Webページをそっくりコピー、あるいはコピーを少し改変してWeb上に流しているものはニセモノです。これは著作権違反に該当します。コピーページはある時点のものですが、ホンモノは更新していきます。コピーページは更新しないため、ホンモノのイメージは損なわれてしまいます。骨董品の場合と違って、Webはニセモノの方がホンモノよりも作成年月が古いということが生じます。
この調査で気がついたことが2点あります。第1は複数の検索サイトへの収集年月が1日しか違わないことです。具体的に言いますと、コピーAは検索サイトS1とS3に紹介されています。S1の収集年月は1997.10.12、S3のは1997.10.13と1日しか違いません。また、コピーBに関して、S1の収集年月は1997.11.11、S2とS3は共に1997.11.12と1日違いです。ロボットを想定していたので登録日が異なるものと思っていましたが、偶然でも二回も生じるのには驚きました。
第2は情報発信してから収集されるまでが短いことです。コピーBのコピー年月は1997.11.9で、収集年月は1997.11.11です。またコピーCのコピー年月は1998.4.26で収集年月は1998.4.27です。情報発信して収集されるまでには一般に14~30日位かかりますから、このケースのように1~2日の収集は超まれな現象と言えます。
ロボット型の場合は次々にページを収集してきます。以前に収集したのと同じなのか更新したのかなどはソフトで自動判定しています。それにコンテンツを評価することは難しいことです。コピーページが紛れ込んでいても、それを自動的に排除することは不可能ですし、逆にホンモノを排除することもありえます。すべてをソフトに任せるのでなく、疑問が出たところは人間がチェックするシステムの方が安全です。
偶然にコピーページを見つけたのですが、その手がかりはURLでした。検索した紹介文の中にURLや更新日が表示されますが、今回は大変役にたちました。調査した検索サイト6社の中で、URLを表示するのは5社、更新日を表示するのは4社です。もちろんリンク上へカーソルを持っていけばURLは表示されます。
タイトルから検索デスク関連かどうかを判断し、関連するのであればそのURLをみます。ドメインがwww.searchdesk.comか旧のwww.bekkoame.ne.jp/~asaisan/であればホンモノです。これが異なったものであればニセモノです。しかし、これは事情をよく知っている情報発信者かそのファンの人しか分からないことです。
URLを知っていればわざわざ検索しません。必要な情報を含むURLを知るために検索します。キーワードを入力して、紹介文を読み、いろいろなリンク先へ行きます。私を含めてほとんどすべての人は検索サービスを信頼してそのリンク先へ飛びます。ユーザーがURLに気をつけなければならないとしたら不便ですが、気をつけなければならないことを知っただけでも収穫です。
不良なコンテンツは検索サービスのところで食い止めるのが一番よいのですが、これも難しい問題を抱えていて完璧にはできないと思われます。しかし、問題が発生したときに、その真偽を確かめるために手間取るかも知れませんが、確かめられ時に不良なコンテンツを即時に除去するシステムを作ることは可能です。
Webの世界はまだ始まったばかりであり、これからも新しい問題が次々に起こることが予想されます。これから始まる電子商取引などは、現在セキュリティ面のことが話題になっていますが、コンテンツの質も重要になってきます。いろいろな問題を解決し、少しずつでも進歩する方向へと向かいたいものです。
最後に、私は今まで検索サービスの発展を願い、検索の普及に努めてきました。コピーページの存在と検索サイトによる収集という事実は非常に重要なことと認識し、検索の視点にまとめました。できるだけ当事者に影響がないよう配慮したつもりです。現在、コピーページは削除されデータベースも更新しています。この視点の読者も、この文面以上に詮索しないようにお願いします。