スパイダリングとWebクローラの定義

スパイダー&ウェブクローラー:ウェブサイトのデータを保護するために知っておくべきこと

スパイダーとは、Webを介してデータを検索する「クロール」するプログラム(または自動化されたスクリプト)です。 スパイダーはウェブサイトのURLを移動し、電子メールアドレスのようなウェブページからデータを取り出すことができます。 スパイダーは、ウェブサイトで見つかった情報を検索エンジンに供給するためにも使用されます。

「ウェブクローラー」とも呼ばれるスパイダーは、ウェブを検索し、すべてがその意図に優しいわけではありません。

情報を収集するスパマーズスパイダーのウェブサイト

Google、Yahoo!

他の検索エンジンだけがウェブサイトのクロールに興味を持っているわけではありません。それは詐欺師やスパマーです。

スパイダーはスパイダーやその他の自動ツールを使用して、ウェブサイト上でメールアドレスを検索します(インターネット上では、この習慣を「収穫」と呼ぶことが多い)、スパムリストの作成に使用します。

スパイダーは、検索エンジンがあなたのウェブサイトに関する詳細情報を調べるために使用するツールですが、未チェックのままにしておくと、サイトをクロールする方法についての説明がないウェブサイト(または「アクセス許可」)が、 スパイダーズはリンクをたどって移動し、データベース、プログラムファイル、その他の情報へのリンクを見つけるのには非常に熟練しています。

ウェブマスターはログを閲覧して、どのスパイダーや他のロボットが自分のサイトにアクセスしたかを見ることができます。 この情報は、ウェブマスターが自分のサイトのインデックスを作成している人数とその頻度を知るのに役立ちます。

この情報は、ウェブマスターがSEOを微調整し、robots.txtファイルを更新して、特定のロボットが今後サイトをクロールできないようにするために便利です。

不要なロボットクローラからあなたのウェブサイトを保護するためのヒント

あなたのウェブサイトから不要なクローラを取り除くことは、かなり簡単な方法です。 悪意のあるスパイダーがあなたのサイトをクロールすることを心配していなくても(電子メールアドレスの難読化はほとんどのクローラからあなたを守りません)、検索エンジンに重要な指示を提供する必要があります。

すべてのウェブサイトには、robots.txtファイルと呼ばれるルートディレクトリにあるファイルが必要です。 このファイルを使用すると、検索エンジンである場合に、特定のページのメタデータに索引付けされていないと明記されていない限り、索引ページを検索する場所をWebクローラーに指示することができます。

クローラがブラウズしたい場所を希望しているのと同じように、どこに行かないかも知っていなくても、ウェブサイト全体から特定のクローラをブロックすることさえできます。

robots.txtファイルをまとめると、検索エンジンにとって大きな価値があり、ウェブサイトのパフォーマンスを向上させる重要な要素になる可能性もあることに留意することは重要ですが、一部のロボットクローラは引き続きあなたの指示を無視します。 このため、すべてのソフトウェア、プラグイン、およびアプリを常に最新の状態に保つことが重要です。

関連記事と情報

不正な(スパム)目的に使用された情報収穫の流行のために、法律は2003年に特定の慣習を違法にするために渡されました。 これらの消費者保護法は、2003年のCAN-SPAM法に該当します。

あなたのビジネスが大量メールや情報収集に携わっている場合は、CAN-SPAM法を読み上げる時間を取ることが重要です。

次の記事を読むことで、スパム対策法とスパマーに対処する方法、およびビジネスオーナーとしては何ができないのかについて詳しく知ることができます。