エンジニアの副業は週1からでも可能?副業の例や探し方も解説
- ITエンジニア
- 副業
ボットとは、インターネット上でタスクを実行するために作られたソフトウェアアプリケーションのことです。
反復的でシンプルな作業に適しており、実際のユーザーの行動を模倣したり、置き換えたりできます。また、スピーディーで効率的な動きができるため、大規模な作業が必要な場合にも適しています。
そんなボットは、いまやデジタル環境になくてはならない存在になりました。しかし、ボットには良いボットと悪いボットがあります。
今回はボットトラフィックの概要と、良いボット/悪いボットの見極めかた、そして対処法について解説します。
ボットトラフィックとは、Webサイトやアプリにおける人間以外のトラフィックを指します。Webサイトを所有している場合、人間だけでなくボットにも訪問されているはずです。
ボットトラフィックは特殊な現象ではありません。それどころか、2022年には、ボットトラフィックがインターネットトラフィック全体の40%を占めるとまで言われています。この数字は近年上昇傾向にあり、今後も上昇が続くと予想されています。
「ボットトラフィックはWebサイトに悪影響を及ぼす」と聞いたことがあるかもしれません。これは間違いですが、ある意味では正解でもあります。
たとえば検索エンジンやパーソナルアシスタントのようなサービスのために働いているボットは、一般的には「良いボット」です。いっぽう、機密情報を盗み出そうとするような「悪いボット」も存在しています。
良いボットは、Webサイトやサーバーに害を与えないようなタスクを実行するボットです。一般的に、良いボットは出どころやタスクの内容を公表しています。
良いボットのなかでも一般的なのが、検索エンジンのクローラーです。クローラーがWebサイトを訪問してコンテンツを発見してくれるおかげで、検索エンジンに載ることができます。良いボットトラフィックの代表格ともいえるでしょう。
残念ながら、良いボットトラフィックはあまり多くありません。検索エンジンのクローラー以外の良いボットには、以下のようなものがあります。
SEOに携わっていると、SemrushやAhrefsなどのツールを使ってキーワード調査や競合他社の動向調査をすることがありますよね。こうしたツールもボットを送りこみ、Webサイトをクロールしてデータを収集しています。
情報を収集するために、企業がボットを使う場合もあります。たとえば、調査会社が市場のニュースをモニターするために使ったり、クーポンサイトが割引コードを収集して自社のWebサイトに掲載するために使ったりと、ボットの使いかたはさまざまです。
ニュース性の高いコンテンツを収集して、Webサイトの訪問者やメールの購読者に配信するボットです。
悪いボットは、悪意を持って作られたボットです。無意味なコメントやバックリンク、不適切な広告などでWebサイトを荒らすほか、コンサートの席を買い占めるようなボットも存在しています。
ボットトラフィックの評判が悪いのは、こうした悪質なボットが理由です。そして残念ながら、インターネット上には大量の悪いボットが氾濫しており、2022年には悪いボットのボットトラフィックがインターネットトラフィックの27.7%を占めると予想されています。
以下は、悪いボットの例です。
メールアドレスを取得し、アドレスに悪質なメールを送信します。
コメントやリンクから悪意のあるWebサイトに誘導する、スパム行為をおこなうボット。多くの場合、広告や自分のWebサイトへのバックリンクを取得することが目的です。
Webサイトを訪問し、テキスト、画像、HTMLファイル、動画などのコンテンツを可能な限りダウンロードするボットです。ダウンロードしたコンテンツは、許可なく再利用されてしまいます。
クレデンシャルスタッフィング攻撃や、ブルートフォース攻撃によって、実際のユーザーのように見せかけてログインし、機密情報を盗み出そうとします。
Webサーバーを高負荷にしてWebサイトをアクセス不能にしたり、または速度を落としたりするために、ボットを感染させたPCを使ってDDoS(Distrubuted Denial of Service)攻撃を仕掛けます。
イベントのチケットを買い占めたり、新製品を大量に購入するためのボットです。ブローカーはこのようなボットを利用して、チケットや商品を高値で転売します。
ここまでに挙げた悪いボットは、Webサイトのセキュリティやパフォーマンスを脅かします。人間のトラフィックを装うため判別することが難しく、正しい情報が得られずにビジネス上の意思決定に支障をきたす危険性もあります。トラフィックが不規則に増えたり、トラフィックの増加とコンバージョンのバランスがおかしかったりする場合は、悪いボットのボットトラフィックが原因かもしれません。
さらに、悪いボットはWebサーバーに負荷をかけて、パンクさせてしまう場合も。このような場合、パンクしているあいだに競合他社にトラフィックや売り上げを取られてしまうかもしれません。
また、セキュリティへの影響も無視できません。さまざまなユーザー名とパスワードを組み合わせてWebサイトへの侵入を試みたり、Webサイトにウイルスをインストールしてユーザーに広めようとする危険性もあります。オンラインストアを運営している場合、クレジットカードなどの機密情報もボットの攻撃対象です。
ボットがWebサイトにアクセスすると、サーバーにリクエストを送り、情報を要求します。サーバーはこのリクエストに応答し、必要な情報を返さなければいけません。
このとき、サーバーはリクエストを完了するために、わずかなエネルギーを使います。1件だけなら気にするような負荷ではないかもしれませんが、Web上のすべてのボットを考慮すると、ボットトラフィックに費やされるエネルギーは膨大な量になります。
環境への負荷という意味では、悪いボットも良いボットも変わりません。どちらもエネルギーを使ってタスク実行し、環境に影響を与えるのです。検索エンジンはインターネットに不可欠ですが、エネルギーを使うという意味では悪いボットと変わりません。
検索エンジンは、新しいコンテンツを発見し、古いコンテンツを更新するためにクローラーを送り込んでいます。しかし、クローラーが何度もWebサイトを訪問しても、正しい変更点を発見できないこともあります。
クローラーやボットがWebサイトを何回訪問したか確認するために、サーバーログをチェックしてみましょう。また、Google Search Consoleにはクロールの統計レポートもあり、Googleが何度Webサイトをクロールしたかがわかります。
Yoastを例に、クローラーの実例を見てみましょう。Googleのクローラーは、1日に1万回訪問したものの、そのうちユニークなURLをクロールしたのは4,500回でした。つまり、重複したURLを何度もクロールしていたのです。
クローラーは、画像、CSS、JavaScriptなどもクロールします。Yoastは定期的にコンテンツを公開したり更新したりしていますが、これほどの数のクロールは必要ありません。
Webサイトをクロールしているのは、Googleのボットだけではありません。他の検索エンジンやデジタルサービスからのボット、また「悪いボット」もサーバーに負担をかけています。
悪いボットへの対処方法は、Webサイトへの侵入ブロックです。帯域幅を節約でき、サーバーの負担も軽減されるので、省エネにつながります。
侵入をブロックするもっともベーシックな方法は、IPアドレスをブロックすることでしょう。不規則なボットトラフィックを確認したら、そのIPアドレスをブロックすることで、侵入を防げます。しかし、時間と労力がかかるのが難点です。
Cloudflareなどのプロバイダが提供するボット管理を使って、良いボットと悪いボットを見極め、悪いボットの侵入を防ぐのも有効です。
また、WordPressを使っている場合、セキュリティプラグインをインストールしておきましょう。Sucuri SecurityやWordfenceなど、人気のあるセキュリティプラグインのなかには、セキュリティの専門家が対応してくれるものもあります。悪いボットを自動的にブロックしてくれたり、異常なトラフィックの原因を突き止めて対処できるものもあるため、セキュリティプラグインは欠かせません。
良いボットは、悪いボットのように徹底的にブロックする必要はありません。しかし、たとえ良いボットだとしても、Webサイトや環境に不利益をもたらすおそれはあります。では、良いボットにはどのように対処するべきなのでしょうか。
良いボットにWebサイトをクロールさせたいかどうか、クロールが利益をもたらすかどうか考えてみましょう。サーバーや環境へのコスト以上へのリターンがあるでしょうか。
たとえば、検索エンジンのボットについて考えてみましょう。ある検索エンジンが1日に500回以上もクロールしているにもかかわらず、その検索エンジンからの訪問者は10人だったとします。このような場合、500回以上のクロールに対して10人の訪問者は割に合わないと考えて、ブロックしてしまうのも選択肢のひとつです。
robots.txtのcrawl-delayに対応している場合は、何度も同じリンクをクロールすることがないように、クロール速度を制限しましょう。この対処法は、とくにクローラーが頻繁に訪問する、中・大規模のWebサイトで有効です。小規模なWebサイトにもメリットはあります。
大規模なWebサイトであっても、1日に100回もWebサイトのコンテンツを更新することは、ほとんどないでしょう。著作権侵害をチェックするために著作権ボットがWebサイトを訪問する場合についても、数時間ごとに訪問する必要はないはずです。
ボットにクロールされたくない部分を決めて、robots.txtを介してアクセスをブロックすれば、エネルギーを節約しつつクロールの効率を上げられます。
Webサイトには、内部検索の結果など、クローラーが訪問する必要がない場所がたくさんあります。一般の検索結果では表示する必要がなく、ステージングサイトがある場合も見つけてほしくないはずです。
また、CMSやプラグインが自動的に作成する不要なリンクを削除するのも有効です。
たとえば、WordPressはWebサイトのコメント用のRSSフィードを自動的に作成します。コメント数が少ない場合、RSSフィードを見るひとは少ないはずなので、削除を視野に入れてもいいでしょう。
ボットトラフィックを細かく観察すると、対処するべき課題が見えてくるはずです。悪いボットだけでなく、良いボットもサーバーに負荷をかけるため、場合によっては対応が必要です。自力で、もしくは外部のサービスやプラグインを使って、良いボットに対しても悪いボットに対しても積極的に対策を講じ、ボットトラフィックを改善しましょう。
(執筆:Edwin Toonen 翻訳:Asuka Nakajima 編集:少年B 提供:Yoast)
SEO記事の読者は「人間」か「ロボット」か。両者に評価されるコンテンツの作りかた
Workship MAGAZINE
予想外の結果が出たSEOテスト5選
Workship MAGAZINE