クロールとインデックス作成: Google 検索を作成してサイトをインデックス化する方法は?

公開: 2022-08-04

クロールとインデックス作成は、Google がサイトのコンテンツを分析および解釈する方法であり、Web サイトの SEO に影響を与える可能性があります。

ムンバイの SEO 会社が共有するこの投稿は、クロールとインデックス作成の違い、Web サイトのインデックス可能性とクロール可能性への影響、および両方を向上させる方法を理解するのに役立ちます。

クロールの問題は何ですか?

クロールとは、検索エンジンがインターネット上の新しいコンテンツを見つけられるようにする方法です。 これを達成するために、彼らは新しいウェブサイトにインデックスされたウェブサイトへのハイパーリンクをたどるクロール ボットを利用します。

毎日何千もの Web サイトが作成または更新されているため、クロールは繰り返し繰り返される継続的なプロセスです。 Google Webmaster Trend Analyst の Martin Splitt は、クロールのプロセスを非常に簡単に説明しています。

「いくつかの URL から始めて、そこからリンクを取得します。 これは一度に Web (1) ページをクロールし、多かれ少なかれクロールします。」

クロールはプロセスの最初の段階にすぎません。 次のステップは、インデックス作成とランキング (さまざまなランキング アルゴリズムを使用するページ) と、検索結果の提供です。

ここで少し掘り下げて、クロールのプロセスを調べてみましょう。

「検索エンジンクローラー」とは?

 Crawling and Indexing | SEO company in Mumbai | best SEO company | search engine optimization packages in mumbai | best seo agency in singapore

検索エンジンクローラーとは?

検索エンジン クローラー (クローリング ボットまたは Web スパイダーとも呼ばれます) は、Web サイトのコンテンツをクロールし、コンテンツをスキャンし、情報を収集してコンテンツのインデックスを作成するプログラムです。

クローラーがハイパーリンクを介して Web サイトに到達すると、そのコンテンツを調べて、リンク、HTML、CSS、JavaScript ファイルなどの視覚要素とテキスト要素全体をスキャンします。次に、処理する情報を送信 (または収集) し、最終的にインデックスされます。

Google は、Googlebot として知られる独自の Googlebot Web クローラーを利用する Web 検索エンジンです。 クローラーには主に 2 種類あります。

  • Googlebot スマートフォン– メイン クローラー
  • Googlebot デスクトップ– 2 番目のクローラ

Googlebot は、モバイルブラウザーとして使用することを好む Web クローラーですが、デスクトップ クローラーを使用してすべての Web サイトをクロールし、Web サイトがどのように機能し、両方の方法で動作するかを確認することもできます。

クロールの予算によって、新しく追加されたページのクロールの頻度が決まります。

クロール バジェットとは何ですか?

 Crawling and Indexing | SEO company in Mumbai | best SEO company | search engine optimization packages in mumbai | best seo agency in singapore

クロールの予算とは何ですか?

クロール バジェットは、Web クローラーが実行するクロールの金額と頻度の合計です。 また、クロールするページ数と、Googlebot がそれらのページを再クロールする頻度も指定します。

クローラーの予算は、次の 2 つの主な要因によって決まります。

  • クロール レートの制限: サーバーに過負荷をかけずに、サイトが同時にクロールできるページの数。
  • クロールの需要: Googlebot がクロールまたは再クロールする必要がある Web ページの数。

クロール バジェットは、数百万ページの巨大な Web サイトの主な懸念事項ですが、数百ページしかない Web サイトの場合はそうではありません。 さらに、クロールに莫大な予算がかかるという事実は、検索エンジンにとって品質の兆候ではないため、サイトの利点を保証するものではありません.

索引付けをどのように定義しますか?

最高の SEO 会社の専門家によると、インデックス作成は、データベース (インデックスとも呼ばれます) でクロールされた Web ページの分析と保存を含むプロセスです。 インデックスされたページのみがランク付けされ、適切なキーワードの検索に使用されます。

ウェブブラウザが未発見のウェブサイトを発見すると、Googlebot はそのコンテンツ(テキスト、画像、動画、メタタグ、属性など)をインデックス作成フェーズに渡します。インデックス作成フェーズでは、情報を分析して、コンテキストに入れ、次にインデックスに入れます。

Martin Splitt が索引作成段階の機能について説明しています。 は:

「あなたがページを手に入れたら、私たちはそれらの情報を理解できなければなりません。 このコンテンツの目的と、それが提供するはずの目的を決定することが重要です。 これは、インデックス作成を含む 2 番目のステップです。」

上記の場合、Google は 2010 年に初めて導入された、いわゆるカフェイン インデックス システムを使用しています。カフェイン インデックスのデータベースには、数百万ギガバイトのページを保存できます。

ページは体系的に処理され、保持するコンテンツによって Googlebot によってインデックス登録 (および再度クロール) されます。 最初にモバイル クローラーを介して Web サイトにアクセスするのは、Googlebot だけではありません。 ただし、いわゆるMobile-First Indexing の更新に続いて、Web サイトのモバイル バージョンのコンテンツをインデックス化することも好みます。

モバイル ファースト インデックス作成とは正確には何ですか?

 Crawling and Indexing | SEO company in Mumbai | best SEO company | search engine optimization packages in mumbai | best seo agency in singapore

モバイル ファースト インデックス作成とは正確には何ですか?

モバイル ファースト インデックス機能は、2016 年に Google がモバイル版のコンテンツを主にインデックスして使用することを発表した後に初めて開始されました。

Google の公式発表では次のように明確にされています。

「モバイル ファースト インデックス作成プロセスでは、サイトのモバイル バージョンに関する情報を取得します。 そのため、Googlebot がすべてのコンテンツと利用可能なすべてのリソースを確認できるようにしてください。」

ほとんどの人がスマートフォンを使用して Web を閲覧しているため、Google がユーザーと「同様の方法で」Web ページを表示したいと考えるのは当然です。 これは、ウェブサイトの所有者に対して、ウェブサイトがモバイル フレンドリーでレスポンシブであることを保証するという明確な要求でもあります。

注意:モバイル ファースト インデックス作成は、Google がデスクトップ エージェント (Googlebot Desktop) を使用してウェブサイトをクロールし、両方のバージョンのコンテンツをチェックできないことを常に意味するわけではないという事実を理解することが重要です。

このセクションでは、理論的な観点から、クロールがインデックス作成であるという概念について説明します。

サイトのクロールおよび/またはインデックス作成プロセスで実行できる実際的な手順を調べてみましょう。

Google 検索を作成してサイトをインデックスに登録するにはどうすればよいですか?

 Crawling and Indexing | SEO company in Mumbai | best SEO company | search engine optimization packages in mumbai | best seo agency in singapore

どのように Google 検索を行い、サイトをインデックスに登録しますか?

Web サイトのクロールまたはインデックス作成の実際のプロセスの場合、検索エンジンにサイトをクロールさせる「直接的な指示」を提供することはできません。

シンガポールの最高の SEO 代理店の専門家が、サイトがクロールまたはインデックスされるかどうか、いつ、どのように制御されるかを制御するためのさまざまな方法を共有しています。

「自分の存在を Google に知らせる」という点で、どのような選択肢があるか見てみましょう。

1. 何もせず、受け身であり続ける。

技術的な観点からは、Google がサイトをクロールしてインデックスに登録するために何もする必要はありません。 必要なのは外部サイトからのハイパーリンクだけで、Googlebot はすぐに利用可能なすべての Web サイトのクロールとインデックス作成を開始します。

ただし、「何もしない」方法では、Web クローラーが Web サイトを見つけるのに時間がかかるため、サイトのページのインデックス作成とクロールが非効率になる可能性があります。

2. URL 検査ツールを使用して Web サイトを送信する

ウェブサイトのインデックス作成とクロールを「保護」する方法の 1 つは、 Google Search Console内の URL インスペクター ツールを使用して、ページのインデックス作成 (またはインデックス作成または再インデックス作成) の許可を Google に直接リクエストすることです

このツールは、新しい Web サイトを作成したり、既存のサイトに大幅な変更を加えたりして、できるだけ早くインデックスに登録したい場合に便利です。

手順は非常に簡単です。

  • Google Search Console に移動し、上部にある検索バーに URL を貼り付けます。 入力をクリックします。
  • Search Console にページの状態が表示されます。 リストにない場合は、インデックス作成を依頼できます。 既にインデックスが作成されている場合は、再度インデックス作成リクエストを行う必要はありません (コンテンツに大幅な変更を加えた場合)。
  • URL 検査ツールは、現在の URL がインデックス可能かどうかを判断できるかどうかを判断できます (数分または数秒かかる場合があります)。
  • テストが正常に完了し、テストが完了すると、Web サイトが優先クロール キューに追加されてインデックスが作成されたことを確認するメッセージが表示されます。 インデックス作成のプロセスは、数分または数日かかる場合があります。

3. オンライン マップを送信する

サイトマップは、クロールして検索エンジンにインデックス付けするページをリストしたXML形式の情報ファイルです。 サイトマップの主な利点は、エンジンによるサイトのクロールが容易になることです。

一度に膨大な数の URL を送信できるため、サイトのインデックス作成プロセス全体が高速化されます。

  • Google にサイトマップを知らせるには、Google Search Console を使用してもう一度行う必要があります。
  • Google Search Console > Sitemapsに移動し、ページ マップへのリンクをコピーします。 新しいサイトマップを作成します:
  • 送信後、Googlebot は最終的にサイトマップを検索し、提供されたすべてのウェブサイトをクロールする可能性があります (クロールやインデックス登録が妨げられていないことが前提です)。

4. 適切な内部リンクはありますか?

 Crawling and Indexing | SEO company in Mumbai | best SEO company | search engine optimization packages in mumbai | best seo agency in singapore

適切な内部リンクを設定していますか?

クロールとインデックス作成サイト内の適切に構成されたリンク構造は、Web ページをナビゲートしやすくするための優れた長期戦略です。 あなたは何ができますか?

答えは、フラットなウェブサイト構造を使用することです。 つまり、相互のハイパーリンクが 3 つ未満のすべてのページを作成します。

Webクローラーはすべてのページにすばやくアクセスできるため、適切に設計されたリンク構造により、インデックスに登録したいすべてのWebページを確実にクロールできます. これは、何千ページもの商品がある大規模な Web サイト (e コマースなど) の場合に重要です。

Google によるサイトのクロールとインデックス登録を停止するにはどうすればよいですか?

Googlebot によるサイトの特定の領域のインデックス作成またはクロールを停止する理由は多数あります。

例:

  • プライベート コンテンツ: (たとえば、検索結果に表示されるべきではないユーザーに関する情報)
  • 重複ページ: (例: 予算を節約するためにクロールしてはならない、および/または検索結果に複数回表示されるべきではない同じコンテンツを持つページ)
  • 空のページまたはエラーのあるページ: (たとえば、インデックスに登録する準備ができていない、または検索ページに表示する準備ができていない進行中のサイト)
  • ほとんどまたはまったく価値のないページ: (たとえば、検索に関連するコンテンツを提供しないユーザーによって作成されたページ)。

新しいウェブサイトを見つけることに関しては、Googlebot が非常に効率的であることは明らかです。 Google は次のように宣言しています。

クロールまたはインデックス作成を防止するために使用できるオプションを見てみましょう。

  • robots.txt を利用する (クローラーを締め出すため)

robots.txtは、Web スパイダーがサイトを閲覧する方法を直接説明するテキスト ファイルです。 Web クローラーは、サイトにアクセスすると、robots.txt ファイルが含まれているかどうか、およびその指示が何であるかを判断します。

クローラーは、このファイルの指示を読んだ後、指示に従ってサイトのクロール プロセスを開始します。

robots.txt ファイル内の「allow」および「disallow」ディレクティブを利用して、 Web クローラーに、Web サイトのどの部分をクロールして表示する必要があるか、およびどの Web ページを放置する必要があるかを通知できます。

以下は、多くの禁止コマンドを含むNew York Times のサイト robots.txt ファイルの例です。

  • たとえば、Googlebot がクロールしないようにすることで、Googlebot をブロックできます。
  • コンテンツが重複しているページ
  • プライベートページ
  • クエリ パラメータを含む URL
  • 内容の薄いページ
  • テストページ

このファイルからのディレクティブがないと、Web クローラーは、クロールされないようにしたい URL を含め、発見できるすべてのページをブラウズします。

robots.txt は、Googlebot がウェブサイトをクロールするのをブロックする便利な方法ですが、コンテンツを隠す手段としてこの方法に頼るべきではありません。

他の Web サイトが URL にリンクしている場合、Google はインデックス登録が許可されていない Web サイトを見つけることができます。 ウェブサイトが見つからないようにするために、ロボット メタ ディレクティブと呼ばれるより効果的な 2 番目の方法があります。

  • 「noindex」命令を使用するために利用します(インデックス作成を停止するため)

ロボット メタ ディレクティブ (メタ タグと呼ばれることもあります) は、Web ページの A セクションに埋め込まれた小さな HTML コードで、検索エンジンにページのクロール方法を指示します。

非常に一般的に使用されるディレクティブは、「index」ディレクティブ (コンテンツ属性に含まれる「index」値を持つ属性を持つロボット メタ ディレクティブ) として知られています。 検索エンジンがあなたのウェブサイトをインデックスし、あなたのサイトのページをSERPに表示するのをブロックします. こんな感じです:

  • 「ロボット」属性 「ロボット」属性は、コマンドがすべての Web クローラーに適用されることを示します。
  • この「no-index」ディレクティブは、ページにアクセスしてもらいたいが、インデックス可能にしたり、検索結果に表示させたりしたくない場合に特に役立ちます。
  • index 属性は、ページ上のハイパーリンクをクロールできるかどうかを検索エンジンに通知するために、次の属性やフォロー解除属性と一緒に使用されることがよくあります。

ページがインデックスに登録されているかどうかを判断するにはどうすればよいですか?

ページがクロールされてインデックスに登録されているかどうか、または Web サイトで特定の問題が発生しているかどうかを判断するには、いくつかの選択肢があります。

1.手で確認する

Web サイトがインデックス可能かどうかを判断する最も効率的な方法は、次の方法を使用して手動で確認することです。

サイトがクロールされ、インデックスに登録されている場合は、インデックスに登録されたすべてのページと、インデックスに登録されたページのおおよその数が [XY の結果について] セクションに表示されます。

個々の URL がインデックスに登録されているかどうかを確認する場合は、名前の代わりにこの URL を使用できます。 Web サイトがインデックスに登録されている場合は、検索結果に表示されるはずです。

2.カバレッジのインデックスステータスを確認する

インデックス (またはインデックスに登録されていないページ) ページをより詳細に分析するには、 Google の Search Console内でこのインデックス カバレッジ レポートを利用してください

インデックス カバレッジ レポートの詳細を含むグラフは、URL のステータスと、クロールまたはインデックスされたページに影響を与える問題の種類に関する重要な情報を提供します。

3. この URL 検査ツールを利用します。

この URL 検査ツールは、Web サイト上の特定の Web ページについて、最後にクロールした時点からの詳細を提供できます。

ウェブサイトが次のことを確認してください。

  • いくつかの問題があります(発見された方法に関する具体的な詳細を含む)
  • クロールされました。 すると、前回のクロールは途中でした。
  • ページがインデックスに登録され、検索結果に表示されるかどうか

ウェブサイトのクロール、Google によるインデックス作成、ランク付けをすべて回避したい場合は、ムンバイの検索エンジン最適化パッケージをチェックしてください

結論

クロール可能性とインデックス可能性を強化することは、サイトの全体的な SEO を改善する優れた方法です。 この記事が好きで、もっと読みたい場合は、次のブログをご覧ください。
コンテンツ マーケティング: 2022 年のコンテンツ マーケティングの利点と最良の戦略.