谷歌抓取統計報告與日誌文件分析:誰是贏家?
已發表: 2020-12-2211 月 24 日,Google 發布了新版本的 Search Console Crawl Stats 報告。 此更新為您提供可用於調試爬網問題和檢查站點運行狀況的數據。
以前的版本只表示每天爬取的頁面數,每天下載的千字節,每天下載頁面所花費的時間。
在這個新版本中,相同的信息具有更新的外觀和風格,以匹配 Search Console 的其餘部分:
但它並不止於此。 谷歌提供了更多關於他們如何抓取你的網站的信息。 有了這麼多直接從 Google 獲得的信息,這就引出了一個問題:我們還需要日誌文件嗎?
讓我們先看看新報告本身。
您需要了解的有關 Google Search Console 抓取統計報告的所有信息
在哪裡可以找到新的抓取統計報告?
擁有 Google Search Console 帳戶的任何人都可以自動使用新的抓取統計信息報告。
登錄 Search Console 並導航到左側邊欄中的“設置”。 然後點擊“抓取統計”。
新的抓取統計報告中有什麼內容?
為了幫助您在廣泛的新信息中找到自己的方式,我們推薦 Tomek Rudzki 在 Twitter 上的演練:
新的 GSC 抓取統計數據很棒!
第一張截圖與之前版本的報告類似,但在其他報告中有隱藏的寶石
1/n pic.twitter.com/oCNzMhnGsQ- Tomek Rudzki (@TomekRudzki) 2020 年 11 月 24 日
Tomek 重點介紹了每個新數據和 SEO 用例:
- Googlebot 點擊次數最多的主機:查找 Google 最常抓取的子域。
- 返回給 Googlebot 的狀態代碼:了解非 200(即:重定向、丟失頁面和錯誤)響應使用了多少百分比的抓取預算。
- 文件類型:了解 Googlebot 請求 CSS 文件、JavaScript 文件和圖像等資源文件的頻率。
- Googlebot 訪問的目的:了解 Google 是在發現新內容還是在更新它已經知道的內容。
- 智能手機 Googlebot 發出的請求與桌面 Googlebot 發出的請求之間的區別:確認您的網站是否已準備好在 2021 年 3 月全面轉向移動優先索引。
- 抓取的 URL 示例:了解您網站上最近抓取的一些 URL。
- 主機狀態:顯示您的服務器最近是否出現問題的新指標。 例如,這會考慮 robots.txt 的可用性和 DNS 解析。
關於抓取統計報告,我們最喜歡的三件事
Crawl Stats Report 提供了太多好處,無法全部列出,尤其是在您無權訪問日誌文件的情況下。 但這是我們的前三名:
1. 本報告適用於所有人。
它提供易於閱讀的高級 Googlebot 抓取統計信息。 什麼時候做得好,什麼時候有問題需要解決,這一點很清楚。 在某些情況下,它甚至更進一步:例如,它提供主機狀態的綠色/黃色/紅色狀態指示器等提示。
即使您不熟悉 bot 和爬網預算跟踪,在查看這些報告時也不應該迷失方向。
2. 文檔很棒。
該文檔不僅回答了您 99% 的問題,而且還提供了有關服務器運行狀況、危險信號、抓取頻率管理和基本 googlebot 爭論的最佳實踐和提示。
3. Googlebot 請求背後的“原因”數據
我們可以跟踪 Googlebot,但關於 Google 為什麼訪問頁面的許多結論必須基於有限的數據得出。 “按目的抓取”部分和“頁面資源加載”下可見的呈現請求為我們的一些問題提供了明確的答案。 我們現在可以確定 Google 是在發現頁面、更新頁面還是在單獨的第二遍下載資源以呈現頁面。
[案例研究] 管理 Google 的機器人抓取
日誌文件中可用的信息和抓取統計報告中的信息有什麼區別?
抓取統計信息僅限於 Googlebots
抓取統計:0
日誌:1
您的服務器的日誌文件記錄了對構成您網站的任何文件和資源的每個請求,無論它們來自誰。 這意味著日誌可以告訴您的不僅僅是 Googlebot。
但是,Google 的抓取統計報告(自然!)僅限於 Google 自己在您網站上的活動。
以下是您可以從未顯示在 Crawl Stats 中的日誌文件中獲得的一些見解:
- 有關其他搜索引擎的信息,例如 Bing。 您可以查看他們如何抓取您的網站,還可以查看他們的行為與 Googlebot 的行為有何不同或一致:
Logflare 非常有用。 在實時日誌中看到 Googlebots 與 Bingbots 不同的抓取行為很有趣。 Googlebot 看到 301,然後返回的下一個 URL 是重定向到的 URL,但 Bingbot 似乎沒有這樣做。 只是看到301然後去別的地方
——黎明安德森 (@dawnieando) 2020 年 1 月 22 日
- 有關哪些工具(和競爭對手)正在嘗試抓取您的網站的信息。 由於可用信息不僅限於 Googlebot,因此您還可以查看您網站上是否有其他機器人處於活動狀態。
- 有關引用頁面的信息。 這可以幫助您找到有關最活躍反向鏈接的更多信息。 在 HTTPS 中,訪問的最後一個頁面或“引用頁面”也會記錄在每個請求中。
- 有關自然流量的信息……而不僅僅是來自 Google 的流量! 使用引用頁面,您可以識別來自搜索引擎結果頁面的流量,並更好地了解這些訪問者如何與您的網站互動。 如果您使用此類信息,可以使用此類信息來確認或更正您的 Analytics 解決方案提供的數字。
- 孤立頁面的識別。 由於您的日誌包含訪問者請求的所有 URL,因此您的網站結構中未鏈接到的任何具有機器人或人工流量的“活動”頁面都將顯示在您的日誌中。 通過將日誌文件中的 URL 列表與爬網中的站點結構中的 URL 列表進行比較,很容易發現孤立頁面。
完整且最新?
抓取統計:0
日誌:2
您的數據是否完整且最新? 你的日誌是。 你的抓取統計數據可能是。
許多人很快注意到 Google Search Console 報告和他們的日誌文件之間存在 20-40% 的差異:Crawl Stats 報告目前低估了 Googlebot 的活動。 這是 Crawl Stats 中的一個已知問題,但不在您的日誌中!

此外,與 Search Console 中的所有信息一樣,數據的最後可用日期與今天的日期之間可能存在滯後。 到目前為止,我們已經在抓取統計報告中看到了長達八天的差異。
另一方面,您可以使用日誌文件進行實時監控:絕不會有延遲!
已抓取 URL 的匯總與完整列表
抓取統計:0
日誌:3
Crawl Stats 為您的所有 URL 提供匯總數據。 該報告相當於一個儀表板。 當您查找給定指標背後的 URL 列表時,您會看到“示例”列表。 例如,您可能有數百個 4.56K 圖像文件請求示例:
但是,在日誌文件中,您擁有任何指標背後的 URL 的完整列表。 您可以在日誌中看到所有請求,而不僅僅是示例。
過濾地區、日期、URL……
抓取統計:0
日誌:4
為了真正有用,Crawl Stats 可以受益於適用於所有請求的更廣泛的過濾器,而不僅僅是樣本:
擁有更大的靈活性會很棒:
- 更改我們正在查看的日期範圍
- 通過 IP 查找關注給定的地理區域
- 更好地按 URL 組過濾
- 將過濾器選項應用於圖表
您可以在日誌文件中完成所有這些——甚至更多。
Googlebot 特定信息
抓取統計:1
日誌:4
正如我們所見,Google 使用抓取統計報告來提供有關其抓取目的的信息:
- 刷新與發現
- 頁面資源(二次提取)
無論您如何巧妙地查看日誌文件中的數據,這些信息都無法在其他任何地方找到。
容易接近
爬行統計:2
日誌:4
訪問 Crawl Stats 報告很簡單:任何有權訪問 Search Console 的人都可以自動使用 Crawl Stats。
從技術上講,日誌文件也應該可供任何網站管理員使用。 但通常情況並非如此。 開發團隊、IT 團隊或客戶公司通常不了解提供對日誌文件的訪問權限的重要性。 在歐盟等地區,隱私法限制訪問“個人身份數據”(如 IP 地址),訪問日誌文件可能會帶來法律問題。 您可以使用不存儲敏感信息的某些工具,例如 OnCrawl。
一旦您可以訪問日誌文件,就有分析數據的免費工具,而且專有格式很少。 換句話說,日誌文件是一個非常民主的數據來源……一旦你掌握了它們。
這是事實:許多 SEO 無法訪問日誌。 因此,雖然從理論上講,日誌文件可以輕鬆訪問數據,但這一點的重點在於抓取統計報告,點擊兩次即可從 Google 的免費工具中獲得該報告。
Oncrawl 日誌分析器
(尚未)可用於集成到其他工具和分析中
爬行統計:2
日誌:5
Google Search Console 允許您通過 Crawl Stats Report 的 Web 界面導出和下載可用信息。 但是,這意味著下載的信息與屏幕上的版本具有相同的限制。
此外,Crawl Stats (還沒有?)可通過 API 獲得,因此很難將這些信息連接到自動化流程以進行報告和分析,甚至很難將其備份以獲取更廣泛的歷史數據視圖。
對於日誌文件,存儲、訪問和重用通常取決於您。 這使得日誌文件在與排名跟踪、爬網數據或分析數據等其他數據源合併時更易於使用。 它們也更容易集成到報告、儀表板和數據可視化流程中。
最終獲勝者:日誌文件!
Crawl Stats 報告只有 5 分到 2 分,如果您想全面了解搜索引擎如何與您的網站交互,日誌文件顯然是贏家。
但讓我們明確一點:升級後的 Crawl Stats 報告提供了許多新信息:狀態代碼、文件類型、子域(用於域屬性)、主機狀態詳細信息等等。 它為您提供更精細的見解和可操作的數據,以了解您的網站是如何被抓取的,現在,您可以跟踪抓取模式的變化。
對於無法訪問他們或他們客戶的日誌文件的人來說,這將是一個巨大的進步。
然而,這並不是所有的優點!
新 GSC 抓取統計數據的優缺點:https://t.co/bjpG7QjeVt
優點:
+升級的數據指標
+更好的用戶體驗(低酒吧 TBH)
+抓取的網址的可下載數據!
+抓取請求故障
+注意到重要的主機問題缺點:
- 沒有日期範圍的過濾器
- 沒有過濾器選項來改變圖表— Micah Fisher-Kirshner (@micahfk) 2020 年 11 月 24 日
新報告的缺點是,雖然它是 Googlebot 監控的一個很好的儀表板,並且是補充日誌文件分析的一個很好的補充,但它在很多方面都受到限制。 不要忘記,只有您的日誌文件會向您顯示每個 URL 的所有請求,而不是匯總趨勢。
此外,GSC 報告中存在一個已知問題,其中一些請求目前未計算在內,並且在撰寫本文時,數據可能需要長達一周的時間才能出現在 Crawl Stats 報告中。 (但是,我們相信 Google 正在解決這些問題,它們很快就會消失!)
以下是我們的建議:使用此報告可以準確了解要在日誌文件中查找的內容。 然後深入您的日誌分析!