什麼是規範標籤以及如何使用它
已發表: 2022-04-17- 定義和含義
- 術語、注意事項和應避免的錯誤
- 實施程序
- HTML 標記
- HTTP 標頭
- 其他信號:站點地圖和內部鏈接
- 效果及SEO案例
- 如何分析或審核規範標籤
- 探索源代碼
- Chrome 開發者工具
- 在 Google 搜索控制台上
- 如何使用 SISTRIX Toolbox Optimizer 分析規範標籤
- 爬取和檢測警告
- URL 瀏覽器:分析單個 URL
- 專家模式
定義和含義
規範標籤是我們用來讓 Google 知道我們網站上的 2 個或多個 URL 重複、相似或相同的 HTML 元素。
這個標籤允許我們“選擇”多個 URL 中的哪一個應該顯示在 SERP 中,以幫助 Google 決定最終應該在結果中顯示哪個頁面。 換句話說,我們正在向 Google 提供一個信號,指示要編入索引的首選版本。
除了加強這個索引信號之外,它還整合了我們從原始 URL 指向目標規範 URL 的內部鏈接。
關於重複的內容和業內流傳的各種神話,沒有比引用來自谷歌本身的官方資料和參考資料更好的方式來澄清它:
“伙計們,讓我們一勞永逸地解決這個問題:沒有所謂的“重複內容懲罰”。 至少,不像大多數人說的那樣。 您可以通過避免重複內容處罰的神話來幫助您的網站管理員!”
蘇珊·莫斯卡
https://webmasters.googleblog.com/2008/09/demystifying-duplicate-content-penalty.html
“重複內容通常是指域內或跨域的實質性內容塊,它們要么完全匹配其他內容,要么明顯相似。 大多數情況下,這在起源上並不具有欺騙性。”
谷歌
https://developers.google.com/search/docs/advanced/guidelines/duplicate-content
術語、注意事項和應避免的錯誤
以下是有關規範指令的主要注意事項以及指定它的方法:
- 規範可以是自引用的,尤其是在主頁上,因為它可以具有由 CMS 或服務器本身生成的多個訪問點(例如 index.html)。
- 只要有兩條內容相似、重複,或者換句話說,完全或部分相同,就必須使用規範。 否則,可以忽略此標記。
- 規範必須指向可索引的 URL,返回 200 OK 並且不帶有noindex標記。 值得一提的另一件事是,我們不應該將規範發送到不相關的 URL,因為它將被解釋為軟 404。
- 每個 URL 應該只有一個唯一的規範。 如果有兩個不同的規範標籤,它們可能會發生衝突,最終都會被忽略。
- 規範可以使用絕對和相對 URL。 但是,重要的是要指出相對 URL 容易出錯和疏忽。
- 如果在拼寫或其他無意錯誤方面存在明顯錯誤,則可以忽略規範標籤。 可能還有其他信號,將對其進行分析以確定是否應該尊重或忽略規範標籤。
- 如果我們發送令人困惑的信號,也可以忽略規範標記,例如從 url1 引用規範到 url2,然後從 url2 到 url1。 發生這種“循環”可能會導致意外行為。
- 規範可以是跨域的,即從域1 指向域2。 當我們可以控制兩個域並且我們希望對一個域進行索引而不是另一個域以防止重複時,應該使用它——最好是。 對此要謹慎。
- 另一個示例可以是內容聯合。
如果它解決了頁面之間重複內容的情況,我們必須處理的一些最典型的情況是:
- 帶 www 的 URL 與不帶 www 的 URL
- 帶有 http 的 URL 與帶有 https 的 URL
- 以 / 結尾的 URL vs 不以 / 結尾的 URL(不包括主頁)
- 帶參數的網址與不帶參數的網址(如帶有會話 ID 的網址)。
- 有分頁的網址與沒有分頁的網址
- 帶 AMP 的 URL 與不帶 AMP 的 URL(作為必需的標記)。
- 移動 URL(m 站點)與桌面 URL
- Pre (staging) URLs vs prod (production) URLs
- 等等。
儘管所有這些情況都可以使用規範標籤來解決,但谷歌還有另一種更直接的方法: 301 重定向。
您將閱讀大量 301 和規範標籤比較。 我們不會深入研究它,但我們將在下圖中強調有關此問題的最重要的幾點:

使用這個視覺摘要,我們想要突出顯示以下內容:
- 301重定向合併了兩條內容,這意味著原始內容不復存在。 它是直接的,100% 緊隨其後的是谷歌(和用戶)。
- 規範,它的作用是允許我們為任何渠道保留各種可用的 URL,如果 Google 尊重該指令,則只有規範化的 URL 將被編入 SEO 頻道的索引。
- 兩者都可能涉及信號稀釋,並且當我們不使用 301 重定向時,它可能會產生更顯著的影響,因為規範化的 URL 可以具有指向它們的內部和外部鏈接,迫使我們在多個 URL 之間分配工作。
實施程序
有幾種方法可以實現規範標籤:
HTML 標記
實現規範的最常見方法是在每個 URL 的 <head> 中放置一個帶有屬性 rel=”canonical” 和規範版本的絕對路徑的鏈接元素。 這是正確的語法:
<link rel="canonical" href="https://www.sistrix.com/ask-sistrix/what-is-the-canonical-tag-and-how-to-use-it/" />
HTTP 標頭
此方法通常用於非 HMTL 頁面。 例如:PDF、XML 或 TXT 文件。
當我們同時擁有 PDF 和匹配的 HTML 頁面時,這是使用的典型方法。 通過規範,我們可以向 Google 展示我們希望 HTML 頁面進行排名。
儘管如此,考慮到可能存在的各種不同情況,我們推薦這篇文章,通過 .htaccess 文件介紹更多技術實現。
<Files "seo-guide.pdf"> Header add Link "< http://www.sistrix.com/seo-guide/ >; rel=\"canonical\"" </Files>
其他信號:站點地圖和內部鏈接
在這種情況下,我們不打算實現規範指令,但我們暗示,這個 URL(與其其他版本相反)是原始 URL,並且它具有更多的權重和價值。
像向站點地圖添加 URL 或從網站導航鏈接 URL 這樣簡單的事情已經具有默認和隱含的重要性,因此我們幾乎發送了一個關於此 URL 版本對我們的重要性的 SEO 信號。 如果我們自相矛盾或有其他模棱兩可或不確定的信號,我們將違反SEO 的簡單法則:不要讓谷歌變得比現在更複雜。
- 使用規範的 2 個重複 URL,原始 URL 將包含在站點地圖中,規範化的 URL 不會。
- 對於 2 個重複的 URL,使用規範,原始 URL 將被突出鏈接,規範化的 URL 不會(儘管這並不總是可能的,並且規範化的 URL 可能有一些指向它的鏈接)。
效果及SEO案例
使用 canonical 最大的影響是,一旦被 Google 尊重,canonical 標籤所指向的 URL 就可以被索引,並且發布 canonical 的人會下台犧牲自己,讓更多的原創內容獲得索引。
另一方面,如果發布規範的 URL 在導航結構中的某處接收到內部鏈接, Google 將能夠抓取該頁面並在其上投入時間。 這應該讓我們認真考慮我們結合使用 Robots.txt(甚至是“noindex”)和規範。 如果我們想節省抓取預算,我們可能會阻止 Google 了解重複項及其規範所在的位置。
說到更特殊的情況,我們可以指定更多:
- 被動參數:作為預防措施,與 Google Search Console 的參數管理結合使用。 但是,這些參數用於標記活動(付費、電子郵件、社交……)。
- 活動參數:語言、過濾器。 這裡的關鍵是要確定哪些具有我們可以定位的最少原始內容,此外還要確定它們是否響應搜索意圖。 其他問題可能是內部鏈接和通過這些過濾器的內部鏈接浪費權限。
- 分頁:關於分頁的當前場景本身仍然是一個爭議。 谷歌刪除了 rel prev rel next 指南,現在 SEO 界正在爭論我們是否應該使用 noindex、第一頁的規範、無限滾動或 AJAX 等動態技術來維護用戶的功能而不生成新的頁面/鏈接,視情況而定。 這根本不是一個微不足道的決定。
- 具有相似屬性(顏色、尺寸)的產品頁面:與我們所說的過濾器類似,我們需要確定它們的內容何時不是最低限度的原始內容,並且我們需要知道它們是否響應搜索意圖。 我們應該牢記“不被搜索的不應該被索引”的規則。
如何分析或審核規範標籤
現在,我們開始討論如何識別或審核規範標籤。 我們有適合每個人喜好的方法:

探索源代碼
訪問該頁面並右鍵單擊頁面上的任意位置以顯示帶有“查看頁面源”選項的菜單(如果您使用的是 Windows,則為 Control + U;如果您使用的是 Mac,則為 CMD + Alt + U)。

進入後,在 Windows 上按 Control + F 或在 Mac 上按 CMD + F 以在代碼中搜索。 鍵入“canonical”,以便標籤以不同的顏色突出顯示(如果存在)。 比較其內容並確定該值是否已正確定義。
Chrome 開發者工具
使用 Chrome,我們可以打開我們要分析的網站,右鍵單擊屏幕,然後點擊“檢查”。 這將打開開發人員工具,我們可以在其中使用 Control + F 或 Cmd + F 搜索標籤,就像我們在前一點中所做的那樣。

頁面源代碼和檢查器的主要區別在於,第二個已經渲染了頁面,我們在這個過程(包括 JavaScript 的執行)完成後看到了內容。
或者,我們可以使用控制台,方法是轉到“控制台”選項卡並輸入以下命令:
$$('link[rel="canonical"]')[0]

在 Google 搜索控制台上
Google Search Console 提供了不同的方法來分析或審核規範標籤。 一種方法是轉到“覆蓋率”報告,我們可以在其中分析導致將某些 URL 從其索引中排除的任何事件。 在這個“排除”部分,我們有時可以找到與規範標籤相關的情況,包括正確和不正確的情況(正確和錯誤解釋)。 毫無疑問,這是開始拉扯線索的完美方式,有助於我們發現問題。

另一方面,我們有URL 檢查工具,它可以提供有關單個 URL 的規範標籤的見解。 我們可以請求它抓取它們並返回它們的狀態,尤其是當我們的指令與 Google 選擇解釋的內容之間存在差異時。

如何使用 SISTRIX Toolbox Optimizer 分析規範標籤
有幾種方法可以使用 SISTIX Toolbox Optimizer 分析規範。
爬取和檢測警告
作為一個爬蟲,Optimizer 將訪問您的網站以識別改進機會、錯誤和其他方面,您將以簡單和直觀的方式獲悉,因此您不必浪費時間處理數據。 這是一個與規範標籤相關的示例,優化器會通知您(如果您犯了錯誤):

URL 瀏覽器:分析單個 URL
此功能類似於 Google Search Console 的 URL 檢查工具,這意味著您將能夠評估在優化器項目中抓取的各個 URL 並查看該特定 URL 的信息。

如您所見,我們可以分析與此 URL 相關的所有頁面方面,包括入站和出站內部鏈接、服務器信息、SEO 標籤,您還可以在這裡找到規範的實現,這是手頭的主題.

專家模式
通過進入專家模式部分,我們可以訪問我們所有項目的抓取 URL,並使用多個過濾器來優化我們的搜索。 在下面的示例中,我在其 URL 中包含了包含 /products/ 但不屬於 /en_gb/ 市場的 URL。

此外,我們還可以配置表格列以顯示我們更感興趣的字段。在我的示例中,我選擇顯示狀態代碼、深度級別、內部鏈接、元機器人和規範,但我們也可以添加 -by 簡單檢查他們的框——標題、描述、H1、大小、內容類型等。
