Vincent Terrasi:有用的內容更新的重要性

已發表: 2022-08-26

什麼是有用的內容算法更新?

上週,谷歌宣布發布一項算法更新,旨在通過推廣目前正在發布的有用內容來提高搜索結果的質量。 此更新最初將僅適用於英語網站,如果該網站包含大量無用內容,則可能會使整個網站的內容貶值。

與 EAT 一樣,“有幫助”的概念無法通過具體指標輕鬆量化。 該算法依靠機器學習來識別無用的內容。

專門從事 EAT 和算法更新的經驗豐富的 SEO 已經詳細分析了已知內容以及如何對有用的內容更新做出反應。 Marie Haynes、Glenn Gabe 和 Lily Ray 的分析值得一讀。

為了進一步討論,我與 Oncrawl 的產品總監兼數據 SEO 專家 Vincent Terrasi 進行了交談,他專注於機器學習和 BERT 和 GPT-3 等語言模型。

文森特·特拉西的採訪

Vincent-Terrasi

“我們可以將純 AI 內容識別為不自然,因此會受到懲罰。 但另一方面,在有用內容的概念背後,還有另一個主題會對所有基於 SERP 的新語義工具產生負面影響。 谷歌終於能夠檢測到過度優化,我的意思是,有人會逆向設計完美的足跡以在谷歌中排名。”

內容分析和過度優化檢測:有用的內容更新將真正改變什麼

麗貝卡:我一直在想你在 Tech SEO Boost 2019 上獲得第二名的工作中的各種元素,在那裡你談到了 SEO 的文本生成、影響和危險。 我們還討論了這個話題,特別是當谷歌發布 BERT 時,討論了接下來的步驟以及他們如何能夠通過機器學習來概括文本分析。 在這種情況下,它有點像分類,然後是語義分析。 這也是你從中得到的東西嗎? 這次更新讓你吃驚嗎?

文森特:是的,這就是我在 SEO Boost Tech 上宣布的:他們 [Google] 將追求這類內容。

我一直在告訴對 Oncrawl 文本生成感興趣的客戶,為什麼他們必須小心生成的內容。

在談論 AI(人工智能)生成的內容時,您必須小心。 通過有用的內容更新,我們根本不是在談論手動操作,即使它看起來像是會導致手動操作的類型。 您可能已經看到了一些關於 AI 生成網站的最新消息,我肯定會將其歸類為手動操作。 這是三個月前的事了:有一些網站說他們每月可以賺 10 萬美元。 他們都被取消索引了。 這些是手動操作。

現在,有一個機器學習模型的更新,它能夠識別它是否是非增值文本。 所以我寧願不談論人工智能,而是談論有或沒有非增值內容的網站。

麗貝卡:是的,谷歌確認這與手動操作無關。 有趣的是,在這種情況下,谷歌明確表示它是機器學習,並且幾乎一直在運行。 因此,在接下來的幾個月中,受影響的站點可能會被重新分類……或不被重新分類。

文森特:我將在 9 月與 Christian Meline 在巴黎 SEO 營的會議上討論這個問題,因為這是我們五個月前確定的。 你可以想像? 我們已經確定谷歌發生了一些事情。

總的來說,有兩個主題:

有人工智能生成的內容的主題。 我們可以說垃圾內容很容易識別,因為 AI 會自我重複。 如果你把它分解成三個、四個、五個單詞的詞組,你會看到它重複相同的短語。 這很容易被發現。 您不需要進行機器學習。

另一方面,機器學習部分是下一個單詞出現的概率實際上非常穩定。

麗貝卡:是的,我們在為您的培訓課程工作時也談到了這一點。 在 Oncrawl 內部,這導致目前正在進行的工作是為生成的文本的質量創建一個評分系統,以便找到太容易識別的內容。

文森特:沒錯。

我們可以將純 AI 內容識別為不自然,因此會受到懲罰。 所以這是第一個問題。

但另一方面,在有用內容的概念背後,還有另一個主題會對所有基於 SERP 的新語義工具產生負面影響。

谷歌終於能夠檢測到過度優化,我的意思是,有人會逆向設計完美的足跡以在谷歌中排名。 在這裡,我們在法國擁有強大而有才華的球員,他們尚未對新聞做出太大反應:Freres Peyronnet、1.fr、SEO Quantum 等。他們直接關注過度優化的問題。 他們直接受到此更新的影響。

麗貝卡:讓我們以您的網站 transfer-learning.ai 為例,它更像是一個沙盒來測試我們是否可以對完全生成的內容進行排名,同時添加一些今天不存在的東西(在這種情況下,學術研究和培訓課程之間的鏈接相關的機器學習主題)。 在您看來,這種事情還有可能做嗎?

文森特:如果它帶來了原創性並且沒有被檢測為垃圾郵件,是的,總是可以做這種事情。

但是,如果它被認為沒有幫助,那麼它將是不可能的。

此外,我想明確提醒法國創作者:我們正在談論英語。 我們知道,英語的推出可以持續數月,通常是一年。 當我們回顧像熊貓或企鵝這樣的舊的大規模核心更新時,它們在某些情況下持續了幾年。 我認為有些人會利用這段時間繼續練習垃圾郵件技術。 然後谷歌會介入。

在我與 Christian Meline 的演講中,我要討論的是,與其提出谷歌已經擁有但它不感興趣的主題,我們能夠使用新技術來幫助我們提出新的主題。

我給你舉個例子。 如果我測試所有 SEO 工具並使用 GPT-3 或在諸如 yourtext.guru 之類的法語工具中生成主題創意,我將獲得 40 個創意。 如果我使用 Christian Meline 的技術,我會得到 4,500。 其中一些甚至是以前從未使用過的主題,甚至不在谷歌中。

你認為谷歌會更喜歡什麼? 擁有它已經知道的內容,或者擁有從未有人研究過的非常有趣的主題?

我認為這就是 SEO 的未來:能夠檢測新事物。 我知道 Koray 也在朝著這個語義方向發展。

Rebecca:是的,從分析內容差距或空白的意義上講,您可以建立專業知識,因為它是一個主題的那些語義領域,根本沒有得到解決。

文森特:沒錯。 另一方面,我認為此更新不會立即執行此操作。 將有版本 1、版本 2,依此類推。 但本次更新的最終目標是做到這一點。

[案例研究] 管理 Google 的機器人抓取

1001Pneus 擁有超過 26,000 個產品參考,需要一個可靠的工具來監控他們的 SEO 性能,並確保 Google 將其抓取預算用於正確的類別和頁面。 了解如何使用 OnCrawl 成功管理電子商務網站的抓取預算。
閱讀案例研究

其他語言和其他媒體:如何部署此更新?

Rebecca:你之前提到了英語和法語等其他語言的區別。 我們在翻譯、與語言無關的處理方面取得了長足的進步,就像 MuM 一樣。 你認為這個更新真的需要這麼長時間才能轉移到其他語言嗎?

文森特:坦率地說,我自己也做過一些工作。 我沒有谷歌的技術,我不了解谷歌,但我從未見過需要運行這麼長時間的算法。 這意味著對於一個 300 字的段落,大約需要十秒鐘。 這是一個永恆。 通常我們談論的是 TF-IDF 計算、詞嵌入……這需要一秒鐘。 換句話說,這種類型的算法部署起來相當繁重。 現在我知道谷歌有技術,他們有 TPU,他們有超級聰明的工程師,但我認為他們在使用語言模型時會有這個限制:你必須加載語言模型。 當有 2000 億個參數時,它可能會受到傷害。

有趣的是,它與 HuggingFace 上的文本生成模型發布的時間差不多。 所以我認為,沒有人可以肯定地說,但這就是他們檢測的依據。 事實上,他們發布了一個文本生成模型來檢測文本生成。 正如他們所說,谷歌正在以火攻毒。

麗貝卡:是的,這就是它的工作原理,對吧? 在檢測自動文本時總是這樣。 我們使用我們所知道的關於它的構建方式來檢測它。

文森特:但讓我印象深刻的是提供 SERP 指紋的 SEO 工具。 谷歌現在說,“我們有足跡,我們將能夠判斷你是否受到它的啟發。” 沒有人知道他們是怎麼做到的。 我知道其他 SEO 工具是如何做到的,但他們 [Google] 是如何做到的呢? 沒人知道。

麗貝卡:實際上,對我來說突出的另一件事是它是一個站點級別的分析,然後對於每個站點,如果我們真的在談論非常高級的概括,那麼分配的有用或無用內容的“價值”到可能影響該網站上其他內容的網站。 這是大量的個人分析,以及大量的信息存儲。 因此,即使只是處理或重新處理它,也需要很多時間。

文森特:我認為這是他們的限制。 他們已經宣布他們只在谷歌搜索而不是谷歌發現上這樣做。

這有點自相矛盾,因為在 Google Discover 上,每個人都在作弊,每個人都在優化“SEO”內容,只是為了進入 Google Discover。 我認為他們現在在 Google 搜索和所有這些自動生成的內容方面存在很大問題。 有些網站在自動生成內容方面做得太過火了。

他們不是在談論點球,所以他們有點像用 Google RankBrain 來旋轉這個,作為一個新的信號。

how-search-engines-work

並非所有網站都會受到影響。 我特別想到了帶有所有產品描述的電子商務網站。 我們知道每個人都在互相抄襲。

Rebecca:是的,根據生產商和品牌的官方描述創建變體。

文森特:是的。

但一些媒體網站的風險更大。 有一個現像在 SEO 中早已為人所知。 例如,一些網站採用英文內容並翻譯它而不增加任何價值。 沒有人談論它,但是這種類型的網站存在重大風險,因為它沒有添加任何內容,而且最重要的是,它們存在不引用來源的缺陷。

麗貝卡:他們也會有英文的原始內容來進行比較。

文森特:是的,我們通過這次更新從英語轉向法語的階段可能會傷害許多垃圾網站。

在過去幾個月的所有 SEO 新聞中,這是最重要的更新。 RankBrain 也是如此,我們可以說,但要指出的要少得多,很難看出其應用的實際結果是什麼。

Rebecca:我認為它實際上很接近,與語義分析的概念以及與網站其餘部分無關的網站部分。

文森特:沒錯。

我知道他們已經為此工作了一段時間。 我有一個朋友在谷歌工作,他說他從 2009 年就開始做這個了。 在這方面有兩個研究小組。 他們現在正試圖實時進行,他們將進行大量清理工作。

但是我們仍然對實施情況知之甚少。 他們將如何做? 有信號嗎? 那些作弊的人的索引會不會那麼好? 除了約翰·穆勒,沒有人能回答這個問題。

麗貝卡:我什至懷疑他會被允許這樣做。 我想他們會堅持他們的路線:“為用戶創建有用的內容,而不是為搜索引擎,你不會有問題。”

文森特:在推特上,他被關於這個話題的問題轟炸了,他的回答有點寬泛。

JohnMu Twitter_Helpful content

資料來源:推特

對未來內容創作的影響

麗貝卡:我對此並不感到驚訝。 我想他可能沒有任何更具體的信息。 而且即使他這樣做,也必須絕對禁止談論算法。

無論如何,我非常渴望開始查看與此更新相關的專利,並在一年、兩年內對專利進行重新分析,看看那裡有什麼,以及稍後是否有任何使用跡象。 但這是另一個話題。

文森特:為了準備我在 9 月份的會議,我列出了我們如何識別優質內容和有用的內容。 我根據克里斯蒂安·梅林(Christian Meline)[三年] 前就該主題撰寫的 journaldunet(法語)上的文章。 他的內容仍然是完全相關的。 另一方面,他不依賴機器學習。 他討厭它,所以這些是基本的、有用的指標:標題寫得好嗎? 有沒有拼寫錯誤? 它提供新知識嗎? 很少需要機器學習來完成的事情。

麗貝卡:這種類型的建議將非常重要,因為大多數 SEO 不一定有資源、數據、時間或只是實施機器學習的技能,能夠分析他們的網站,知道是否有落入或不落入的風險。

文森特:沒錯。 我們必須非常非常密切地關注這一點。

此外,我們必須非常小心我們所說的話。 我們必須用條件時態說話。 沒有人能確定這一主題。

麗貝卡:那是肯定的。 我們只有非常高層次的東西,也就是說我們沒有證據,沒有線索,沒有信息。 很明顯,我們能說的不是結論,而是理論。

文森特:沒錯。

這是我設置的起點:

  • 分析標記以查看重複:識別何時過度,何時只是為了排名。
  • 然後是我之前提到的單詞之間的概率。
  • 最後一個,詞組。

僅通過這三個組合,我就可以檢測出 90% 的 AI 生成文本,這些文本還沒有經過人工優化。 所以想像一下谷歌能做什麼! 這令人興奮。

Rebecca:所以我們絕對應該和 Christian 一起參加 9 月 23 日的 SEO Campus 會議。

文森特:是的,我們想把有用內容的主題分開一點。 有趣的是:甚至在 Google 開始談論更新之前,我們就已經計劃好了。

我也喜歡這個話題,因為我非常注重生態。 知道有這樣的控件可以防止人們發送垃圾郵件,這讓我感覺更好。 因為它花費了我們難以想像的資源。

麗貝卡:是的,確實如此。 通過這次更新,每個人都在密切關注。 我認為那些認為這不會改變任何事情的人是錯誤的。 我們可以看到,它不僅會改變我們創建內容的方式,還會改變 Google 評估內容的方式。 這些是我們以前從未見過的策略。

文森特:沒錯。 事實上,如果你想採取極端的立場,谷歌是不會評估內容的。 這是一個巨大的弱點。 它過去只是索引和排名。 現在他們將過濾上游。 這就是必應批評谷歌沒有做的事情。

麗貝卡:是的,大部分[內容]分析都是在排名時進行的。

文森特:沒錯。 現在它似乎有一個小過濾器。 我同意你的看法:我迫不及待地想看到這方面的專利。 他們將不得不透露他們放置過濾器的位置。 你敢打賭他們把過濾器放在哪裡? 索引之前、之後還是排名之前、之後? 你會把它放在哪裡?

麗貝卡:既然你必須擁有大部分網站才能做到這一點,我會說......

文森特:不要忘記,正如我們所討論的,您需要 SERP 的足跡來建立索引。 所以你必須索引它們。

麗貝卡:是的,這就是我要說的。 我認為這應該是一個額外的步驟,我們不會冒去索引的風險,所以我們談論的是索引後的影響,也許在 [初始] 排名之後也是如此。

文森特:是的,對我來說,是在排名之後。 如果我是 Google,我會添加到 Google RankBrain 中,因為它能夠聚合信號等。現在,問題是它對網站的影響有多大。

Rebecca:通過機器學習,站點之間的差異很大,因為您可以更好地控制它的影響以及每個站點上有多少無用的內容。

文森特:谷歌的限制是誤報。 這將取消索引 [或懲罰] 合法頁面。 所以我認為最初的影響會非常非常低,但他們真的會追捕作弊者。

不過,我已經有人聯繫了我,他們有點擔心。 我告訴他們,一開始它只會檢測沒有質量的文本。 也就是說,我認為[生成的]文本,加上人工校對,可以發揮其全部作用。

我不像其他人說“AI = 垃圾”那麼嚴格。 我也不太相信。

麗貝卡:這並不讓我感到驚訝,來自你!

這有點令人沮喪,知道它會很慢。 正如你所說,為了避免誤報,這是用英語啟動的另一個原因:他們對英語有更好的掌握。 這使得在推廣到整個網絡和其他不太熟練、自動化程度較低的語言之前,可以添加更昂貴的額外控件。

無論如何,這是一次非常豐富的討論。 非常感謝這次交流。

文森特:我們可以隨時再談。

麗貝卡:很高興。