Vincent Terrasi:有用的内容更新的重要性

已发表: 2022-08-26

什么是有用的内容算法更新?

上周,谷歌宣布发布一项算法更新,旨在通过推广目前正在发布的有用内容来提高搜索结果的质量。 此更新最初将仅适用于英语网站,如果该网站包含大量无用内容,则可能会使整个网站的内容贬值。

与 EAT 一样,“有帮助”的概念无法通过具体指标轻松量化。 该算法依靠机器学习来识别无用的内容。

专门从事 EAT 和算法更新的经验丰富的 SEO 已经详细分析了已知内容以及如何对有用的内容更新做出反应。 Marie Haynes、Glenn Gabe 和 Lily Ray 的分析值得一读。

为了进一步讨论,我与 Oncrawl 的产品总监兼数据 SEO 专家 Vincent Terrasi 进行了交谈,他专注于机器学习和 BERT 和 GPT-3 等语言模型。

文森特·特拉西的采访

Vincent-Terrasi

“我们可以将纯 AI 内容识别为不自然,因此会受到惩罚。 但另一方面,在有用内容的概念背后,还有另一个主题会对所有基于 SERP 的新语义工具产生负面影响。 谷歌终于能够检测到过度优化,我的意思是,有人会逆向设计完美的足迹以在谷歌中排名。”

内容分析和过度优化检测:有用的内容更新将真正改变什么

丽贝卡:我一直在想你在 Tech SEO Boost 2019 上获得第二名的工作中的各种元素,在那里你谈到了 SEO 的文本生成、影响和危险。 我们还讨论了这个话题,特别是当谷歌发布 BERT 时,讨论了接下来的步骤以及他们如何能够通过机器学习来概括文本分析。 在这种情况下,它有点像分类,然后是语义分析。 这也是你从中得到的东西吗? 这次更新让你吃惊吗?

文森特:是的,这就是我在 SEO Boost Tech 上宣布的:他们 [Google] 将追求这类内容。

我一直在告诉对 Oncrawl 文本生成感兴趣的客户,为什么他们必须小心生成的内容。

在谈论 AI(人工智能)生成的内容时,您必须小心。 通过有用的内容更新,我们根本不是在谈论手动操作,即使它看起来像是会导致手动操作的类型。 您可能已经看到了一些关于 AI 生成网站的最新消息,我肯定会将其归类为手动操作。 这是三个月前的事了:有一些网站说他们每月可以赚 10 万美元。 他们都被取消索引了。 这些是手动操作。

现在,有一个机器学习模型的更新,它能够识别它是否是非增值文本。 所以我宁愿不谈论人工智能,而是谈论有或没有非增值内容的网站。

丽贝卡:是的,谷歌确认这与手动操作无关。 有趣的是,在这种情况下,谷歌明确表示它是机器学习,并且几乎一直在运行。 因此,在接下来的几个月中,受影响的站点可能会被重新分类……或不被重新分类。

文森特:我将在 9 月与 Christian Meline 在巴黎 SEO 营的会议上讨论这个问题,因为这是我们五个月前确定的。 你可以想象? 我们已经确定谷歌发生了一些事情。

总的来说,有两个主题:

有人工智能生成的内容的主题。 我们可以说垃圾内容很容易识别,因为 AI 会自我重复。 如果你把它分解成三个、四个、五个单词的词组,你会看到它重复相同的短语。 这很容易被发现。 您不需要进行机器学习。

另一方面,机器学习部分是下一个单词出现的概率实际上非常稳定。

丽贝卡:是的,我们在为您的培训课程工作时也谈到了这一点。 在 Oncrawl 内部,这导致目前正在进行的工作是为生成的文本的质量创建一个评分系统,以便找到太容易识别的内容。

文森特:没错。

我们可以将纯 AI 内容识别为不自然,因此会受到惩罚。 所以这是第一个问题。

但另一方面,在有用内容的概念背后,还有另一个主题会对所有基于 SERP 的新语义工具产生负面影响。

谷歌终于能够检测到过度优化,我的意思是,有人会逆向设计完美的足迹以在谷歌中排名。 在这里,我们在法国拥有强大而有才华的球员,他们尚未对新闻做出太大反应:Freres Peyronnet、1.fr、SEO Quantum 等。他们直接关注过度优化的问题。 他们直接受到此更新的影响。

丽贝卡:让我们以您的网站 transfer-learning.ai 为例,它更像是一个沙盒来测试我们是否可以对完全生成的内容进行排名,同时添加一些今天不存在的东西(在这种情况下,学术研究和培训课程之间的链接相关的机器学习主题)。 在您看来,这种事情还有可能做吗?

文森特:如果它带来了原创性并且没有被检测为垃圾邮件,是的,总是可以做这种事情。

但是,如果它被认为没有帮助,那么它将是不可能的。

此外,我想明确提醒法国创作者:我们正在谈论英语。 我们知道,英语的推出可以持续数月,通常是一年。 当我们回顾像熊猫或企鹅这样的旧的大规模核心更新时,它们在某些情况下持续了几年。 我认为有些人会利用这段时间继续练习垃圾邮件技术。 然后谷歌会介入。

在我与 Christian Meline 的演讲中,我要讨论的是,与其提出谷歌已经拥有但它不感兴趣的主题,我们能够使用新技术来帮助我们提出新的主题。

我给你举个例子。 如果我测试所有 SEO 工具并使用 GPT-3 或在诸如 yourtext.guru 之类的法语工具中生成主题创意,我将获得 40 个创意。 如果我使用 Christian Meline 的技术,我会得到 4,500。 其中一些甚至是以前从未使用过的主题,甚至不在谷歌中。

你认为谷歌会更喜欢什么? 拥有它已经知道的内容,或者拥有从未有人研究过的非常有趣的主题?

我认为这就是 SEO 的未来:能够检测新事物。 我知道 Koray 也在朝着这个语义方向发展。

Rebecca:是的,从分析内容差距或空白的意义上讲,您可以建立专业知识,因为它是一个主题的那些语义领域,根本没有得到解决。

文森特:没错。 另一方面,我认为此更新不会立即执行此操作。 将有版本 1、版本 2,依此类推。 但本次更新的最终目标是做到这一点。

[案例研究] 管理 Google 的机器人抓取

1001Pneus 拥有超过 26,000 个产品参考,需要一个可靠的工具来监控他们的 SEO 性能,并确保 Google 将其抓取预算用于正确的类别和页面。 了解如何使用 OnCrawl 成功管理电子商务网站的抓取预算。
阅读案例研究

其他语言和其他媒体:如何部署此更新?

Rebecca:你之前提到了英语和法语等其他语言的区别。 我们在翻译、与语言无关的处理方面取得了长足的进步,就像 MuM 一样。 你认为这个更新真的需要这么长时间才能转移到其他语言吗?

文森特:坦率地说,我自己也做过一些工作。 我没有谷歌的技术,我不了解谷歌,但我从未见过需要运行这么长时间的算法。 这意味着对于一个 300 字的段落,大约需要十秒钟。 这是一个永恒。 通常我们谈论的是 TF-IDF 计算、词嵌入……这需要一秒钟。 换句话说,这种类型的算法部署起来相当繁重。 现在我知道谷歌有技术,他们有 TPU,他们有超级聪明的工程师,但我认为他们在使用语言模型时会有这个限制:你必须加载语言模型。 当有 2000 亿个参数时,它可能会受到伤害。

有趣的是,它与 HuggingFace 上的文本生成模型发布的时间差不多。 所以我认为,没有人可以肯定地说,但这就是他们检测的依据。 事实上,他们发布了一个文本生成模型来检测文本生成。 正如他们所说,谷歌正在以火攻毒。

丽贝卡:是的,这就是它的工作原理,对吧? 在检测自动文本时总是这样。 我们使用我们所知道的关于它的构建方式来检测它。

文森特:但让我印象深刻的是提供 SERP 指纹的 SEO 工具。 谷歌现在说,“我们有足迹,我们将能够判断你是否受到它的启发。” 没有人知道他们是怎么做到的。 我知道其他 SEO 工具是如何做到的,但他们 [Google] 是如何做到的呢? 没人知道。

丽贝卡:实际上,对我来说突出的另一件事是它是一个站点级别的分析,然后对于每个站点,如果我们真的在谈论非常高级的概括,那么分配的有用或无用内容的“价值”到可能影响该网站上其他内容的网站。 这是大量的个人分析,以及大量的信息存储。 因此,即使只是处理或重新处理它,也需要很多时间。

文森特:我认为这是他们的限制。 他们已经宣布他们只在谷歌搜索而不是谷歌发现上这样做。

这有点自相矛盾,因为在 Google Discover 上,每个人都在作弊,每个人都在优化“SEO”内容,只是为了进入 Google Discover。 我认为他们现在在 Google 搜索和所有这些自动生成的内容方面存在很大问题。 有些网站在自动生成内容方面做得太过火了。

他们不是在谈论点球,所以他们有点像用 Google RankBrain 来旋转这个,作为一个新的信号。

how-search-engines-work

并非所有网站都会受到影响。 我特别想到了带有所有产品描述的电子商务网站。 我们知道每个人都在互相抄袭。

Rebecca:是的,根据生产商和品牌的官方描述创建变体。

文森特:是的。

但一些媒体网站的风险更大。 有一个现象在 SEO 中早已为人所知。 例如,一些网站采用英文内容并翻译它而不增加任何价值。 没有人谈论它,但是这种类型的网站存在重大风险,因为它没有添加任何内容,而且最重要的是,它们存在不引用来源的缺陷。

丽贝卡:他们也会有英文的原始内容来进行比较。

文森特:是的,我们通过这次更新从英语转向法语的阶段可能会伤害许多垃圾网站。

在过去几个月的所有 SEO 新闻中,这是最重要的更新。 RankBrain 也是如此,我们可以说,但要指出的要少得多,很难看出其应用的实际结果是什么。

Rebecca:我认为它实际上很接近,与语义分析的概念以及与网站其余部分无关的网站部分。

文森特:没错。

我知道他们已经为此工作了一段时间。 我有一个朋友在谷歌工作,他说他从 2009 年就开始做这个了。 在这方面有两个研究小组。 他们现在正试图实时进行,他们将进行大量清理工作。

但是我们仍然对实施情况知之甚少。 他们将如何做? 有信号吗? 那些作弊的人的索引会不会那么好? 除了约翰·穆勒,没有人能回答这个问题。

丽贝卡:我什至怀疑他会被允许这样做。 我想他们会坚持他们的路线:“为用户创建有用的内容,而不是为搜索引擎,你不会有问题。”

文森特:在推特上,他被关于这个话题的问题轰炸了,他的回答有点宽泛。

JohnMu Twitter_Helpful content

资料来源:推特

对未来内容创作的影响

丽贝卡:我对此并不感到惊讶。 我想他可能没有任何更具体的信息。 而且即使他这样做,也必须绝对禁止谈论算法。

无论如何,我非常渴望开始查看与此更新相关的专利,并在一年、两年内对专利进行重新分析,看看那里有什么,以及稍后是否有任何使用迹象。 但这是另一个话题。

文森特:为了准备我在 9 月份的会议,我列出了我们如何识别优质内容和有用的内容。 我根据克里斯蒂安·梅林(Christian Meline)[三年] 前就该主题撰写的 journaldunet(法语)上的文章。 他的内容仍然是完全相关的。 另一方面,他不依赖机器学习。 他讨厌它,所以这些是基本的、有用的指标:标题写得好吗? 有没有拼写错误? 它提供新知识吗? 很少需要机器学习来完成的事情。

丽贝卡:这种类型的建议将非常重要,因为大多数 SEO 不一定有资源、数据、时间或只是实施机器学习的技能,能够分析他们的网站,知道是否有落入或不落入的风险。

文森特:没错。 我们必须非常非常密切地关注这一点。

此外,我们必须非常小心我们所说的话。 我们必须用条件时态说话。 没有人能确定这一主题。

丽贝卡:那是肯定的。 我们只有非常高层次的东西,也就是说我们没有证据,没有线索,没有信息。 很明显,我们能说的不是结论,而是理论。

文森特:没错。

这是我设置的起点:

  • 分析标记以查看重复:识别何时过度,何时只是为了排名。
  • 然后是我之前提到的单词之间的概率。
  • 最后一个,词组。

仅通过这三个组合,我就可以检测出 90% 的 AI 生成文本,这些文本还没有经过人工优化。 所以想象一下谷歌能做什么! 这令人兴奋。

Rebecca:所以我们绝对应该和 Christian 一起参加 9 月 23 日的 SEO Campus 会议。

文森特:是的,我们想把有用内容的主题分开一点。 有趣的是:甚至在 Google 开始谈论更新之前,我们就已经计划好了。

我也喜欢这个话题,因为我非常注重生态。 知道有这样的控件可以防止人们发送垃圾邮件,这让我感觉更好。 因为它花费了我们难以想象的资源。

丽贝卡:是的,确实如此。 通过这次更新,每个人都在密切关注。 我认为那些认为这不会改变任何事情的人是错误的。 我们可以看到,它不仅会改变我们创建内容的方式,还会改变 Google 评估内容的方式。 这些是我们以前从未见过的策略。

文森特:没错。 事实上,如果你想采取极端的立场,谷歌是不会评估内容的。 这是一个巨大的弱点。 它过去只是索引和排名。 现在他们将过滤上游。 这就是必应批评谷歌没有做的事情。

丽贝卡:是的,大部分[内容]分析都是在排名时进行的。

文森特:没错。 现在它似乎有一个小过滤器。 我同意你的看法:我迫不及待地想看到这方面的专利。 他们将不得不透露他们放置过滤器的位置。 你敢打赌他们把过滤器放在哪里? 索引之前、之后还是排名之前、之后? 你会把它放在哪里?

丽贝卡:既然你必须拥有大部分网站才能做到这一点,我会说......

文森特:不要忘记,正如我们所讨论的,您需要 SERP 的足迹来建立索引。 所以你必须索引它们。

丽贝卡:是的,这就是我要说的。 我认为这应该是一个额外的步骤,我们不会冒去索引的风险,所以我们谈论的是索引后的影响,也许在 [初始] 排名之后也是如此。

文森特:是的,对我来说,是在排名之后。 如果我是 Google,我会添加到 Google RankBrain 中,因为它能够聚合信号等。现在,问题是它对网站的影响有多大。

Rebecca:通过机器学习,站点之间的差异很大,因为您可以更好地控制它的影响以及每个站点上有多少无用的内容。

文森特:谷歌的限制是误报。 这将取消索引 [或惩罚] 合法页面。 所以我认为最初的影响会非常非常低,但他们真的会追捕作弊者。

不过,我已经有人联系了我,他们有点担心。 我告诉他们,一开始它只会检测没有质量的文本。 也就是说,我认为[生成的]文本,加上人工校对,可以发挥其全部作用。

我不像其他人说“AI = 垃圾”那么严格。 我也不太相信。

丽贝卡:这并不让我感到惊讶,来自你!

这有点令人沮丧,知道它会很慢。 正如你所说,为了避免误报,这是用英语启动的另一个原因:他们对英语有更好的掌握。 这使得在推广到整个网络和其他不太熟练、自动化程度较低的语言之前,可以添加更昂贵的额外控件。

无论如何,这是一次非常丰富的讨论。 非常感谢这次交流。

文森特:我们可以随时再谈。

丽贝卡:很高兴。