Винсент Террази: Важность обновления полезного контента

Опубликовано: 2022-08-26

Что такое обновление алгоритма полезного контента?

На прошлой неделе Google объявил о выпуске обновления алгоритма, направленного на улучшение качества результатов поиска за счет продвижения полезного контента, который в настоящее время выпускается. Первоначально это обновление будет применяться только к англоязычным веб-сайтам и может привести к обесцениванию всего сайта, если на нем много бесполезного контента.

Как и в случае с ЭАТ, понятие «полезность» не может быть легко определено конкретными показателями; алгоритм основан на машинном обучении для выявления бесполезного контента.

Опытные SEO-специалисты, специализирующиеся на обновлениях EAT и алгоритмов, уже подробно проанализировали, что известно об обновлении Helpful Content и как реагировать на него. Стоит прочитать анализ Мари Хейнс, Гленна Гейба и Лили Рэй.

Чтобы продолжить обсуждение, я поговорил с Винсентом Терраси, директором по продукту в Oncrawl и экспертом по Data SEO, специализирующимся на машинном обучении и языковых моделях, таких как BERT и GPT-3.

Интервью с Винсентом Терраси

Vincent-Terrasi

«Мы можем идентифицировать чистый ИИ-контент как неестественный, и поэтому он будет оштрафован. Но, с другой стороны, за этим понятием полезного контента стоит еще одна тема, которая может негативно повлиять на все новые семантические инструменты, основанные на поисковой выдаче. Google, наконец, сможет обнаруживать чрезмерную оптимизацию, я имею в виду кого-то, кто реконструирует идеальный след для ранжирования в Google».

Контент-анализ и обнаружение переоптимизации: что на самом деле изменит обновление «Полезный контент»

Ребекка: Я продолжаю думать о различных элементах вашей работы, которые заняли второе место на Tech SEO Boost 2019, где вы говорили о генерации текста для SEO, последствиях и опасностях. Мы также обсуждали эту тему, особенно когда Google выпустила BERT, рассказывая о следующих шагах и о том, как они смогут обобщить анализ текста с помощью машинного обучения. В данном случае это что-то вроде классификации, а затем еще и семантического анализа. Это в значительной степени то, что вы получаете от этого тоже? Это обновление вас удивляет?

Винсент: Да, это то, о чем я объявил на SEO Boost Tech: что они [Google] собираются заняться этим типом контента.

Я продолжаю объяснять клиентам, которые заинтересованы в генерации текста в Oncrawl, почему они должны быть осторожны с генерируемым контентом.

Вы должны быть осторожны, когда говорите о контенте, созданном ИИ (искусственным интеллектом). С обновлением «Полезный контент» мы вовсе не говорим о ручном действии, хотя может показаться, что это приведет к ручному действию. Возможно, вы видели некоторые из последних новостей о сайтах, созданных ИИ, и я бы определенно классифицировал это как ручное действие. Это было три месяца назад: были сильные ручные действия на сайтах, которые заявляли, что зарабатывают 100 000 долларов в месяц. Все они были деиндексированы. Это ручные действия.

Теперь есть это обновление с моделью машинного обучения, которая способна определить, является ли текст бесполезным. Поэтому я бы предпочел говорить не об ИИ, а о сайтах с контентом, не добавляющим ценность, или без него.

Ребекка: Да, есть подтверждение от Google, что дело не в ручных действиях. Интересно, что в этом случае Google ясно говорит, что это машинное обучение, и оно почти постоянно работает. Таким образом, в последующие месяцы затронутый сайт может быть реклассифицирован… или нет.

Винсент: Я собираюсь поговорить об этом на моей конференции в сентябре с Кристианом Мелином в SEO Camp Paris, потому что это то, что мы определили пять месяцев назад. Ты можешь представить? Мы уже определили, что с Google что-то происходит.

В общем, две темы:

Есть тема контента, созданного ИИ. Можно сказать, что спам-контент очень легко идентифицировать, потому что ИИ повторяется. Если вы разобьете его на группы слов из трех, четырех, пяти слов, вы увидите, что в нем повторяются одни и те же фразы. Это очень легко обнаружить. Вам не нужно заниматься машинным обучением.

А с другой стороны, часть машинного обучения заключается в том, что на самом деле существует очень стабильная вероятность появления следующего слова.

Ребекка: Да, мы тоже говорили об этом, когда работали над вашими обучающими курсами. Внутри Oncrawl это привело к тому, что в настоящее время ведется работа по созданию системы оценки качества сгенерированных текстов, чтобы находить контент, который слишком легко идентифицировать как таковой.

Винсент: Верно.

Мы можем идентифицировать чистый ИИ-контент как неестественный, и поэтому он будет оштрафован. Итак, это первая проблема.

Но, с другой стороны, за этим понятием полезного контента стоит еще одна тема, которая может негативно повлиять на все новые семантические инструменты, основанные на поисковой выдаче.

Google, наконец, сможет обнаруживать чрезмерную оптимизацию, я имею в виду кого-то, кто реконструирует идеальный след для ранжирования в Google. А вот у нас есть сильные и талантливые игроки во Франции, которые пока особо не отреагировали на новость: Freres Peyronnet, 1.fr, SEO Quantum и т.д. Их напрямую волнует проблема переоптимизации. Они напрямую затронуты этим обновлением.

Ребекка: Давайте возьмем ваш сайт transfer-learning.ai, который был скорее песочницей, чтобы проверить, можем ли мы ранжироваться с полностью сгенерированным контентом, добавляя при этом то, чего сегодня не существует (в данном случае связь между академическими исследованиями и учебными курсами по связанные темы машинного обучения). Как вы считаете, возможно ли еще сделать что-то подобное?

Винсент: Если это привнесет оригинальность и не будет определено как спам, да, всегда будет возможность сделать что-то подобное.

Однако, если это не считается полезным, то это будет невозможно.

Кроме того, я хочу четко напомнить французским создателям: мы говорим об английском языке. Мы знаем, что развертывание на английском языке может длиться месяцами, а часто и годом. Когда мы оглядываемся назад на старые массовые обновления ядра, такие как Panda или Penguin, в некоторых случаях они длились до нескольких лет. Я думаю, что некоторые люди воспользуются этим периодом времени, чтобы продолжить практиковать методы рассылки спама. И тогда Google вмешается.

Во время презентации с Кристианом Мелине я собираюсь обсудить, что вместо того, чтобы предлагать темы, которые уже есть у Google и которые ему не интересны, мы можем использовать новые технологии, которые помогают нам предлагать новые темы.

Я приведу вам пример. Если я протестирую все SEO-инструменты и создам темы с помощью GPT-3 или, например, с помощью французского инструмента, такого как yourtext.guru, я получу 40 идей. Если я воспользуюсь методикой Кристиана Мелина, то получу 4500. А некоторые из них даже темы, которые раньше никогда не использовались и которых нет даже в гугле.

Как вы думаете, что предпочтет Google? Иметь контент, который он уже знает, или иметь очень интересные темы, в которые никто никогда не копался?

Я думаю, что это будущее SEO: способность обнаруживать новые вещи. Я знаю, что Корай тоже движется в этом семантическом направлении.

Ребекка: Да, в смысле анализа пробелов или пробелов в содержании, где вы можете установить экспертизу, потому что это те семантические области темы, которые вообще не рассматриваются.

Винсент: Точно. С другой стороны, я думаю, что это обновление не собирается делать это сразу. Будет версия 1, версия 2 и так далее. Но конечная цель этого обновления — сделать это.

[Пример успеха] Управление сканированием ботов Google

Имея более 26 000 ссылок на продукты, 1001Pneus нуждался в надежном инструменте для мониторинга их эффективности SEO и уверенности в том, что Google выделяет свой краулинговый бюджет на правильные категории и страницы. Узнайте, как успешно управлять краулинговым бюджетом для веб-сайтов электронной коммерции с помощью OnCrawl.
Читать тематическое исследование

Другие языки и другие носители: как будет развернуто это обновление?

Ребекка: Ранее вы упомянули разницу между английским и другими языками, такими как французский. Мы добились огромных успехов в переводе, независимой от языка обработке, как в случае с MuM. Как вы думаете, действительно ли потребуется так много времени, чтобы это обновление перешло на другие языки?

Винсент: Честно говоря, я кое-что сделал сам. У меня нет технологий Google, я не знаком с Google, но я никогда не видел алгоритма, работа которого занимает так много времени. Это означает, что для абзаца из 300 слов требуется около десяти секунд. Это вечность. Обычно мы говорим о вычислениях TF-IDF, встраивании слов… и это занимает секунду. Другими словами, этот тип алгоритма довольно сложен в развертывании. Теперь я знаю, что у Google есть технология, у них есть TPU, у них есть очень умные инженеры, но я думаю, что у них будет ограничение при использовании языковой модели: вам нужно загрузить языковую модель. А когда 200 миллиардов параметров, это может навредить.

Забавно, это примерно в то же время, что и выпуск модели генерации текста на HuggingFace. Так что я думаю, и никто не может сказать это наверняка, но это то, на чем они основывали свое обнаружение. Фактически, они выпустили модель генерации текста для обнаружения генерации текста. Как говорится, Google борется с огнем огнём.

Ребекка: Да, примерно так это и работает, верно? Так было всегда при обнаружении автоматических текстов. Мы используем то, что знаем о том, как он устроен, чтобы обнаружить его.

Винсент: Но что меня впечатляет, так это SEO-инструменты, которые дают отпечаток поисковой выдачи. Теперь Google говорит: «У нас есть след, и мы сможем сказать, слишком ли он вас вдохновил». Никто не знает, как они это делают. Я знаю, как это делают другие SEO-инструменты, но как это делают они [Google]? Никто не знает.

Ребекка: На самом деле, еще одна вещь, которая мне запомнилась, заключалась в том, что это анализ на уровне сайта, а затем для каждого сайта, если мы действительно говорим об обобщении очень высокого уровня, присваивается «ценность» полезного или бесполезного контента. на сайт, которые могут повлиять на другой контент на этом сайте. И это много индивидуального анализа и много хранения информации. Так что даже просто для того, чтобы обработать или повторно обработать это, требуется много времени.

Винсент: Я думаю, это ограничение, которое у них есть. Они объявили, что делают это только в Google Search, а не в Google Discover.

Это немного парадоксально, потому что в Google Discover все обманывают, все оптимизируют «SEO» контент только для того, чтобы попасть в Google Discover. Я думаю, что сейчас у них большие проблемы с поиском Google и всем этим автоматически сгенерированным контентом. Есть некоторые сайты, которые переборщили с автоматически генерируемым контентом.

Они не говорят о штрафе, поэтому они как бы крутят это, как с Google RankBrain, как новый сигнал.

how-search-engines-work

И не все сайты будут затронуты. В частности, я имею в виду сайты электронной коммерции со всеми их описаниями продуктов. Мы знаем, что все копируют друг друга.

Ребекка: Да, создавая варианты на основе официальных описаний производителей, брендов.

Винсент: Да.

Но некоторые медиа-сайты подвергаются большему риску. Есть явление, известное в SEO давно. Например, некоторые сайты берут английский контент и переводят его, не добавляя никакой ценности. Никто не говорил об этом, но для этого типа сайта существует большой риск, потому что он ничего не добавляет и, кроме того, у них есть недостаток, заключающийся в том, что они не цитируют свои источники.

Ребекка: И у них также будет оригинальный контент на английском языке, с которым можно будет сравнить.

Винсент: Да, этап, на котором мы переходим с английского на французский в этом обновлении, скорее всего, повредит многим сайтам со спамом.

Из всех SEO-новостей за последние несколько месяцев это самое важное обновление. Мы могли бы сказать и о RankBrain, но на него было гораздо менее очевидно указывать, трудно понять, каковы фактические результаты его применения.

Ребекка: Я думаю, что это действительно близко, с концепцией семантического анализа и частями веб-сайта, которые не связаны с остальной частью веб-сайта.

Винсент: Точно.

Я знаю, что они работали над этим какое-то время. У меня был друг, работающий в Google, который сказал, что работает над этим с 2009 года; над этим работали две исследовательские группы. Сейчас они пытаются сделать это в режиме реального времени, и они собираются провести большую очистку.

Но мы все еще мало знаем о реализации. Как они это сделают? С сигналом? Будут ли мошенники хуже индексироваться? Никто не может ответить на этот вопрос, кроме Джона Мюллера.

Ребекка: Сомневаюсь, что даже ему позволят. Я предполагаю, что они будут придерживаться своей линии: «создавайте полезный контент для пользователей, а не для поисковых систем, и у вас не будет проблем».

Винсент: В Твиттере его засыпают вопросами по этой теме, и его ответы были немного расплывчатыми.

JohnMu Twitter_Helpful content

Источник: Твиттер

Влияние на создание контента в будущем

Ребекка: Меня это не удивляет. Я думаю, что у него, вероятно, нет более конкретной информации. И даже если он это сделает, то говорить об алгоритме должно быть категорически запрещено.

В любом случае, я очень хочу начать просматривать патенты, связанные с этим обновлением, провести повторный анализ патентов через год, два года, чтобы увидеть, что там есть, и есть ли какие-либо признаки использования чуть позже. Но это другая тема.

Винсент: Чтобы подготовиться к моей конференции в сентябре, я перечислил, как мы распознаем качественный контент, полезный контент. Я взял за основу статью в журнале dunet (на французском языке), которую Кристиан Мелин написал на эту тему [три] года назад. Его содержание до сих пор полностью актуально. С другой стороны, он не полагается на машинное обучение. Он ненавидит это, так что это основные, полезные показатели: хорошо ли написано название? Есть ли орфографические ошибки? Дает ли это новые знания? Редко такие вещи, для выполнения которых вам понадобится машинное обучение.

Ребекка: Этот тип советов будет очень важным, потому что у большинства SEO-специалистов не обязательно есть ресурсы, данные, время или просто навыки для внедрения машинного обучения, чтобы иметь возможность анализировать свои сайты, чтобы знать, есть ли риск попасть в это или нет.

Винсент: Точно. Мы должны следить за этим очень, очень внимательно.

Кроме того, мы должны быть очень осторожны в том, что говорим. Мы должны говорить в условном времени. Нет никого, кто был бы уверен в этом предмете.

Ребекка: Это точно. У нас есть только вещи очень высокого уровня, а это значит, что у нас нет ни доказательств, ни зацепок, ни информации. Поэтому ясно, что все, что мы можем сказать об этом, — это не выводы, а теории.

Винсент: Точно.

Вот что я установил в качестве отправной точки:

  • Анализ токенов, чтобы посмотреть на повторение: определить, когда оно избыточно, когда просто для ранжирования.
  • Затем вероятности между словами, о которых я упоминал ранее.
  • И наконец, группы слов.

Только с помощью этих трех комбинаций я могу обнаружить 90% текстов, сгенерированных ИИ, которые не были оптимизированы человеком. Так что представьте, что может сделать Google! Это умопомрачительно.

Ребекка: Так что мы обязательно должны посетить вашу конференцию SEO Campus 23 сентября вместе с Кристианом.

Винсент: Да, мы хотели немного разобрать тему полезного контента. Забавно: еще до того, как Google заговорил об обновлении, мы это планировали.

Мне также нравится эта тема, потому что я очень экологичен. Я чувствую себя лучше, зная, что есть такие средства контроля, чтобы люди не рассылали спам. Потому что это стоит нам невообразимых ресурсов.

Ребекка: Да, это так. С этим обновлением все обращают пристальное внимание. Я думаю, что люди, которые думают, что это ничего не изменит, ошибаются. Мы видим, что это изменит не только то, как мы создаем контент, но и то, как Google оценивает контент. И это стратегии, которых мы раньше не видели.

Винсент: Точно. На самом деле, если вы хотите занять крайнюю позицию, Google не оценивает контент. Это огромная слабость. Раньше он просто индексировал и ранжировал. Теперь они будут фильтровать вверх по течению. И именно за это Бинг критиковал Google.

Ребекка: Да, большая часть анализа [контента] проводилась во время ранжирования.

Винсент: Верно. Теперь, кажется, есть небольшой фильтр. Я согласен с вами: мне не терпится увидеть патент на это. Им придется показать, где они поставили фильтр. Как вы думаете, куда они поставили фильтр? До, после индексации или до, после ранжирования? Куда бы вы его положили?

Ребекка: Поскольку для этого вам нужна большая часть сайта, я бы сказала…

Винсент: Не забывайте, что вам нужен след поисковой выдачи, как мы обсуждали, для индексации. Таким образом, вы должны индексировать их.

Ребекка: Да, это то, что я собиралась сказать. Я думаю, это должен быть дополнительный шаг, мы не рискуем деиндексацией, поэтому мы говорим о влиянии после индексации, может быть, и после [первоначального] ранжирования.

Винсент: Да, для меня это после рейтинга. Если бы я был Google, я бы добавил это в Google RankBrain, потому что он может агрегировать сигналы и т. д. Теперь вопрос в том, насколько это повлияет на сайты.

Ребекка: Машинное обучение может сильно различаться от сайта к сайту, потому что вы можете гораздо лучше контролировать его влияние и количество бесполезного контента на каждом сайте.

Винсент: Ограничение Google — ложные срабатывания. Это было бы деиндексацией [или наказанием] законных страниц. Так что я думаю, что первоначальное влияние будет очень, очень низким, но они действительно собираются преследовать мошенников.

Однако со мной связывались люди, которые были немного обеспокоены. Я сказал им, что вначале он будет определять только текст без качества. То есть я думаю, что [сгенерированный] текст, вычитанный человеком, может иметь всю свою полезность.

Я не такой строгий, как другие, которые говорят «ИИ = мусор». Я тоже в это не особо верю.

Ребекка: Меня не удивляет то, что ты говоришь!

Это немного расстраивает, зная, что это будет медленно. Как вы говорите, чтобы избежать ложных срабатываний, это еще одна причина для запуска на английском языке: они лучше владеют английским языком. Это позволяет вводить дополнительные элементы управления, которые намного дороже, прежде чем распространять их на всю сеть и на другие языки, которые менее хорошо изучены и менее автоматизированы.

В любом случае, это была очень насыщенная дискуссия. Большое спасибо за этот обмен.

Винсент: Мы можем поговорить об этом снова, когда захочешь.

Ребекка: Было приятно.