Как работает Google: история Google Ranking Engineer #SMX
Опубликовано: 2022-06-12Инженер-программист Google Пол Хаар работает в Google более 14 лет. Для двоих из них он делил офис с Мэттом Каттсом. Он выходит на сцену SMX West 2016, чтобы рассказать о том, как работает Google с точки зрения инженера Google, или, по крайней мере, поделиться как можно больше за 30 минут. После этого на сцене к нему присоединится аналитик тенденций для веб-мастеров Гэри Иллиес, и они оба ответят на вопросы аудитории SMX, а модератором будет редактор Search Engine Land Дэнни Салливан (перейдите к разделу вопросов и ответов!).

Как работает Google
Хаар начинает с рассказа о том, чем занимаются инженеры Google. В их работу входит:
- Написание кода для поиска
 - Оптимизация показателей
 - Ищем новые сигналы
 - Комбинируя старые сигналы по-новому
 - Перемещение результатов с хорошим рейтингом вверх
 - Перемещение результатов с плохими оценками вниз
 - Исправление рекомендаций по рейтингу
 - Разработка новых метрик при необходимости
 
Две части поисковой системы:
- Заблаговременно (до запроса)
 - Обработка запросов
 
Перед запросом
- Сканировать Интернет
 -  Анализ просканированных страниц
- Извлечь ссылки
 - Рендеринг содержимого
 - Аннотировать семантику
 
 - Построить индекс
 
Индекс
- Как индекс книги
 - Для каждого слова список страниц, на которых оно появляется
 - Разбиты на группы по миллионам страниц
 - Плюс метаданные для каждого документа
 
Обработка запросов
-  Понимание и расширение запросов
Называет ли запрос какие-либо известные объекты? -  Поиск и оценка
-  Отправить запрос на все шарды
Каждый осколок- Находит совпадающие страницы
 - Вычисляет оценку для запроса + страницы
 - Отправляет обратно первую N страницу по количеству баллов
 
 - Объедините все верхние страницы
 - Сортировать по баллам
 
 -  Отправить запрос на все шарды
 -  Корректировки после извлечения
- Кластеризация узлов
 - Есть ли дублирование
 
 
Сигналы подсчета очков
Сигнал это:
- Часть информации, используемой при подсчете очков
 - Независимый от запроса — особенность страницы
 - Зависит от запроса
 
Метрики
«Если вы не можете что-то измерить, вы не можете это улучшить» — лорд Кельвин.
-  Актуальность
- Отвечает ли страница на запрос пользователя
 - Главный показатель рейтинга
 
 -  Качественный
- Насколько хорошие результаты мы показываем
 
 - Время до результата (чем быстрее, тем лучше)
 
Google оценивает себя с помощью живых экспериментов:
- A/B-эксперименты на реальном трафике
 - Ищите изменения в шаблонах кликов
 - Много трафика в том или ином эксперименте
 
В свое время Google протестировал 41 вид синего, чтобы определить, какой из них лучше.
Google также проводит эксперименты с людьми:
- Показать результаты экспериментального поиска реальных людей
 - Спросите, как результаты
 - Совокупные рейтинги по оценщикам
 - Опубликовать руководство, объясняющее критерии для оценщиков
 - Инструменты поддерживают это в автоматическом режиме, подобно Mechanical Turk.
 
Google оценивает страницы по двум основным факторам:
- Удовлетворение потребностей (где мобильные устройства находятся в центре внимания)
 - Качество страницы
 
Оценки соответствия требованиям:
- Полностью соответствует
 - Очень высоко соответствует
 - Высоко соответствует
 - Умеренно соответствует
 - Слегка встречается
 - Не удается встретиться
 
Концепции качества страницы:
- экспертиза
 - авторитетность
 - Надежность
 
Процесс разработки инженера Google:
- Идея
 -  Повторять до готовности
- Написать код
 - Генерация данных
 - Проводить эксперименты
 - Анализировать
 
 - Отчет о запуске от количественного аналитика
 - Запустить обзор
 - Запуск
 
Что пойдет не так?
Есть два вида проблем:

- Систематически плохие оценки
 - Метрики не отражают то, что нас волнует
 
Вот пример плохой оценки. Кто-то ищет [фермерское удобрение для Техаса], и в результате поиска отображается карта со штаб-квартирой производителя. Маловероятно, что они этого хотят. Google определяет это с помощью живых экспериментов. Если оценщик видит карты и оценивает их как «высоко отвечающие» потребностям, то это является недостатком при оценке.
Или что делать, если метрики отсутствуют? В 2009-2011 годах было много жалоб на некачественный контент. Но показатели релевантности продолжали расти из-за контент-ферм. Вывод: Google не измерял нужные показатели. Таким образом, метрика качества была разработана отдельно от релевантности.
 Вот слайд-презентация Пола Хаара, которую стоит посмотреть:
 Обновление от 19 7: Презентация помечена автором как частная. 
Гэри Иллиес и Пол Хаар отвечают на вопросы аудитории SMX
SMX: Как RankBrain вписывается во все это?
Хаар: RankBrain видит часть сигналов. Я не могу вдаваться в подробности о том, как работает RankBrain. Мы понимаем, как это работает, но не так хорошо, как это делается. Он использует многое из того, что мы публиковали о глубоком обучении.
Как RankBrain узнает авторитетность страницы?
Хаар: Это все зависит от обучения, которое он получает. Он видит запросы и другие сигналы. Я не могу сказать больше, что было бы полезно.
SMX: когда вы входите в приложение Google, различаете ли вы информацию, которую собираете? Если вы используете Google Now, а не Chrome, может ли это повлиять на то, что вы видите?
Хаар: Вопрос в том, вошли вы в систему или нет. Мы обеспечиваем постоянный опыт. Ваша история посещенных страниц следует за вами либо.
Предоставляет ли Google разные результаты по одним и тем же запросам в разное время дня?
Иллиес: Я не уверен. Например, в Картах, если мы показываем что-то, связанное с картами, мы показываем часы. Насколько известно Гэри, это не меняет того, что появляется.
SMX: Что происходит с Пандой и Пингвином?
Иллиес: Я отказался от указания даты или графика Penguin. Мы над этим работаем, думаем, как запустить, но я, честно говоря, не знаю даты и не хочу говорить дату, потому что ошибся уже раза три-четыре, а это плохо для бизнеса.
SMX: Post-Google Authorship, как вы отслеживаете авторитет автора?
Хаар: Я не буду вдаваться в подробности. Что я скажу, так это то, что оценщики должны просматривать это вручную для страницы, которую они видят. Что мы измеряем, так это то, можем ли мы хорошо справляться с результатами, которые оценщики считают хорошим авторитетом.
SMX: Означает ли это, что власть используется как прямой или косвенный фактор?
Хаар: Я бы не сказал ни да, ни нет. Это гораздо сложнее, и я не могу дать прямого ответа.
SMX: Когда явное авторство закончилось, Google велел сохранить авторство. Стоит ли вообще заморачиваться с rel=author?
Иллиес: Есть по крайней мере одна команда, которая все еще рассматривает возможность использования тега rel=author только ради будущих разработок. Если бы я был оптимизатором, я бы все равно оставил тег. Иметь это не больно. Однако на новых страницах его, вероятно, не стоит иметь. Хотя мы могли бы использовать его для чего-то в будущем.
SMX: Что ты сейчас читаешь?
Хаар: Я читаю много журналистики и очень мало книг. Однако я только что закончил «Город в огне» — это про Нью-Йорк 70-х. Там 900 страниц, и я был разочарован, когда она закончилась. Я только что начал «Этого не может случиться здесь».
![]()
