Jak działa Google: historia inżyniera rankingu Google #SMX
Opublikowany: 2022-06-12Inżynier oprogramowania Google Paul Haahr pracuje w Google od ponad 14 lat. Dla dwóch z nich dzielił biuro z Mattem Cuttsem. Wchodzi na scenę SMX West 2016, aby podzielić się tym, jak działa Google z perspektywy inżyniera Google – lub przynajmniej podzielić się jak najwięcej w 30 minut. Następnie na scenie dołączy do niego analityk trendów webmasterów, Gary Illyes, którzy będą odpowiadać na pytania publiczności SMX, moderując je redaktor ds. wyszukiwarek, Danny Sullivan (przejdź do części pytań i odpowiedzi!).

Jak działa Google
Haahr otwiera, mówiąc nam, czym zajmują się inżynierowie Google. Ich praca obejmuje:
- Pisanie kodu do wyszukiwania
 - Optymalizacja metryk
 - Szukasz nowych sygnałów
 - Łączenie starych sygnałów na nowe sposoby
 - Przenoszenie wyników z dobrymi ocenami w górę
 - Przenoszenie wyników ze złymi ocenami w dół
 - Naprawianie wytycznych dotyczących oceny
 - Opracowywanie nowych metryk w razie potrzeby
 
Dwie części wyszukiwarki:
- Z wyprzedzeniem (przed zapytaniem)
 - Przetwarzanie zapytań
 
Przed zapytaniem
- Przeszukuj sieć
 -  Przeanalizuj zindeksowane strony
- Wyodrębnij linki
 - Renderuj zawartość
 - Opisz semantykę
 
 - Zbuduj indeks
 
Indeks
- Jak indeks książki
 - Dla każdego słowa lista stron, na których się pojawia
 - Podzielone na grupy składające się z milionów stron
 - Plus metadane na dokument
 
Przetwarzanie zapytań
-  Zrozumienie i rozszerzenie zapytań
Czy zapytanie zawiera nazwy znanych jednostek? -  Wyszukiwanie i punktacja
-  Wyślij zapytanie do wszystkich odłamków
Każdy odłamek- Znajduje pasujące strony
 - Oblicza wynik dla zapytania+strony
 - Odsyła górną stronę N według punktów
 
 - Połącz wszystkie najlepsze strony
 - Sortuj według wyniku
 
 -  Wyślij zapytanie do wszystkich odłamków
 -  Korekty po pobraniu
- Klastrowanie hostów
 - Czy jest duplikacja?
 
 
Sygnały punktacji
Sygnał to:
- Informacja wykorzystywana w punktacji
 - Niezależność od zapytań – cecha strony
 - Zapytanie zależne
 
Metryka
„Jeśli nie możesz tego zmierzyć, nie możesz tego poprawić” – Lord Kelvin
-  Znaczenie
- Czy strona użytecznie odpowiada na zapytanie użytkownika?
 - Najwyższa metryka rankingu
 
 -  Jakość
- Jak dobre są wyniki, które pokazujemy
 
 - Czas na wynik (szybciej tym lepiej)
 
Google mierzy się za pomocą eksperymentów na żywo:
- Eksperymenty A/B na rzeczywistym ruchu
 - Poszukaj zmian we wzorcach kliknięć
 - W takim czy innym eksperymencie występuje duży ruch
 
Kiedyś Google przetestowało 41 różnych bluesów, aby zobaczyć, który jest najlepszy.
Google przeprowadza również eksperymenty na ludziach:
- Pokaż eksperymentalne wyniki wyszukiwania prawdziwych ludzi
 - Zapytaj, jakie są wyniki
 - Zagregowane oceny przez oceniających
 - Opublikuj wytyczne wyjaśniające kryteria dla oceniających
 - Narzędzia wspierają robienie tego w sposób zautomatyzowany, podobnie jak Mechanical Turk
 
Google ocenia strony pod kątem dwóch głównych czynników:
- Potrzeby spełnione (gdzie telefon komórkowy jest z przodu i na środku)
 - Jakość strony
 
Potrzeby spełnione stopnie:
- W pełni Spełnia
 - Bardzo Wysoce Spełnia
 - Wysoce Spełnia
 - Umiarkowanie Spełnia
 - Lekko Spełnia
 - Nie udało się spotkać
 
Koncepcje jakości strony:
- Ekspertyza
 - Autorytetywność
 - Wiarygodność
 
Proces rozwoju inżyniera Google:
- Pomysł
 -  Powtarzaj, aż będzie gotowy
- Napisz kod
 - Generuj dane
 - Przeprowadź eksperymenty
 - Analizować
 
 - Raport o uruchomieniu przez analityka ilościowego
 - Uruchom recenzję
 - Początek
 
Co się dzieje?
Istnieją dwa rodzaje problemów:

- Systematycznie złe oceny
 - Metryki nie rejestrują rzeczy, na których nam zależy
 
Oto przykład złej oceny. Ktoś wyszukuje [nawóz rolniczy w Teksasie], a wynik wyszukiwania wyświetla mapę do siedziby producenta. Jest bardzo mało prawdopodobne, że tego chcą. Google określa to poprzez eksperymenty na żywo. Jeśli oceniający widzi mapy i ocenia je jako potrzeby „Highly Meets”, oznacza to porażkę w momencie oceniania.
A co, jeśli brakuje danych? W latach 2009-2011 było wiele skarg na treści o niskiej jakości. Jednak wskaźniki trafności wciąż rosły ze względu na farmy treści. Wniosek: Google nie mierzyło wymaganych wskaźników. W ten sposób opracowano miernik jakości poza trafnością.
 Oto slide deck Paula Haahra, który warto zobaczyć:
 Aktualizacja 7/19: Prezentacja została oznaczona przez autora jako prywatna. 
Gary Illyes i Paul Haahr odpowiadają na pytania publiczności SMX
SMX: Jak RankBrain pasuje do tego wszystkiego?
Haahr: RankBrain widzi podzbiór sygnałów. Nie mogę zagłębiać się w szczegóły dotyczące działania RankBrain. Rozumiemy, jak to działa, ale nie tyle, co robi. Wykorzystuje wiele materiałów, które opublikowaliśmy na temat głębokiego uczenia się.
Skąd RankBrain znał autorytet strony?
Haahr: To wszystko jest funkcją treningu, który otrzymuje. Widzi zapytania i inne sygnały. Nie mogę powiedzieć o wiele więcej, co byłoby przydatne.
SMX: Czy po zalogowaniu się do aplikacji Google rozróżniasz gromadzone informacje? Jeśli korzystasz z Google Now w porównaniu z Chrome, czy to może mieć wpływ na to, co widzisz?
Haahr: To naprawdę pytanie, czy jesteś zalogowany, czy nie. Zapewniamy spójne doświadczenie. Twoja historia przeglądania podąża za Tobą.
Czy Google dostarcza różne wyniki dla tych samych zapytań o różnych porach dnia?
Illyes: Nie jestem pewien. Na przykład w Mapach, jeśli wyświetlimy coś związanego z mapami, pokażemy godziny. Według wiedzy Gary'ego to nie zmienia tego, co się pojawia.
SMX: Co się dzieje z Pandą i Pingwinem?
Illyes: Zrezygnowałem z podawania daty lub osi czasu na Penguin. Pracujemy nad tym, zastanawiamy się, jak to wypuścić, ale szczerze mówiąc nie znam daty i nie chcę mówić o dacie, bo już trzy lub cztery razy się myliłem, a to źle dla biznesu.
SMX: Post-Google Authorship, jak śledzisz autorytet autora?
Haahr: Nie będę wdawał się w żadne szczegóły. Powiem, że oceniający powinni to sprawdzić ręcznie pod kątem strony, którą widzą. To, co mierzymy, to: czy jesteśmy w stanie wykonać dobrą robotę służąc wynikom, które oceniający uważają za dobre autorytety.
SMX: Czy to oznacza, że autorytet jest wykorzystywany jako czynnik bezpośredni lub pośredni?
Haahr: Nie powiedziałbym tak lub nie. To znacznie bardziej skomplikowane i nie mogę udzielić bezpośredniej odpowiedzi.
SMX: Kiedy skończyło się wyraźne autorstwo, Google powiedział, aby nadal mieć bylines. Czy w ogóle powinieneś zawracać sobie głowę rel=author?
Illyes: Jest co najmniej jeden zespół, który wciąż rozważa użycie tagu rel=author tylko ze względu na przyszły rozwój. Gdybym był SEO, nadal zostawiłbym tag. Nie zaszkodzi go mieć. Na nowych stronach jednak chyba nie warto go mieć. Chociaż w przyszłości możemy go użyć do czegoś.
SMX: Co teraz czytasz?
Haahr: Czytam dużo dziennikarstwa i bardzo mało książek. Jednak właśnie skończyłem „City on Fire” – opowiada o Nowym Jorku w latach 70-tych. Jest 900 stron i byłem rozczarowany, kiedy to się skończyło. Właśnie zacząłem „Tu się nie może wydarzyć”.
![]()
