Почему OnCrawl — это гораздо больше, чем поисковый робот на рабочем столе: подробное знакомство с нашей облачной SEO-платформой

Опубликовано: 2018-12-06

OnCrawl был построен с учетом потребностей SEO французского игрока электронной коммерции № 1 еще в 2015 году. Это означало, что нам пришлось масштабировать наш анализ и работать с веб-сайтом с более чем 50 миллионами URL-адресов за короткий период времени. Жестко, скажете вы, для новичка? На самом деле, наша инфраструктура, на которую мы потратили 1,5 миллиона евро только на исследования и разработки и которая ранее поддерживала различные проекты данных, упростила задачу. Поскольку различие между настольными и облачными поисковыми роботами до сих пор иногда неясно, мы подумали, что было бы полезно объяснить, почему OnCrawl может предложить гораздо больше, чем простой настольный поисковый робот — от широких возможностей масштабирования до сторонних интеграций и скорости анализа.

Масштабирование до бесконечности и выше

Искатели для настольных компьютеров ограничены в возможностях сканирования из-за ресурсов и памяти компьютера, на котором они работают. Скорее всего, они будут ограничены сканированием только нескольких тысяч URL-адресов за сканирование. Хотя это может быть нормально для небольших веб-сайтов, сканирование этих URL-адресов может занять больше времени по сравнению с сканером SaaS (программное обеспечение как услуга). Облачные сканеры распределены по множеству серверов, поэтому вы не ограничены скоростью и размером вашей машины.

Это означает, что нет сканирования, с которым мы не можем справиться. Мы работали как с небольшими веб-сайтами, так и с очень крупными веб-сайтами, включая некоторые компании из списка Fortune 500. Как было сказано во вступлении, мы разработали наш сканер SEO после того, как Cdiscount, крупнейший веб-сайт электронной коммерции во Франции, попросил нас создать специальное решение для обработки более 50 миллионов URL-адресов и потребностей SEO за одно сканирование. Кроме того, благодаря нашим возможностям масштабирования мы два года подряд признавались лучшим инструментом SEO на European Search Awards, ведущей церемонии в поисковой отрасли. В настоящее время мы собираем до 25 миллионов URL-адресов в день и для каждого веб-сайта, или примерно 1 миллиард веб-страниц и 150 миллиардов ссылок в месяц. Вы можете узнать больше о наших технологиях и о том, как мы применяем политику GDPR, здесь.

Пользовательская скорость, широкие возможности

Поскольку наше приложение основано на облаке, вам не нужно думать о ресурсах и скоростных возможностях вашей машины. Это также означает, что нет ограничений по времени или количеству запускаемых обходов. Вы можете запускать столько обходов, сколько позволяет ваша подписка, и выполнять другие действия во время сканирования. Использование облачного решения также означает, что вы можете закрыть окно приложения и дождаться завершения сканирования — оно работает само по себе и не требует вашего наблюдения. OnCrawl позволяет планировать сканирование в зависимости от ваших потребностей SEO, независимо от того, нужно ли вам сканировать ваш сайт раз в неделю или каждый месяц. Вы также можете решить ускорить анализ, если они вам нужны быстрее.
Поскольку приложение OnCrawl можно использовать для сканирования любого веб-сайта, наш бот будет следовать директиве Crawl-Delay, выраженной в файле robots.txt, найденном на целевом веб-сайте, если таковой имеется.
В противном случае мы ограничиваем скорость сканирования на скорости 1 страница в секунду, поэтому наш бот не слишком агрессивен по отношению к целевому веб-сайту.
Когда веб-сайт имеет директиву Crawl-Delay выше 1, наше приложение выдает предупреждение о том, что сканирование будет медленнее, чем запрошенная скорость.
Если Crawl-Delay выше 30, мы показываем ошибку. Мы просто не позволим вам настроить сканирование с такой большой задержкой сканирования.
Единственный способ настроить сканирование в таких условиях — использовать виртуальный файл robots.txt.
Для этого вы должны сначала подтвердить проект с помощью своей учетной записи Google Analytics, чтобы мы могли убедиться, что вы являетесь владельцем домена, который хотите сканировать.

У нас есть несколько различных параметров, которые позволяют вам управлять сканированием:

  • Ускорьте сканирование
  • Приостановить, остановить, перезапустить или прервать сканирование
  • Запланируйте сканирование, чтобы избежать пиковых нагрузок и снизить нагрузку на сервер, когда наши боты заходят на ваш сайт.
  • Просматривайте в режиме реального времени страницы, которые были загружены, количество URL-адресов, которые мы получили на данный момент, и смотрите, есть ли какие-либо проблемы, замедляющие сканирование.

краулер screenshot_progression

Скриншот прогресса crawler_fetch

Анализ файлов журналов стал проще

OnCrawl — это гораздо больше, чем просто поисковый робот. За последние годы мы также выпустили мощный анализатор лог-файлов, решающий проблемы, с которыми не сталкивалось ни одно другое SEO-решение.

Полные файлы журналов являются идеальным отражением жизни вашего сайта. Будь то посетители или боты, отображаемые страницы или обращения к ресурсам, в нем записывается любая активность на вашем сайте.

С такой информацией, как IP-адрес, код состояния, агент пользователя, реферер и другие технические данные, каждая строка журналов (данные на стороне сервера) может помочь вам выполнить анализ вашего сайта, который чаще всего основан на аналитике (больше на стороне клиента). ориентированный).

Наш анализатор файлов журналов поддерживает любые форматы журналов, от стандартных, таких как IIS, Apache на Ngnix, до более пользовательских форматов. Нет анализов, которые мы не можем сделать. Мы также позволяем нашим пользователям напрямую извлекать данные своих журналов из сторонних решений, таких как Splunk, ELK / Elastic Stack, Amazon S3, OVH (ES) или Cloudflare.

Это означает, что вам больше не придется зацикливаться на дополнительном стороннем менеджере файлов журналов, как это происходит с некоторыми из наших конкурентов.

Наш интерфейс позволяет легко автоматически загружать файлы журналов через безопасный и частный FTP. Для завершения анализа файлов журнала требуется всего несколько шагов.

гусеничный трактор

Вы также можете следить за обработкой ваших файлов в режиме реального времени и видеть, есть ли какие-либо ошибки, блокирующие их загрузку.

инструменты управления crawler_log

Неограниченное количество сторонних интеграций

OnCrawl работал над разработкой встроенных коннекторов с ведущими решениями для поискового маркетинга, без которых оптимизаторы не могут жить: Google Search Console, Google Analytics, Adobe Analytics или Majestic, и это лишь некоторые из них. Интеграция этих решений в ваш процесс аудита не является излишней: она обеспечивает более полное представление о производительности и состоянии вашего веб-сайта в поисковых системах и разъясняет, как на самом деле ведут себя боты и посетители на вашем веб-сайте. Вы также экономите время и усилия, поскольку вам не нужно вручную обрабатывать эти данные позже в электронных таблицах Excel.

Отчет по обратным ссылкам

Мы установили доверительные отношения с Majestic, ведущим решением для анализа ссылок. Наш анализ перекрестных данных позволяет вам комбинировать данные сканирования и данные журналов с данными обратных ссылок, чтобы понять влияние обратных ссылок на ваш SEO-трафик и частоту сканирования. После того, как вы настроили сегментацию настраиваемых групп страниц для всего сайта на основе ваших наиболее важных KPI. Вы также можете визуализировать количество обратных ссылок по отношению к уровню глубины клика по странице или проверить, влияет ли количество обратных ссылок на поведение Google.
Анализы, которые мы предоставляем, в которых данные обратных ссылок сопоставляются и объединяются на уровне URL-адресов и обращений ботов, в настоящее время являются единственными на рынке.

гусеничный трактор

Отчет о рейтинге

Мы также разработали уникальный коннектор для Google Search Console, чтобы понять, как ваш сайт находится и индексируется, и как ваша оптимизация на странице влияет на ваш трафик и индексацию. Мы предоставляем стандартную, но исчерпывающую информацию о распределении ваших ключевых слов, показах, кликах и рейтинге кликов с течением времени, будь то на настольном или мобильном устройстве, для брендированных или небрендированных ключевых слов или для ваших групп страниц. Что еще более важно, мы также предлагаем уникальный анализ, которого не достиг ни один из наших конкурентов.
OnCrawl использует ваши сегментации и данные из ваших файлов журналов для интерпретации ваших данных ранжирования. Таким образом, вы можете определить общие характеристики страниц, которые ранжируются, и тех, которые не ранжируются в отношении глубины, внутренней популярности, количества слов, внутренних ссылок, времени загрузки и оценки заголовка. Кроме того, вы также можете изучить влияние длины описания и структурированных данных на рейтинг кликов.
Наконец, OnCrawl Rankings позволяет комбинировать сканирование, файлы журналов и данные Search Console в масштабе, чтобы выделить ранжированные страницы и понять, влияет ли краулинговый бюджет на ваши позиции. Никакие другие обходы, будь то настольные или облачные, не поддерживают такие функции.

Аналитический отчет

Мы позволяем вам подключить Google Analytics или Adobe Analytics (ранее Omniture), чтобы понять, как внутреннее и техническое SEO влияет на эффективность органического трафика из поисковых систем. Мы помогаем вам отслеживать эффективность SEO-трафика и поведение пользователей в отношении каждого раздела вашего сайта.

Загрузка CSV-файла

Хотя мы постоянно работаем над новыми интеграциями сторонних решений, мы не хотели оставлять вас без определенного типа данных, которые могут вам понадобиться для проведения технического SEO-аудита. Вот почему мы позволяем вам загружать файлы CSV в масштабе (вы можете загружать миллионы строк), чтобы добавить новый уровень данных на уровне URL. Вы можете создавать свои собственные сегменты и фильтры на основе этих конкретных данных (рейтинги, CRM, бизнес, данные Google Ads и т. д.), чтобы увидеть, соответствуют ли ваши наиболее стратегические страницы вашим целям.

Открытый API, индивидуальный анализ

OnCrawl основан на платформе, построенной на основе API. REST API OnCrawl используется для доступа к вашим данным сканирования, а также для управления вашими проектами и вашими обходами. Чтобы использовать этот API, вам необходимо иметь учетную запись OnCrawl, активную подписку и токен доступа.
Вы можете очень легко создать собственное приложение для запроса этого API. Это можно сделать с помощью токена API, сгенерированного учетной записью пользователя, или с помощью приложения OAuth для подключения к OnCrawl с использованием учетной записи пользователя.

Используя наш API, вы можете писать приложения, максимально использующие многие функции OnCrawl, развернутые в вашей собственной среде, используя язык программирования и платформы, которые вы предпочитаете. Это означает, что вы можете создавать собственные информационные панели, интегрировать наши данные в другие платформы и автоматически запускать сканирование при каждом обновлении сайта.

Кроме того, чтобы облегчить вам интеграцию, все наши диаграммы включают вызовы API и формат ответа в виде информационного значка.

гусеничный трактор

гусеничный трактор

Тенденции и оптимизации с течением времени

OnCrawl упорядочивает сканирование по дате в ваших проектах. Мы храним ваши данные сканирования, пока ваша подписка активна, что означает, что вы можете отслеживать месяцы или даже годы анализа. Обратите внимание, что если вы используете нашу функцию мониторинга журналов, приложение OnCrawl обрабатывает личные данные в виде IP-адресов посетителей вашего веб-сайта. Эта информация необходима для надежного различения роботов Googlebot и других посетителей. IP-адреса не сохраняются в приложении OnCrawl. Эти данные существуют только в исходном файле, который вы загружаете на свой частный безопасный FTP.

Мы также предлагаем расширенные функции, которые позволяют сравнивать два сканирования на основе одной и той же конфигурации сканирования, чтобы выявлять тенденции и изменения с течением времени. Это отличный способ сравнить промежуточную и рабочую версию и проверить, все ли прошло гладко во время миграции.
Вы также можете поделиться своими проектами с товарищами по команде или клиентами, что является отличным способом доказать ценность ваших оптимизаций и поделиться результатами.

сравнение дублированного контента

Демонстрация эволюции дублированного контента между двумя обходами

глубинные движения

Демонстрация эволюции движений по глубине между двумя ползаниями

Семантика везде

Инновации заложены в нашей основной ДНК, и мы много лет работаем над евангелизацией технического SEO. За более чем 15 лет работы над проблемами обработки естественного языка Танги Моал, технический директор OnCrawl, помог нам объединить семантические технологии и технологии больших данных, чтобы разобраться в огромном объеме данных, доступных в Интернете. Мы создали первый в истории детектор почти дублированного контента с использованием алгоритма Simhash.

страницы с дублированием контента

Кластер похожих страниц с канонической оценкой — кластеры можно фильтровать по количеству страниц или проценту схожести контента.

Недавно мы также работали над детектором контента тепловой карты, который помогает нашим пользователям идентифицировать блоки уникального контента и процент дублирования на веб-страницах и на всем веб-сайте. Семантика является частью нашего поискового робота: анализ n-грамм доступен с самого начала, чтобы помочь вам понять, как последовательности слов распределяются на веб-сайте. Мы единственный облачный поисковый робот с такими семантическими возможностями. В области, где количество разговорных поисковых запросов растет, семантическая поисковая оптимизация помогает улучшить посещаемость веб-сайта с помощью значимых метаданных и семантически релевантного контента, который может однозначно дать ответ на конкретное поисковое намерение.
OnCrawl — это гораздо больше, чем поисковый робот для настольных компьютеров, он предлагает беспрецедентный облачный SEO-анализ в любом масштабе. OnCrawl позволяет вам действовать, чтобы действительно понять, как поисковые системы ведут себя на вашем веб-сайте, и с уверенностью разработать стратегию SEO.

Не верьте нам на слово. Попробуйте сами и начните бесплатную пробную версию сегодня.

Начните бесплатный пробный период