Взгляните на свою страницу глазами робота Googlebot
Функция «Просмотреть как Googlebot» в Инструментах для веб-мастеров позволяет понять, как ваша страница выглядит для роботов Googlebot. Заголовки серверов и код HTML помогают выявить ошибки и последствия взлома, но иногда разобраться в них бывает затруднительно. Веб-мастера обычно хватаются за голову, когда им приходится заниматься решением таких проблем. Чтобы помочь вам в подобных ситуациях, мы усовершенствовали эту функцию, и теперь она может показывать страницу с помощью того же алгоритма, который использует робот Googlebot.
Как отображается просканированная страница
При обработке страницы робот Googlebot ищет и импортирует из внешних источников все связанные с ней файлы. Обычно это изображения, таблицы стилей, элементы JavaScript и другие файлы, встраиваемые с помощью CSS или JavaScript. Система использует их для отображения страницы так, как ее видит робот Googlebot.
Функция Просмотреть как Googlebot доступна в разделе «Сканирование» вашего аккаунта Инструментов для веб-мастеров. Обратите внимание, что обработка страницы с ее последующим показом может занять достаточно продолжительное время. После ее завершения наведите указатель мыши на строку, в которой указан нужный URL, чтобы просмотреть результат.
для обычного робота Googlebot
для робота Googlebot для смартфонов
Обработка ресурсов, заблокированных в файле robots.txt
При обработке кода робот Googlebot учитывает инструкции, указанные в файле robots.txt. Если они запрещают доступ к тем или иным элементам, система не будет использовать такие материалы для предварительного просмотра. Это произойдет и в том случае, если сервер не отвечает или возвращает ошибку. Соответствующие данные можно найти в разделе Ошибки сканирования вашего аккаунта Инструментов для веб-мастеров. Кроме того, полный перечень таких сбоев отобразится после того, как будет создано изображение страницы для предварительного просмотра.
Мы рекомендуем обеспечить Googlebot доступ ко всем встроенным ресурсам, которые есть на сайте или в макете. Это упростит работу с функцией «Просмотреть как Googlebot», позволит роботу обнаружить и правильно проиндексировать контент вашего сайта, а также поможет вам понять, как выполняется сканирование ваших страниц. Некоторые фрагменты кода, такие как кнопки социальных сетей, скрипты инструментов аналитики и шрифты, обычно не определяют оформление страницы, а значит их сканирование не обязательно. Подробнее о том, как Google анализирует веб-контент, читайте в предыдущей статье.
Надеемся, что наше нововведение поможет вам решить проблемы с оформлением сайта и обнаружить ресурсы, которые Google по тем или иным причинам не может просканировать. Если у вас есть вопросы, свяжитесь с нами в сообществе для веб-мастеров на Google Plus или поищите ответ на справочном форуме Google для веб-мастеров.
- Блог компании Google Developers
- Поисковые технологии
Как видит сайт яндекс бот?
А зачем Вам такой сервис? Яндекс видит тоже, что и Гугл, если нет запрещающих директив. У гугла всего лишь графический интерпритатор, а в сервисе mobile-friendly он только показывает заблокированные стили и шрифты, если Вы к этому спрашиваете
12.12.2017 23:22
Просто у меня для яндекса отдельные директивы в робот.тхт, опасаюсь немного
User-Agent: Yandex
Disallow: /?
Disallow: /*?
Disallow: /*feed?type=
Disallow: /index.php
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: */images/images/MEBELFOTO/
Disallow: */images/images/FASADY/
Allow: /*/*.png*
Allow: /*/*.jpg*
Allow: /*/*.gif*
Поисковый робот: общие принципы работы и методы управления
Робот для поиска, он же поисковый краулер (от crawler, «ползать») – это бот, который используется Google, Яндекс и другими поисковыми системами для обнаружения новых страниц в сети. Основной принцип работы заключается в так называемом индексировании страниц. Краулер поисковой системы постоянно сканирует все попадающиеся страницы, находит на них ссылки и переходит по этим ссылкам. Вся собранная информация заносится им в специальную базу данных, индекс. В дальнейшем индекс используется для различия уже встречавшихся и новых страниц, а также для проверки обновления их содержимого.
Отметим, что краулер может называться множеством синонимов. В русскоязычном сегменте сети популярны термины «поисковый робот», «поисковый бот», «поисковый паук». В англоязычном интернете используются «webrobot», «webspider» и «ant».
Как видит поисковый робот
С точки зрения краулера любой сайт выглядит совсем не так, как с точки зрения пользователя. Визуальный контент игнорируется, интерес представляет техническая информация.
Следующие параметры являются при анализе приоритетными:
- текущий веб-сервер;
- IP-адрес;
- наличие постоянного http-соединения (keep-alive);
- текущая дата в GMT-формате;
- URL сайта и/или страницы;
- ответ http-заголовка страницы;
- код перенаправления;
- тип и объем контента;
- правила cookie, действующие на сайте;
- внешние и внутренние ссылки страницы.
Читайте также:
Важные алгоритмы Google
Как работают поисковые роботы
Рассмотрим принципы работы краулеров на примере образцов Google и Яндекса. Обобщенная цепочка действий выглядит так:
- переход по URL на страницу;
- сканирование контента;
- сохранение содержимого на сервере (обычно с конвертацией данных в удобный для поисковика формат);
- переход по новому URL и повторение действий.
Детали регламентируются конкретной поисковой системой и паттернами правил для определенного типа ботов. Например, порядок сканирования может разливаться по максимальному количеству переходов внутри одного сайта, количеству посещений, разрешению или запрету зацикливания и т.д. Поведение типичного краулера Google, например, выглядит следующим образом:
Информация по просканированным страницам попадает от краулеров в базы данных не сразу. Яндекс обновляет индекс в срок от нескольких дней до двух недель, Google – несколько раз в сутки.
Типы поисковых роботов
Для оптимизации процесса при сканировании разного контента поисковики используют разные типы краулеров.
Например, Google разделяет ботов для обработки общего качества страницы, качества рекламы, сканирования изображений, сканирования видео, а также для новостного контента и мобильных страниц. Все эти типы ботов обладают отдельным user agent и для любого из них можно создать директивное обращение в стандарте исключения (об этом немного ниже).
Что касается Яндекса, то основных краулеров у него всего два: стандартный и быстрый Orange. Последовательность операций стандартного бота:
- планировщик выстраивает очередность сканирования данных;
- робот получает от планировщика маршрут;
- робот обходит документы по этому маршруту;
- если от сайта есть корректный ответ, идет скачивание данных;
- идентифицируется ряд параметров документа, включая язык;
- сведения отправляются в кэш Яндекса.
Почему сайт не индексируется целиком
Владельцы сайтов могут заметить, что когда ресурс введен в пользование, он индексируется не только не сразу, но еще и не целиком – когда до нового сайта добираются поисковые боты, они могут индексировать сначала только несколько страниц. Это связано с тем, что каждый конкретный краулер имеет лимит по количеству обращений к конкретному сайту (так называемый краулинговый бюджет). Этот лимит может быть суточным или месячным, но суть не меняется. При помощи Google Search Console можно увидеть общее количество запросов сканирования сайта; для этого нужно перейти на вкладку «Статистика сканирования».
Кроме того, надо помнить и про дополнительные факторы: бот вполне может повторно сканировать одну и ту же страницу (что тоже снижает его лимит по количеству обращений), а также может иметь ограничение сканирования – например, по уровню глубины доступа или по размеру текстового контента. По этим причинам сайт, особенно крупный и имеющий сложную структуру, для полного индексирования требует нескольких подходов сканирования.
Краулеры в виде пользователей
Роботы поисковых систем всегда играют по правилам: они никогда не делают вид, что являются пользовательским клиентом. Однако для отдельных сервисов полностью соблюдать все ограничения для ботов может быть фатально: с учетом затрат на бюджеты обращений и интервалы между обращениями, сканирование может быть очень медленным, особенно для сервисов, которым нужно обрабатывать огромные массивы данных. В таких случаях разработчики конкретных сервисов создают личных ботов, которые представляются пользовательским клиентом, браузером. Они точно так же индексируют страницы, но отображаются в статистике ресурса как пользователи.
Чтобы боты, в том числе притворяющиеся пользователями, не искажали статистику посещений, придуманы алгоритмы по их отсеву. Например, Яндекс.Метрика может ограничить отображение данных по пользователям, которые соответствуют параметру «роботность по поведению» — если по поведенческим факторам это краулер, значит, его в общую статистику можно не включать. Для отсева надо открыть любой отчет, выбрать строку «данные с роботами» и использовать наиболее подходящий фильтр.
Фильтрация есть и в Google Analytics. В настройках администратора и параметрах представления можно отметить чекбокс «исключить обращение роботов и пауков», и их активность не будет отмечаться в отчетах GA.
Полезные и вредные
Проблемы краулеров для владельца сайта не только в медленной индексации или искажении статистики посещений. Возможно и возникновение других неприятностей.
Например, роботы генерируют объем трафика. Казалось бы, для передачи информации в индекс нужен ничтожный объем данных, однако надо помнить – краулеры используются не только в Яндексе и Google. Во-первых, они применяются многими другими поисковиками, которые не пользуются популярностью и малоизвестны, но тем не менее существуют. Во-вторых, краулеры создаются для различных аналитических сервисов, SEO-инструментов, статистических сайтов –можно вспомнить хотя бы известнейший Amazon. При ограниченных ресурсах сервера множество поисковых ботов могут стать полноценной проблемой. Есть и откровенно вредные боты, которые добывают данные для дальнейшего использования – например, для слива электронных адресов в базы данных и последующих рекламных рассылок.
Для борьбы с вредной стороной поисковых ботов используют различные средства. Например, многие CMS имеют различные плагины и расширения, ограничивающие воздействие краулеров на сайт. В WordPress, к примеру, популярностью пользуется Blackhole for Bad Bots. Он добавляет триггерную скрытую ссылку в колонтитул страниц и запрещает краулерам переходить по ней (с помощью команды в robots.txt). Если краулер игнорирует правило – значит, это вредоносный робот и он попадет в ловушку.
Запрет на сканирование
Основной инструмент для ограничения сканирования вашего сайта – это директивы в robots.txt. В этот файл можно прописывать временные интервалы, которые бот должен соблюдать при обращении к странице, и конкретные разделы, которые нельзя сканировать. Это позволяет снизить нагрузку на сервер.
Директивы могут настраиваться по-разному. Например, директива со скриншота ниже расшифровывается так:
- карта сайта опубликована на странице http://www.abc.com/sitemap.xml;
- для краулеров Google запрещен обход ссылок, начинающихся с http://abc.com/nogooglebot/;
- краулеры других систем и сервисов могут сканировать сайт без ограничений.
По умолчанию любой сайт доступен всем ботам, если только в robots.txt не указано обратное. Однако надо помнить, что эти указания носят рекомендательный характер. То, что делает поисковый робот, контролируется исключительно его собственными директивами. При этом соблюдение рекомендаций из robots.txt считается хорошим тоном, а если они не соблюдаются – этот бот, скорее всего, создан с неблаговидными целями.
В заключение дадим несколько простых директив, пользующихся наибольшей популярностью.
- Директива для запрета на индексацию сайта для всех ботов
- Директива для запрета индексирования конкретной страницы
- Директива для запрета на индексацию страницы конкретному боту, с указанием user agent
- Директива для ограничения индексирования каталога со всем содержимым
Еще раз подчеркнем, что директивы в robots.txt это рекомендации, а не полноценные команды. Для полной блокировки страниц или всего сайта от поисковиков проще всего поставить пароль или прописать соответствующую команду в http-заголовок.
Просмотр исходного кода страницы
Инструмент для просмотра кода страницы любого адреса в интернете.
Сервис показывает:
- код страницы;
- заголовки;
- код состояния HTTP;
- IP-адрес и код ответа сервера;
- кодировку сайта;
- сервер;
- внутренние и внешние ссылки страницы, количество индексируемых.
Зачем проверять, как поисковый робот видит страницу?
- Разные пользователи видят разный контент. Это может зависеть от того, залогинился ли пользователь, в каком регионе он находится, какой язык установлен в настройках браузера.
- Некоторые веб-мастеры намеренно показывают пользователям и поисковым роботам разный контент, это называется «клоакинг». С помощью сервиса «Сайт глазами поискового робота» вы можете проверить, нет ли на сайте скрытого контента.
- Сервис поможет детально рассмотреть сайты ваших конкурентов, чтобы быстро найти заголовки с ключевыми запросами, по которым они продвигаются, и узнать, какие технологии использованы на сайтах.
Ссылки на странице
Список всех ссылок на любой странице.
Сайт глазами поискового робота
Просмотр HTML кода любой страницы.
Проверка скорости сайта
Аналог PageSpeed Insights.
Проверка битых ссылок
Проверка работоспособности ссылок на странице.
Проверка установленных ссылок
Проверит установлена ли ваша ссылка на указанных страницах.
Проверка обратных ссылок
Анализа обратных ссылок домена.
Создание Favicon
Из вашей картинки соберет набор иконок.
Генерация robots.txt
Поможет запретить нужные урлы от индексации.
Проверка Canonical cтраницы
Проверьте правильность установки канонического адреса.
Определение CMS сайта
Проверим все технологии на сайте.
DNS параметры домена
Вся информация о DNS домена.
XML Sitemap генератор
Инструмент создаёт сайтмап по вашему списку ссылок.
Проверка ответа сервера
Проверка HTTP-заголовков любой страницы.
Проверка блокировки Роскомнадзор
Проверим домен или IP-адрес на блок РКН.
Проверка SSL сертификата
Работоспособность и дата окончания SSL.
Проверка x-Robots Tag
HTTP-заголовок для запрета от индексации.
Возраст домена
Определяем возраст по дате whois.
Проверка IP-адреса сайта
Быстрая проверка IP домена.
Проверка скорости загрузки HTML
Быстрая проверка загрузки HTML страницы.
Проверка сайта на вирусы
Проверит сайт на безопасность в поиске Google & Яндекс.
Проверка заголовков H1
Покажет структуру заголовков на странице.
Проверка IP в спам базах
Проверка на спам с сайта.
Проверка размера страницы
Быстрая проверка размера любой страницы.
Проверка состояния сайта
Доступен ли сайт в данный момент.
Проверка спиппета страницы
Предпросмотр сниппета до отображения в поиске.
Узнать стоимость сайта
Оценка сайта по объёму трафика.
ООО «Анализ Сайта»
ИНН 5256210197
ОГРН 1235200031890