Bitrix robots txt где лежит
Перейти к содержимому

Bitrix robots txt где лежит

  • автор:

Robots.txt для 1С Битрикс

В данной статье собраны примеры robots.txt, которые помогут составить корректный файл для различных популярных CMS и фрэймворков: 1C-Битрикс, Joomla, Drupal, WordPress, OpenCart, NetCat, UMI CMS, HostCMS, MODX.

Файл robots.txt – это текстовый файл с технической информаций, размещаемый в корне вашего сайта, он сообщает поисковым системам порядок индексации сайта. Наборы директив (строк) сообщают поисковому роботу, какие разделы сайта запретить или разрешить к индексации. Для ряда поисковых систем, в файле robots.txt могут быть прописаны дополнительные параметры, обрабатываемые только определенной поисковой системой.

Нужно понимать, что приведенные ниже директивы являются лишь примерами и файлы не гарантируют 100% правильную работу, так как в них могут быть не предусмотрены специальные разделы, типы файлов, которые должны быть закрыты или открыты на вашем сайте. В некоторых случаях может потребоваться тонкая коррекция настроек под ваш проект, поэтому рекомендуем дополнительно консультироваться по настройке robots.txt с программистом и\или администратором вашего проекта, который знаком с его спецификой и «узкими местами».

Обратите внимание: значение site.ru нужно заменить на ваш домен.

Как загрузить файл robots.txt на сайта через ISPmanager?

  1. Авторируйтесь в панели хостинга и в ISPmanager перейдите в Менеджер файлов — www — каталог Вашего сайта и на панели нажмите «Закачать».
  2. Перед Вами откроется окно загрузки файла, в котором нужно выбрать robots.txt с локального компьютера и загрузить на сервер.

Проверка robots.txt

Проверить успешную загрузку файла на сайта можно открыв его браузере по адресу http://site.ru/ robots.txt , где site.ru — имя Вашего сайта.

После загрузки robots.txt на сайт проверяем корректность работы файла по инструкциям:

Для Яндекс – через Яндекс.Вебмастер, без регистрации.
Для Google – через Google Вебмастер, с регистрацией.

Для robots.txt рекомендуется устанавливать права 444.

robots.txt для 1С-Битрикс

Управление robots.txt

На странице Управление robots.txt (Маркетинг > Поисковая оптимизация > Настройка robots.txt) представлена форма, позволяющая сгенерерировать файл robots.txt.

Контекстная панель

Кнопка Описание
название_сайта> Выбор сайта, для которого должен быть составлен файл robots.txt.

Общие правила

Данная вкладка служит для указания общих правил для индексирования сайта поисковыми системами. В поле отображается текущий набор инструкций. Любая из инструкций (кроме User-Agent: *) может быть удалена, если навести на нее курсор мыши и нажать на «крестик». Для генерации инструкций необходимо воспользоваться кнопками, расположенными рядом с полем.

Кнопка Описание
Стартовый набор Позволяет задать набор стандартных правил и ограничений (закрываются от индексации административные страницы, личные данные пользователя, отладочная информация).
Если часть стандартного набора уже задана, то будут добавлены только необходимые отсутствующие инструкции.
Запретить файл/папку (Disallow) Позволяет составить инструкции, запрещающие индексировать файлы и папки по маске пути.
При нажатии на кнопку открывается форма со списком уже имеющихся инструкций запрета индексации. В открывшейся форме кнопка [. ] позволяет выбрать файлы или папки, которые индексировать не нужно.
Разрешить файл/папку (Allow) Позволяет указать файлы и папки, разрешенные для индексации.
При нажатии на кнопку открывается форма со списком путей к файлам и папкам, разрешенных для индексации. В открывшейся форме кнопка [. ] позволяет выбрать файлы или папки, которые должны быть проиндексированы.
Главное зеркало (Host) Позволяет задать адрес главного зеркала сайта. Главное зеркало необходимо обязательно указывать, если сайт обладает несколькими зеркалами.
Интервал между запросами (Crawl-delay) Служит для указания минимального временного интервала (в сек.) между запросами поискового робота.
Карта сайта Позволяет задать ссылку к файлу карты сайта sitemap.xml.

Яндекс

Настройка правил и ограничений для роботов Яндекса. Настройку можно выполнить как сразу для всех роботов Яндекса (вкладка «Yandex»), так и каждого в отдельности (на вкладке с соответствующим названием робота). Внешний вид вкладок одинаков и содержит следующий набор кнопок для генерации инструкций:

Кнопка Описание
Запретить файл/папку (Disallow) Позволяет составить инструкции, запрещающие индексировать файлы и папки по маске пути.
При нажатии на кнопку открывается форма со списком уже имеющихся инструкций запрета индексации. В открывшейся форме кнопка [. ] позволяет выбрать файлы или папки, которые индексировать не нужно.
Разрешить файл/папку (Allow) Позволяет указать файлы и папки, разрешенные для индексации.
При нажатии на кнопку открывается форма со списком путей к файлам и папкам, разрешенных для индексации. В открывшейся форме кнопка [. ] позволяет выбрать файлы или папки, которые должны быть проиндексированы.
Главное зеркало (Host) Позволяет задать адрес главного зеркала сайта. Главное зеркало необходимо обязательно указывать, если сайт обладает несколькими зеркалами.

Важно! Для каждого файла robots.txt обрабатывается только одна директива Host.

Google

Настройка правил и ограничений для роботов Google. Настройка выполняется для каждого робота в отдельности (на вкладке с соответствующим названием робота). Внешний вид вкладок одинаков и содержит следующий набор кнопок для генерации инструкций:

Кнопка Описание
Запретить файл/папку (Disallow) Позволяет составить инструкции, запрещающие индексировать файлы и папки по маске пути.
При нажатии на кнопку открывается форма со списком уже имеющихся инструкций запрета индексации. В открывшейся форме кнопка [. ] позволяет выбрать файлы или папки, которые индексировать не нужно.
Разрешить файл/папку (Allow) Позволяет указать файлы и папки, разрешенные для индексации.
При нажатии на кнопку открывается форма со списком путей к файлам и папкам, разрешенных для индексации. В открывшейся форме кнопка [. ] позволяет выбрать файлы или папки, которые должны быть проиндексированы.
Главное зеркало (Host) Позволяет задать адрес главного зеркала сайта. Главное зеркало необходимо обязательно указывать, если сайт обладает несколькими зеркалами.

Важно! Для каждого файла robots.txt обрабатывается только одна директива Host.

Редактировать

На данной вкладке представлено текстовое поле, в котором можно вручную отредактировать содержимое файла robots.txt.

Смотрите также

Robots.txt для 1С-Bitrix

Robots.txt для 1С Bitrix

Битрикс является одной из самых распространенных систем администрирования в российском сегменте интернета. С учетом того, что на этой CMS, с одной стороны, нередко делают интернет-магазины и в достаточной степени нагруженные сайты, а с другой стороны, битрикс оказывается не самой быстрой системой, составление правильного файла robots.txt становится еще более актуальной задачей. Если поисковый робот индексирует только то, что нужно для продвижения, это помогает убрать лишнюю нагрузку на сайт. Как и в случае истории с robots для WordPress, в интернете почти в каждой статье присутствуют ошибки. Такие случае я укажу в самом конце статьи, чтобы было понимание, почему такие команды прописывать не нужно.

Более подробно о составлении robots.txt и значении всех его директив я писал здесь. Ниже я не буду подробно останавливаться на значении каждого правила. Ограничусь тем, что кратко прокомментирую что для чего необходимо.

Правильный Robots.txt для Bitrix

Код для Robots, который прописан ниже, является базовым, универсальным для любого сайта на битриксе. В то же время, нужно понимать, что у вашего сайта могут быть свои индивидуальные особенности, и этот файл потребуется скорректировать в вашем конкретном случае.

User-agent: * # правила для всех роботов Disallow: /cgi-bin # папка на хостинге Disallow: /bitrix/ # папка с системными файлами битрикса Disallow: *bitrix_*= # GET-запросы битрикса Disallow: /local/ # папка с системными файлами битрикса Disallow: /*index.php$ # дубли страниц index.php Disallow: /auth/ # авторизация Disallow: *auth= # авторизация Disallow: /personal/ # личный кабинет Disallow: *register= # регистрация Disallow: *forgot_password= # забыли пароль Disallow: *change_password= # изменить пароль Disallow: *login= # логин Disallow: *logout= # выход Disallow: */search/ # поиск Disallow: *action= # действия Disallow: *print= # печать Disallow: *?new=Y # новая страница Disallow: *?edit= # редактирование Disallow: *?preview= # предпросмотр Disallow: *backurl= # трекбеки Disallow: *back_url= # трекбеки Disallow: *back_url_admin= # трекбеки Disallow: *captcha # каптча Disallow: */feed # все фиды Disallow: */rss # rss фид Disallow: *?FILTER*= # здесь и ниже различные популярные параметры фильтров Disallow: *?ei= Disallow: *?p= Disallow: *?q= Disallow: *?tags= Disallow: *B_ORDER= Disallow: *BRAND= Disallow: *CLEAR_CACHE= Disallow: *ELEMENT_ID= Disallow: *price_from= Disallow: *price_to= Disallow: *PROPERTY_TYPE= Disallow: *PROPERTY_WIDTH= Disallow: *PROPERTY_HEIGHT= Disallow: *PROPERTY_DIA= Disallow: *PROPERTY_OPENING_COUNT= Disallow: *PROPERTY_SELL_TYPE= Disallow: *PROPERTY_MAIN_TYPE= Disallow: *PROPERTY_PRICE[*]= Disallow: *S_LAST= Disallow: *SECTION_ID= Disallow: *SECTION[*]= Disallow: *SHOWALL= Disallow: *SHOW_ALL= Disallow: *SHOWBY= Disallow: *SORT= Disallow: *SPHRASE_ID= Disallow: *TYPE= Disallow: *utm*= # ссылки с utm-метками Disallow: *openstat= # ссылки с метками openstat Disallow: *from= # ссылки с метками from Allow: */upload/ # открываем папку с файлами uploads Allow: /bitrix/*.js # здесь и далее открываем для индексации скрипты Allow: /bitrix/*.css Allow: /local/*.js Allow: /local/*.css Allow: /local/*.jpg Allow: /local/*.jpeg Allow: /local/*.png Allow: /local/*.gif # Укажите один или несколько файлов Sitemap Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap.xml.gz

В примере я не добавляю правило Crawl-Delay, т.к. в большинстве случаев эта директива не нужна. Однако если у вас крупный нагруженный ресурс, то использование этой директивы поможет снизить нагрузку на сайт со стороны роботов Яндекса, Mail.Ru, Bing, Yahoo и других (Google не учитывает). Подробнее про это читайте в статье Robots.txt.

Директива Host

На старых сайтах вы можете увидеть директиву Host в файле robots.txt.

Host: www.site.ru

Она обозначает главное зеркало сайта. Команда стала необязательной. На данный момент все основные поисковые системы команду Host не учитывают.

Долгое время Host поддерживался Яндексом. Но с 2018-го года и российский поисковик для определения главного зеркала стал учитывать только 301-редиректы (пруф).

При этом наличие этой команды в файле robots.txt ошибкой не является.

Ошибочные рекомендации других блогеров для Robots.txt на Bitrix

  1. Закрывать от индексации страницы пагинации
    Правило Disallow: *?PAGEN_1= является ошибкой. Страницы пагинации должны индексироваться. Но на таких страницах обязательно должен быть прописан мета-тег canonical.
  2. Закрывать файлы изображений и файлов для скачивания (DOC, DOCX, XLS, XLSX, PDF, PPT, PPTS и др.)
    Это делать не нужно. Если у вас есть правило Disallow: /upload/ , удалите его.
  3. Закрывать страницы тегов и категорий
    Если ваш сайт действительно имеет такую структуру, что на этих страницах контент дублируется и в них нет особой ценности, то лучше закрыть. Однако нередко продвижение ресурса осуществляется в том числе за счет страниц категорий и тегирования. В этом случае можно потерять часть трафика.
  4. Прописать Crawl-Delay
    Модное правило. Однако его нужно указывать только тогда, когда действительно есть необходимость ограничить посещение роботами вашего сайта. Если сайт небольшой и посещения не создают значительной нагрузки на сервер, то ограничивать время «чтобы было» будет не самой разумной затеей.

Настройка служебных страниц на 1С-Битрикс

Существуют важные страницы сайта, которые в проекте «с нуля» могут отсутствовать, и это может существенно повлиять на функционирование и продвижение вашего сайта. При всем при этом, создать их и настроить – не такая уж и сложная задача, и это вложение вашего времени весьма позитивно скажется в дальнейшем на функционировании Вашего web — проекта. В данной статье мы рассмотрим основные вопросы настройки и создания Robots.txt, карты сайта, 404 страницы, страницы заглушки и новой страницы по умолчанию для сайтов под управлением CMS 1С Битрикс. Проведем краткий обзор таких служебных страниц.

Если вы не нашли эту страницу, и ваш сайт на 1C-Битрикс, вы можете сэкономить свое время и воспользоваться генератором, встроенным в Битрикс на странице.

Рабочий стол – Маркетинг — Поисковая оптимизация — Настройка robots.txt.
Расположена она будет по адресу: https://вашсайт.ru/bitrix/admin/seo_robots.php?lang=ru

Также есть замечательная инструкция от специалистов 1С-Битрикс по установке и настройке robots.txt. Если этот файл есть, желательно проверить его на ошибки. В директивах Disallow перечислены разделы, которые индексировать (и вообще заходить поисковыми роботами) не надо, Allow соответственно указывает на страницы, которые индексировать надо в обход правил Disallow. Обратите внимание, что если конкретный раздел указать несколько раз, то будет применено последнее правило. Проверьте правильное написание директив Disallow|Allow:

НАСТРОЙКА ROBOTS.TXT ДЛЯ 1С БИТРИКС

Эта страница говорит роботам поисковых систем (Яндекс, Google и другие), какие страницы вашего сайта индексировать не надо. Robots.txt будет первой страницей, которую поисковый робот скачает с вашего сайта – и это делает ее страницей номер один в нашем списке. Проверьте адрес https://www.вашсайт.ru/robots.txt

Каждая директива дает ограничение на 1 папку, писать несколько директив в одной строке нельзя

Если ограничение стоит на папку, название должно совпадать с названием раздела на сайте с точностью до регистра

Если папка /superblog/, нельзя писать SUPERblog, SuperBlog, SuPeRbLog или как угодно по-другому, ТОЛЬКО superblog

P.S. Постарайтесь избегать названий на кириллице

Символ * если используется, то только в контексте User-agent: *

Новая страница сайта

И напоследок можно сделать страницу, которая будет общим шаблоном для всех новых только что созданных страниц. Это не является «служебной» страницей, но служит общим целям сайта, поэтому мы вкратце расскажем и о ней.

Обычно для новых созданных страниц создается пустая страница с надписью «Text here…», что конечно, замечательно, но не очень хорошо в том плане, что во первых – английский знают еще, к сожалению, не все, во–вторых, подобная формулировка говорит скорее о недостатке компетенции или времени у контет-менеджера, что даст не самое лучшее впечатление о вашем сайте.

В шаблоне сайта Битрикс можно настроить такой шаблон по умолчанию и разместить на нем произвольный текст, компоненты и все необходимое для того, чтобы страницы на стадии наполнения были чуть более привлекательными.
Для этого надо перейти в шаблон сайта по адресу bitrix/templates/.default/page_templates/standard.php и отредактировать страницу. Тогда она будет всегда подключаться по умолчанию при создании станицы через Эрмитаж или административную панель.

В директиве Host нужно указание доменного имени без префикса протокола

Название доменного имени в зоне .рф пишется punicode (например, здесь вы можете его привести https://r01.ru/domain/whois/instruments/converter.php )

Примечание: обычно название основного хоста должно быть в единственном написании, с www или без www, и во втором случае, сео-специалисты рекомендуют ставить редирект. Например, есть сайт gigasnk.ru, для которого выбрано написание с www как основное. Можете проверить :). В Host директиве должно стоять основное описание www.gigansk.ru )

Обратите внимание, на нашей практике мы встречали замечательный вирус-троян, который оставлял содержимое robots.txt обычным при выдаче людям, и подменял его при выдаче роботам. На всякий случай проверьте, как увидят ваш файл роботы, когда зайдут на страницу. Для этого можно воспользоваться сервисом https://bertal.ru по инструкции на скриншоте.

КАРТА сайта (sitemap) для 1С Битрикс

Помогаем роботам работать

Как мы уже увидели, в файле robots.txt нужно указать карту сайта – это список страниц вашего сайта в общеизвестном формате xml, с указанием времени их изменения и приоритета при индексации. Почему это важно?

Робот, как мы выяснили, при первом заходе скачает robots.txt, заглянет в него, и, увидев карту сайта, точно возьмет ее к сведению и пройдет по ссылкам в ней. Если он ее не найдет, то это не означает, что он ваш сайт не проиндексирует совсем, это просто будет происходить несколько дольше – а сейчас, как никогда, важно быть в тренде и обновляться своевременно.

Вручную создавать карту сайта – долго и достаточно бессмысленно, поэтому по созданию карты сайта 1С-Битрикс также любезно подготовил инструкцию, с которой можно ознакомиться по ссылке

Благодаря этому инструменту можно настроить карту сайта и динамическая информация будет обновляться автоматически. Чтобы быть уверенным в том, что ваша карта сайта будет обновляться точно автоматически и регулярно, предлагаем настроить агента на обновление карты сайта.

Страница 404 для 1С-Битрикс

Важная страница, которая обязательно должна быть настроена корректно – это страница 404.

Почему она важна?

Структура сайта в большинстве случаев меняется регулярно, и старые ссылки становятся неактуальными. Здесь, конечно, необходим 301 редирект (об этом мы расскажем в следующей статье), но в любом случае, при отсутствии запрашиваемого адреса пользователю надо предоставить какую-то информацию, и установить соответствующий статус в заголовке страницы, чтобы поисковые системы понимали, что такой страницы на текущий момент не существует.

Битрикс по умолчанию должен установить стандартную 404 страницу, но в любом случае проверить ее наличие необходимо.

Сначала проверим наличие этой страницы и отработку заголовков.
Перейдем на наш сервис проверки заголовков и введем заведомо несуществующий адрес.

Здесь важно, чтобы заголовок, отдаваемый страницей, указывал 404 и текст на странице был.
Если у вас нет ответа от подобной страницы, значит, отдача заголовков с сервера происходит некорректно, и надо обратиться к хостеру или системному администратору для решения этой проблемы.

Если хостинг настроен правильно, и не хватает только самой страницы, алгоритм установки будет примерно следующим:

Создадим файл в корневом каталоге с названием 404.php. Скопируем и вставим туда следующий код:

 

include_once($_SERVER['DOCUMENT_ROOT'].'/bitrix/modules/main/include/urlrewrite.php');

CHTTP::SetStatus("404 Not Found");

@define("ERROR_404","Y");

require($_SERVER["DOCUMENT_ROOT"]."/bitrix/header.php");

$APPLICATION->AddChainItem("404 Not Found", "");

$APPLICATION->SetTitle("404 Not Found.");



$APPLICATION->SetPageProperty('title', "К сожалению,такая страница не найдена.");

?>

ShowTitle() ?>

IncludeComponent( "bitrix:main.map", ".default",

array( "LEVEL" => "3", "COL_NUM" => "2", "SHOW_DESCRIPTION" => "N", "SET_TITLE" => "Y", "CACHE_TIME" => "36000000", "COMPONENT_TEMPLATE" => ".default", "CACHE_TYPE" => "A" ), false ); ?>

В этом коде мы в явной форме прописываем заголовки, подключаем стандартный шаблон сайта и вызываем компонент карты сайта. Который формируется на основании указанного меню в настройках главного модуля.

Проверяем файл .htaccess в корневой директории

В нем должна быть следующая строчка: ErrorDocument 404 /404.php. Если ее нет, дописываем ее.
Если мы все сделали верно, и у нас правильные настройки сервера, 404 страница начнет отрабатывать корректно. С точки зрения SEO, выдачи 404 заголовка и определенной страницы (не дубля нормальной страницы сайта), в принципе достаточно.
Но, возможно, вы захотите оформить 404 страницу более интересно или полезно для вашего посетителя, например, показать ему лучшие товары каталога, или ознакомить с последними новостями, или дать поиграть в интерактивную небольшую игру. Здесь полет фантазии не ограничен, и многие крупные компании оформляют свою 404 страницу весьма разными оригинальными способами.
Главное – не забыть показать пользователю, что он все-таки попал на несуществующую страницу.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *