Компьютерная помощь в г. Унеча Закажи себе баннер на сайт

Управление индексацией с помощью robots.txt

+ -
+5

robots индексация Как правило, операторы профессиональных веб-сайтов стремятся повысить видимость своего проекта в поисковой системе. Предпосылкой для этого является то, что все релевантные URL-адреса могут быть считаны поисковыми роботами и, таким образом, включены в индекс. Следует отметить, что поисковые системы редко полностью просматривают веб-сайты. Даже с лидером на рынке Google возможности для хранения и хранения веб-контента ограничены. Вместо этого каждому домену присваивается определенный бюджет сканирования. Это определяет, сколько URL-адресов считывается в день и, если необходимо, индексируется. Особенно операторы обширных веб-проектов, как правило, рекомендуют действовать стратегически, сигнализируя поисковым роботам, какие страницы страниц следует обходить и которые можно игнорировать. Ключевыми инструментами в этом управлении индексацией являются метатеги-роботы, канонический тег, перенаправления и, что не менее важно, файл robots.txt, обсуждаемый в этом руководстве.

Что такое robots.txt?

Robots.txt - это простой текстовый файл, хранящийся в корне домена. Это позволяет операторам веб-сайтов контролировать доступ поисковых систем к веб-сайту, блокируя выделенные области для определенных или всех поисковых роботов. Информация в файле robots.txt относится ко всему дереву каталогов. Таким образом, этот инструмент управления индексацией значительно отличается от мета-роботов и перенаправлений, которые применяются только к определенному HTML-документу. Следует отметить, что robots.txt понимается поисковыми системами только в качестве ориентира. Принудительное поведение сканирования с помощью операторов в файле robots.txt - нет. Google и другие крупные поставщики поисковых систем заявляют, что следуют инструкциям. Однако доступ к областям веб-страниц можно безопасно исключить из-за защиты паролем.

поисковой робот Создайте файл robots.txt

Чтобы позволить поисковым роботам получать доступ к отдельным политикам обхода контента, текстовый файл должен быть указан точно как robots.txt и помещен в корень домена. Если правила обхода для домена example.de должны быть определены, файл robots.txt должен находиться в том же каталоге, что и www.example.com. Такой файл будет доступен в Интернете по адресу www.example.com/robots.txt. выбранный хостинг модель не обеспечивает доступ к корневой директории сервера, но только в подпапку (около www.beispiel.ru/exemple/), управление индексации с помощью robots.txt не представляется возможным. Операторы сайтов, которые создают robots.txt следует обратиться к чистому текстовому редактору, например VI (Linux) или notepad.exe (Windows) и сделать FTP передачи файла в режиме ASCII передаются. В сети robots.txt может быть создан с помощью генератора. Так как синтаксические ошибки могут серьезно повлиять на индексирование веб-проекта, рекомендуется перед тестированием протестировать текстовый файл. Google подготовил соответствующий инструмент в контексте Search Console.

 Структура robots.txt

Каждый файл robots.txt содержит записи, каждая из которых состоит из двух частей. Первая часть начинается с пользовательского агента ключевого слова и адресуется поисковому роботу, которому даны инструкции во второй части. Эти заявления обычно являются запретами на обход, инициированными с помощью ключевого слова Disallow, и впоследствии будут указывать каталог или один или несколько файлов. Это приводит к следующей базовой схеме:

User-agent: Googlebot
Disallow: /temp/ 
Disallow: /news.html
Disallow: /print

Файл robots.txt в примере применим только к веб-сканерам с именем «Googlebot» и запрещает им читать каталог / temp / и файл news.html. Кроме того, все файлы и каталоги, путь которых начинается с печати, блокируются. Обратите внимание, что Disallow: / temp / и Disallow: / print синтаксически отличаются только отсутствующим косой чертой (/) в конце. Однако в синтаксисе robots.txt это дает значительную разницу в значении.

Вставить комментарии

 Если требуется, файл robots.txt может быть дополнен комментариями. Они вводятся двойным крестом (#) и могут быть вставлены в любую позицию.

# robots.txt для http://www.beispiel.ru

User-agent: Googlebot
Disallow: /temp/ # Каталог содержит недолговечные файлы 
Disallow: /print/ # Каталог содержит страницы печати
Disallow: /news.html # Ежедневные изменения файлов 

Адресации нескольких пользовательских агентов

Если разные Роботы должны быть рассмотрены, robots.txt, может включать в себя любое количество блоков, которые застроенные по базовой схеме. Для этого, пустая строка вставляется перед каждым дополнительным агентом пользователя.

# robots.txt для http://www.beispiel.ru

  User-agent: Googlebot
  Disallow: /temp/ 
   
  User-agent: Bingbot 
  Disallow: /print/

 В то время как искателю Google запрещается искать каталог /temp/, bingbot не может быть /print/ сканироваться.

Адрес всех пользовательских агентов

Если определенные каталоги или файлы должны быть заблокированы для всех веб-искателей, звездочка (*) используется в качестве подстановочного знака для всех пользовательских агентов.

# robots.txt для http://www.beispiel.ru

User-agent: *
Disallow: /temp/
Disallow: /print/
Disallow: /pictures/

Robots.txt блокирует каталоги /temp/, /print/ и /pictures/ для всех веб-браузеров.

Исключить все каталоги из индексации

Если вы хотите заблокировать весь сайт для пользовательских агентов, простой слэш (/) после того, как будет отключено ключевое слово: Disallow:

# robots.txt для http://www.beispiel.ru

  User-agent: *
  Disallow: /

Все веб-сканеры получают указание игнорировать весь сайт. Такой файл robots.txt может использоваться, например, для веб-проектов, которые все еще находятся на этапе тестирования.

Разрешить индексирование для всех каталогов

Если поисковый робот может сканировать и индексировать весь сайт, операторы веб-сайта сигнализируют об этом, используя ключевое слово disallow без косой черты:

# robots.txt для http://www.beispiel.ru

User-agent: Googlebot
Disallow: 

 Если файл robots.txt содержит запрещенную косую черту, весь сайт освобождается для веб-искателя, определенного пользователем-агентом.

Таблица 1: Основные функции robots.txt

User-agent: User-agent: Googlebot Адресаты конкретного поискового робота.
  User-agent: * Адреса всех веб-сканеров.
Disallow: Disallow: Можно просмотреть весь сайт.
  Disallow: / Весь сайт заблокирован.
  Disallow: /datei.html Конкретный файл заблокирован.
  Disallow: /exemple Все каталоги и файлы, путь которых начинается с примера, будут заблокированы.

 Расширенные функции

 В дополнение к квазистандартным базовым функциям некоторые поисковые системы поддерживают дополнительные параметры, которые позволяют указывать информацию в файле robots.txt. Следующие функции можно найти в области поддержки Google. Они достигают соглашения с Microsoft и Yahoo! назад.

 Определить исключения

 В дополнение к Disallow, Google поддерживает другое ключевое слово в файле robots.txt, которое позволяет вам определять исключения для заблокированных каталогов:

# robots.txt для http://www.beispiel.ru

User-agent: Googlebot
Disallow: /news/ 
Allow: /news/index.html 

Ключевое слово Allow позволяет выпустить файл «http://www.example.com/news/index.html» для Googlebot, даже если родительский каталог /news/ был заблокирован.

 Блокировать файлы с определенными окончаниями

Операторы веб-сайта, которые хотят запретить роботу Googlebot считывать файлы с использованием конкретных записей расширения, следующие:

# robots.txt для http://www.beispiel.ru

User-agent: Googlebot
Disallow: /*.pdf$

Отказ от ключевого слова относится ко всем файлам с расширением .pdf и защищает их от доступа к роботу Googlebot. Звездочка (*) действует как подстановочный знак для имени файла перед расширением. Запись завершена знаком доллара ($) в качестве привязки конца строки.

 Пойнтовые веб-сканеры Sitemap

 В дополнение к управлению поведением сканирования, robots.txt позволяет поисковым роботам указывать на карту сайта. Файл robots.txt с ссылкой на карту сайта реализуется следующим образом:

# robots.txt для http://www.beispiel.ru

User-agent: *
Disallow: /temp/

Sitemap: http://www.beispiel.de/sitemap.xml

 Таблица 2: Расширенные функции robots.txt

Allow: Allow: /beispiel.html Указанный файл или каталог можно найти.
Disallow: /*…$ Disallow: /*.jpg$ Файлы с определенным расширением блокируются.
Sitemap: Sitemap: http://www.beispiel.ru/sitemap.xml Карта сайта XML может быть найдена по указанному адресу.

 


Просьба Автора
HTML-cсылка:

BB-cсылка:

Прямая ссылка:

Похожие новости

Добавить комментарий

Автору будет очень приятно узнать ваше мнение о своей новости.



Комментариев 0