Работая долгое время, в IT индустрии, часто приходилось сталкиваться с настройкой разных веб систем, которые нужно было выпускать в интернет, но при этом некоторые из них или их подпапок запрещать для сканирования роботов поисковых систем. Поэтому, в очередной раз оптимизируя одну из систем, я решил описать данный процесс.

Что такое файл robots.txt и с чем его едят?

Файл robots.txt — ограничения доступа к содержимому роботам на http-сервере. Файл обязательно должен находиться в корне сайта. При наличии нескольких субдоменов файл должен располагаться в корневом каталоге каждого из них. Данный файл дополняет стандарт Sitemaps, который служит прямо противоположной цели: облегчать роботам доступ к содержимому.

Файл sitemap.xml — XML-файл с информацией для поисковых систем, таких как: Google, Yandex, Ask.com, и др. о страницах веб-сайта, которые подлежат индексации. Sitemap.xml может помочь поисковикам определить местонахождение страниц сайта, время их последнего обновления, частоту обновления и важность относительно других страниц сайта для того, чтобы поисковая машина смогла более разумно индексировать сайт.

Привожу синтаксис на примерах:

Обязательные строки:

User-agent: *
Disallow:
по желанию:
Allow: /

Теперь привожу примеры, когда необходимо:

Запретить весь сайт для индексации всеми поисковыми роботами:


User-agent: *
Disallow: /

Не запрещать весь сайт для индексации всеми поисковыми роботами.


User-agent: *
Disallow:

Обратите внимание Disallow: присутствует, но после него пусто — это говорит о лигическом нет. Тоесть не делать этого.. Тем самым, на запрос сканнера, сайт ответит — я ничего не запрещаю тебе сканировать 🙂

Запретить весь сайт для индексации одним поисковым роботом GoogleBot.


User-agent: GoogleBot
Disallow: /

Не запрещать весь сайт для индексации одному роботу GoogleBot и запретить для индексации всем остальным поисковым роботам.


User-agent: GoogleBot
Disallow:
User-agent: *
Disallow: /

Запретить несколько директорий для индексации всеми поисковыми роботами.


User-agent: *
Disallow: /dir/home/
Disallow: /dir-my/
Disallow: /hiden-dir/

Запретить несколько файлов для индексации всеми поисковыми роботами.


User-agent: *
Disallow: /hidenfile.php
Disallow: /secondfile.html

Запретить директорию album1 для индексации всеми поисковыми роботами, но разрешить сканировать файл photo.html.


User-agent: *
Allow: /album1/photo.html
Disallow: /album1/

Привожу пример для вымышленного http://robic.net.ua сайта, в котором есть директории /admin/, /content/, /statistic/, /public/ и первые две директории необходимо закрыть от сканирования роботами поисковых систем.


User-agent: *
Disallow: /admin/
Disallow: /content/
Allow: /content/
Allow: /public/
Allow: /

Host: robic.net.ua

Sitemap: http://robic.net.ua/sitemap.xml

Вы обратили внимание, на то что в примере присутствует строка Sitemap: http://robic.net.ua/sitemap.xml.
Расшифровую, что это значит.. Эта строка говорит роботам, что на сайте используется карта сайта, с помощью файла sitemap.xml, тем самым оптимизируя свой сайт и ускоряя правильное индексирование вашего сайта. При условии, что ваш файл sitemap.xml был правильно составлен.

Синтаксис и возможные параметры и значения:


<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://example.com/</loc>
<lastmod>2009-12-26</lastmod>
<changefreq>never</changefreq>
<priority>0.6</priority>
</url>
</urlset>

<loc>путь к странице сайта</loc>

<lastmod>дата последней модефикации файла</lastmod>

<changefreq>частота изменений на данной странице. Возможные параметры:never, weekly, daily, hourly, monthly, yearly</changefreq>

<priority>приоритет сканирования данный страницы, от 0.1 — 1.0 — где 1.0 — максимум</priority>

Его синтаксис выглядит примерно так, для того же вымышленного сайта http://robic.net.ua. Представим что у него есть сейчас 5 страничек:
index.php — главная, content.php — которая обновляется у нас, раз или два в день, dyn_cont.php — первая динамическая страничка, которая обновляется один раз в несколько дней — неделю, prosto.php — страничка на сайте, которая обновляется не чаще чем раз в месяц, about.php — о сайте, обновляется не чаще чем раз в год и то может даже и не обновлятся, но представим что обновляется раз в год.. Тогда файл sitemap.xml, будет выглядеть так:


<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://robic.net.ua/</loc>
<lastmod>2009-12-26</lastmod>
<changefreq>hourly</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>http://robic.net.ua/content.php</loc>
<lastmod>2009-12-26</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://robic.net.ua/dyn_cont.php</loc>
<lastmod>2009-12-26</lastmod>
<changefreq>weekly</changefreq>
<priority>0.7</priority>
</url>
<url>
<loc>http://robic.net.ua/prosto.php</loc>
<lastmod>2009-12-26</lastmod>
<changefreq>monthly</changefreq>
<priority>0.5</priority>
</url>
<url>
<loc>http://robic.net.ua/about.php</loc>
<lastmod>2009-12-26</lastmod>
<changefreq>yearly</changefreq>
<priority>0.2</priority>
</url>
</urlset>

Ну вот примерно так, они и составляются, после чего загружаются в корень сайта и после первого прохода поискового робота по вашему сайту, он узнает из файла robots.txt о файле sitemap.xml и просканет его, а потом на основании последнего оптимизирует запросы под странички.

Напоминаю всем копирующим мой контент о существовании закона "Об авторском праве".
В связи с этим, прошу во избежании конфликтов при копировании данного материала, ставить на него ссылку:

http://noted.org.ua/?p=594


Также, вы можете отблагодарить меня переслав любую сумму на любой кошелек WebMoney, для поддержания данного ресурса. Или просто админу на пиво ;)

Кошельки для получения благодарности:
R386985788805
U234140473141
Z147712360455

На данной странице нет комментариев, возможно они закрыты. Если Вы хотите оставить свой комментарий, перейдите на специально созданный раздел

Add your comment now

You must be logged in to post a comment.