Работая долгое время, в IT индустрии, часто приходилось сталкиваться с настройкой разных веб систем, которые нужно было выпускать в интернет, но при этом некоторые из них или их подпапок запрещать для сканирования роботов поисковых систем. Поэтому, в очередной раз оптимизируя одну из систем, я решил описать данный процесс.
Что такое файл robots.txt и с чем его едят?
Файл robots.txt — ограничения доступа к содержимому роботам на http-сервере. Файл обязательно должен находиться в корне сайта. При наличии нескольких субдоменов файл должен располагаться в корневом каталоге каждого из них. Данный файл дополняет стандарт Sitemaps, который служит прямо противоположной цели: облегчать роботам доступ к содержимому.
Файл sitemap.xml — XML-файл с информацией для поисковых систем, таких как: Google, Yandex, Ask.com, и др. о страницах веб-сайта, которые подлежат индексации. Sitemap.xml может помочь поисковикам определить местонахождение страниц сайта, время их последнего обновления, частоту обновления и важность относительно других страниц сайта для того, чтобы поисковая машина смогла более разумно индексировать сайт.
Привожу синтаксис на примерах:
Обязательные строки:
User-agent: *
Disallow:
по желанию:
Allow: /
Теперь привожу примеры, когда необходимо:
Запретить весь сайт для индексации всеми поисковыми роботами:
User-agent: *
Disallow: /
Не запрещать весь сайт для индексации всеми поисковыми роботами.
User-agent: *
Disallow:
Обратите внимание Disallow: присутствует, но после него пусто — это говорит о лигическом нет. Тоесть не делать этого.. Тем самым, на запрос сканнера, сайт ответит — я ничего не запрещаю тебе сканировать 🙂
Запретить весь сайт для индексации одним поисковым роботом GoogleBot.
User-agent: GoogleBot
Disallow: /
Не запрещать весь сайт для индексации одному роботу GoogleBot и запретить для индексации всем остальным поисковым роботам.
User-agent: GoogleBot
Disallow:
User-agent: *
Disallow: /
Запретить несколько директорий для индексации всеми поисковыми роботами.
User-agent: *
Disallow: /dir/home/
Disallow: /dir-my/
Disallow: /hiden-dir/
Запретить несколько файлов для индексации всеми поисковыми роботами.
User-agent: *
Disallow: /hidenfile.php
Disallow: /secondfile.html
Запретить директорию album1 для индексации всеми поисковыми роботами, но разрешить сканировать файл photo.html.
User-agent: *
Allow: /album1/photo.html
Disallow: /album1/
Привожу пример для вымышленного http://robic.net.ua сайта, в котором есть директории /admin/, /content/, /statistic/, /public/ и первые две директории необходимо закрыть от сканирования роботами поисковых систем.
User-agent: *
Disallow: /admin/
Disallow: /content/
Allow: /content/
Allow: /public/
Allow: /
Host: robic.net.ua
Sitemap: http://robic.net.ua/sitemap.xml
Вы обратили внимание, на то что в примере присутствует строка Sitemap: http://robic.net.ua/sitemap.xml.
Расшифровую, что это значит.. Эта строка говорит роботам, что на сайте используется карта сайта, с помощью файла sitemap.xml, тем самым оптимизируя свой сайт и ускоряя правильное индексирование вашего сайта. При условии, что ваш файл sitemap.xml был правильно составлен.
Синтаксис и возможные параметры и значения:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://example.com/</loc>
<lastmod>2009-12-26</lastmod>
<changefreq>never</changefreq>
<priority>0.6</priority>
</url>
</urlset>
<loc>путь к странице сайта</loc>
<lastmod>дата последней модефикации файла</lastmod>
<changefreq>частота изменений на данной странице. Возможные параметры:never, weekly, daily, hourly, monthly, yearly</changefreq>
<priority>приоритет сканирования данный страницы, от 0.1 — 1.0 — где 1.0 — максимум</priority>
Его синтаксис выглядит примерно так, для того же вымышленного сайта http://robic.net.ua. Представим что у него есть сейчас 5 страничек:
index.php — главная, content.php — которая обновляется у нас, раз или два в день, dyn_cont.php — первая динамическая страничка, которая обновляется один раз в несколько дней — неделю, prosto.php — страничка на сайте, которая обновляется не чаще чем раз в месяц, about.php — о сайте, обновляется не чаще чем раз в год и то может даже и не обновлятся, но представим что обновляется раз в год.. Тогда файл sitemap.xml, будет выглядеть так:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://robic.net.ua/</loc>
<lastmod>2009-12-26</lastmod>
<changefreq>hourly</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>http://robic.net.ua/content.php</loc>
<lastmod>2009-12-26</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://robic.net.ua/dyn_cont.php</loc>
<lastmod>2009-12-26</lastmod>
<changefreq>weekly</changefreq>
<priority>0.7</priority>
</url>
<url>
<loc>http://robic.net.ua/prosto.php</loc>
<lastmod>2009-12-26</lastmod>
<changefreq>monthly</changefreq>
<priority>0.5</priority>
</url>
<url>
<loc>http://robic.net.ua/about.php</loc>
<lastmod>2009-12-26</lastmod>
<changefreq>yearly</changefreq>
<priority>0.2</priority>
</url>
</urlset>
Ну вот примерно так, они и составляются, после чего загружаются в корень сайта и после первого прохода поискового робота по вашему сайту, он узнает из файла robots.txt о файле sitemap.xml и просканет его, а потом на основании последнего оптимизирует запросы под странички.
Напоминаю всем копирующим мой контент о существовании закона "Об авторском праве".
В связи с этим, прошу во избежании конфликтов при копировании данного материала, ставить на него ссылку:
Также, вы можете отблагодарить меня переслав любую сумму на любой кошелек WebMoney, для поддержания данного ресурса. Или просто админу на пиво ;)
Кошельки для получения благодарности:
R386985788805
U234140473141
Z147712360455
На данной странице нет комментариев, возможно они закрыты. Если Вы хотите оставить свой комментарий, перейдите на специально созданный раздел