robots.txt начинающего блоггера

Когда то я и не знал для чего вообще нужен этот текстовый файл и что он делает. Да и до сих пор я не знаю, точно правильно ли он у меня составлен или нет. И как оказалось это достаточно важный файл в работе сайта во всемирной паутине. Но, так или иначе, этим файлом пользуются практически все, кто имеет свой блог или сайт. И без этого файла уже не обойтись, так как он занимается очень важным делом. И попробую выяснить на своем примере, на своем файле robots.txt что же он все таки делает и как я его настроил.

Этот файл это обычный текстовый документ – создается при помощи обычного блокнота и сохраняется в обычный текстовый файл с расширением <<txt>> называемый маленькими прописными буквами и имеет вид: robots.txt. Далее этот файл нужно загрузить к себе на сервер, на ваш сайт в корневой каталок /robots.txt. После чего можно проверить набрав ваш сайт и имя файла, например как у меня https://www.white-windows.ru/robots.txt - и посмотреть параметры заложенные в нем. В большинстве случаев его можно посмотреть на разных блогах и сайтах.

Использование этого файла сугубо добровольное дело, то есть хотите, используйте, а можете и не использовать. Но лично я все же рекомендую использовать этот файл настроек индексации. Так как он необходим для ограничения доступа к некоторым разделам сайта со стороны поисковых систем. И не позволяет им проиндексировать некоторые страницы, каталоги и разделы. Кто-то скажет да ну его нафиг, пускай индексирует все содержимое моего сайта. Понимаете ли, дело то вот в чем – а именно в том, что поисковые системы не очень любят и плохо относятся к повторяющимся материалам, статьям и дубликатам страниц. Что может привести не к очень хорошим результатам. А если вы используете современные CMS движки (WordPress, Joomla и другие) для построения и управления своим Web-сайтом или блогом, то в результате их деятельности происходит большое дублирование контента в индексации сайта. И чтобы этого избежать, необходимо использовать файл robots.txt с настройками и инструкциями для запрещения индексации некоторых разделов сайта.

Далее приведу пример моего файла robots.txt сделанного для этого сайта под управлением WordPress и посмотрим, что он блокирует и что остается в поисковой выдаче:

1. # /robots.txt для сайта www.white-windows.ru
2.
3. User-agent: Yandex
4. Allow: /wp-content/uploads
5. Disallow: /cgi-bin
6. Disallow: /wp-admin
7. Disallow: /wp-includes
8. Disallow: /wp-content/plugins
9. Disallow: /wp-content/cache
10. Disallow: /wp-content/themes
11. Disallow: /trackback
12. Disallow: */trackback
13. Disallow: */*/trackback
14. Disallow: /tag/
15. Disallow: */tag/
16. Disallow: /archive/
17. Disallow: /2012/
18. Disallow: /feed
19. Disallow: /comment/
20. Disallow: /author/
21. Disallow: /search/
22. Disallow: /rss/
23. Disallow: /*.js
24. Disallow: /*.inc
25. Disallow: /*.css
26. Disallow: /*?
27. Disallow: /*.gz
28. Host: www.white-windows.ru
29.
30. User-agent: Googlebot
31. Allow: /wp-content/uploads
32. Disallow: /cgi-bin
33. Disallow: /wp-admin
34. Disallow: /wp-includes
35. Disallow: /wp-content/plugins
36. Disallow: /wp-content/cache
37. Disallow: /wp-content/themes
38. Disallow: /trackback
39. Disallow: */trackback
40. Disallow: */*/trackback
41. Disallow: /tag/
42. Disallow: */tag/
43. Disallow: /archive/
44. Disallow: /2012/
45. Disallow: /feed
46. Disallow: /comment/
47. Disallow: /author/
48. Disallow: /search/
49. Disallow: /rss/
50. Disallow: /*.js
51. Disallow: /*.inc
52. Disallow: /*.css
53. Disallow: /*?
54. Disallow: /*.gz
55.
56. User-agent: *
57. Allow: /wp-content/uploads
58. Disallow: /cgi-bin/
59. Disallow: /*.gz
60. Disallow: /tag/
61. Disallow: */tag/
62. Disallow: /archive/
63. Disallow: /2012/
64. Disallow: /feed
65. Disallow: /trackback
66. Disallow: /comment/
67. Disallow: /rss/
68.
69. Sitemap: https://www.white-windows.ru/sitemap.xml

Первая строка это просто комментарий.
Третья строка User-agent: Yandex – эта строка означает что нижеследующие параметры применимы к поисковой системы Яндекс.
Четвертая строка Allow: /wp-content/uploads – эта строка наоборот разрешает сканирование данной категории. Так как я использую CMS WordPress, то в этой папке хранятся картинки. И я открываю для Яндекса и индексирования эту категорию, чтобы индексировались картинки т.к. в популярных поисковых системах есть поиск по картинкам и люди иногда по ним переходят на мой сайт. Хоть и директива Allow(разрешать) и не является стандартом, но тем не менее её поддерживают некоторые поисковые системы.
Далее с пятой по двадцать седьмую строчку идут запрещающие индексацию директивы Disallow.

Некоторые, которые, скорее всего, точно нужно закрывать:

Это строки 14 и 15 Disallow: /tag/ и Disallow: */tag/ - так как на сайте со временем набирается большое количество тэгов к статьям и материалам то WordPress генерирует дубликаты, что поисковикам не нравиться, поэтому я закрываю это от индексации.
Далее строки 16 и 17 Disallow: /archive/ и Disallow: /2012/ - запрет на индексацию архива статей, на всякий случай прописываю год, т.к. не знаю почему проходила индексация.
18 и 22 Disallow: /feed и Disallow: /rss/ - запрет на индексацию RSS ленты новостей анонсов статей.
Строка 21 Disallow: /search/ - запрет индексации поиска.
Строка 19 Disallow: /comment/ - запрет на индексацию комментариев – хоть и некоторые говорят, что можно и оставить, но я пока не определился и заблокировал.
Строка 20 Disallow: /author/ - запрет на индексацию по автору т.к. опять одни и те же статьи получаются.
Строки 11, 12 и 13 – закрытие индексации trackback’а.

Со строки номер 5 по 10 – запрещаем от индексации различные административно-технические разделы. Обычно они хранят файлы настройки и управления сайта и разные элементы и настройки движков CMS, которые не нуждаются в индексации.
Строки с 23 по 27 – запрещает индексацию различных файлов параметров, скриптов, css-стилей таблиц и других ненужных элементов.

Строка № 28 Host: www.white-windows.ru – Директива Host используется для определения основного зеркала сайта.
Для поисковой системы Яндекса это все. Далее идет строка № 30 User-agent: Googlebot – запреты для поисковой системы Google и нижеследующие параметры, которые я оставил такими же, как и для Яндекса. Единственное директиву Host больше писать не надо. В строке № 56 User-agent: * - звездочка указывает на как бы параметры для других любых поисковых систем. Здесь я оставил немного укороченный вариант (пока).
И последняя строка № 69 Sitemap: https://www.white-windows.ru/sitemap.xml – эта строка указывает поисковикам, где находится файл sitemap.xml (карта сайта в формате XML) для лучшей индексации сайта.

Вообще в идеале в поисковики должны попадать только ваши статьи, ну и желательно картинки с полным описанием т.к. с картинок тоже на ваш сайт могут переходить люди. Но это не всегда так и обычно в индексацию попадают множество копий, дублей и ненужной информации. Что естественно негативно сказывается на отношении поисковиков к вашему сайту. А за очень большое количество одной и той же информации поисковики могут понизить в рейтинге, или вообще забанить ваш сайт или блог посчитав это за методы черной раскрутки.

Что же на деле получилось у меня для поисковика Яндекс:

В основном я добился индексации только своих статей, страниц из основного верхнего меню и той информации, которую хотел чтобы она проиндексировалась. Но есть и спорные моменты. Например такие как – стоит ли разрешать индексацию категорий. Читая разные форумы, блоги и комментарии я для себя решил оставить в индексации категории. Так как кто-то сказал, что если категория имеет описание с некоторым текстом и статьи при нажатии на категорию высвечиваются в виде списка статей и анонса, то есть не полностью отображается статья, то категории не считаются дублем. В целом и я так думаю.

Еще один вопрос это стоит ли закрывать навигационные страницы page 1 2 3 4 … и т.д.

По идее никто вам не запрещает создавать списки страниц с вашими материалами. И если в них не отображаются статьи полностью, а только анонсом то я думаю, это не есть дубль. Поэтому пока оставил в индексации, хотя можно и убрать.

Итоги всей этой эпопеи в том, что все-таки я для себя решил, что файл robots.txt нужный и его использование крайне необходимо, кстати, настолько, что его даже рекомендуют использовать некоторые именитые поисковые системы.