robots.txt начинающего блоггера

Когда то я и не знал для чего вообще нужен этот текстовый файл и что он делает. Да и до сих пор я не знаю, точно правильно ли он у меня составлен или нет. И как оказалось это достаточно важный файл в работе сайта во всемирной паутине. Но, так или иначе, этим файлом пользуются практически все, кто имеет свой блог или сайт. И без этого файла уже не обойтись, так как он занимается очень важным делом. И попробую выяснить на своем примере, на своем файле robots.txt что же он все таки делает и как я его настроил.

Этот файл это обычный текстовый документ – создается при помощи обычного блокнота и сохраняется в обычный текстовый файл с расширением <<txt>> называемый маленькими прописными буквами и имеет вид: robots.txt. Далее этот файл нужно загрузить к себе на сервер, на ваш сайт в корневой каталок /robots.txt. После чего можно проверить набрав ваш сайт и имя файла, например как у меня https://www.white-windows.ru/robots.txt - и посмотреть параметры заложенные в нем. В большинстве случаев его можно посмотреть на разных блогах и сайтах.

Использование этого файла сугубо добровольное дело, то есть хотите, используйте, а можете и не использовать. Но лично я все же рекомендую использовать этот файл настроек индексации. Так как он необходим для ограничения доступа к некоторым разделам сайта со стороны поисковых систем. И не позволяет им проиндексировать некоторые страницы, каталоги и разделы. Кто-то скажет да ну его нафиг, пускай индексирует все содержимое моего сайта. Понимаете ли, дело то вот в чем – а именно в том, что поисковые системы не очень любят и плохо относятся к повторяющимся материалам, статьям и дубликатам страниц. Что может привести не к очень хорошим результатам. А если вы используете современные CMS движки (WordPress, Joomla и другие) для построения и управления своим Web-сайтом или блогом, то в результате их деятельности происходит большое дублирование контента в индексации сайта. И чтобы этого избежать, необходимо использовать файл robots.txt с настройками и инструкциями для запрещения индексации некоторых разделов сайта.

Далее приведу пример моего файла robots.txt сделанного для этого сайта под управлением WordPress и посмотрим, что он блокирует и что остается в поисковой выдаче:

1. # /robots.txt для сайта www.white-windows.ru
2.
3. User-agent: Yandex
4. Allow: /wp-content/uploads
5. Disallow: /cgi-bin
6. Disallow: /wp-admin
7. Disallow: /wp-includes
8. Disallow: /wp-content/plugins
9. Disallow: /wp-content/cache
10. Disallow: /wp-content/themes
11. Disallow: /trackback
12. Disallow: */trackback
13. Disallow: */*/trackback
14. Disallow: /tag/
15. Disallow: */tag/
16. Disallow: /archive/
17. Disallow: /2012/
18. Disallow: /feed
19. Disallow: /comment/
20. Disallow: /author/
21. Disallow: /search/
22. Disallow: /rss/
23. Disallow: /*.js
24. Disallow: /*.inc
25. Disallow: /*.css
26. Disallow: /*?
27. Disallow: /*.gz
28. Host: www.white-windows.ru
29.
30. User-agent: Googlebot
31. Allow: /wp-content/uploads
32. Disallow: /cgi-bin
33. Disallow: /wp-admin
34. Disallow: /wp-includes
35. Disallow: /wp-content/plugins
36. Disallow: /wp-content/cache
37. Disallow: /wp-content/themes
38. Disallow: /trackback
39. Disallow: */trackback
40. Disallow: */*/trackback
41. Disallow: /tag/
42. Disallow: */tag/
43. Disallow: /archive/
44. Disallow: /2012/
45. Disallow: /feed
46. Disallow: /comment/
47. Disallow: /author/
48. Disallow: /search/
49. Disallow: /rss/
50. Disallow: /*.js
51. Disallow: /*.inc
52. Disallow: /*.css
53. Disallow: /*?
54. Disallow: /*.gz
55.
56. User-agent: *
57. Allow: /wp-content/uploads
58. Disallow: /cgi-bin/
59. Disallow: /*.gz
60. Disallow: /tag/
61. Disallow: */tag/
62. Disallow: /archive/
63. Disallow: /2012/
64. Disallow: /feed
65. Disallow: /trackback
66. Disallow: /comment/
67. Disallow: /rss/
68.
69. Sitemap: https://www.white-windows.ru/sitemap.xml

 

  • Первая строка это просто комментарий.
  • Третья строка User-agent: Yandex – эта строка означает что нижеследующие параметры применимы к поисковой системы Яндекс.
  • Четвертая строка Allow: /wp-content/uploads – эта строка наоборот разрешает сканирование данной категории. Так как я использую CMS WordPress, то в этой папке хранятся картинки. И я открываю для Яндекса и индексирования эту категорию, чтобы индексировались картинки т.к. в популярных поисковых системах есть поиск по картинкам и люди иногда по ним переходят на мой сайт. Хоть и директива Allow(разрешать) и не является стандартом, но тем не менее её поддерживают некоторые поисковые системы.
  • Далее с пятой по двадцать седьмую строчку идут запрещающие индексацию директивы Disallow.

Некоторые, которые, скорее всего, точно нужно закрывать:

  • Это строки 14 и 15 Disallow: /tag/ и Disallow: */tag/ - так как на сайте со временем набирается большое количество тэгов к статьям и материалам то WordPress генерирует дубликаты, что поисковикам не нравиться, поэтому я закрываю это от индексации.
  • Далее строки 16 и 17 Disallow: /archive/ и Disallow: /2012/ - запрет на индексацию архива статей, на всякий случай прописываю год, т.к. не знаю почему проходила индексация.
  • 18 и 22 Disallow: /feed и Disallow: /rss/ - запрет на индексацию RSS ленты новостей анонсов статей.
  • Строка 21 Disallow: /search/ - запрет индексации поиска.
  • Строка 19 Disallow: /comment/ - запрет на индексацию комментариев – хоть и некоторые говорят, что можно и оставить, но я пока не определился и заблокировал.
  • Строка 20 Disallow: /author/ - запрет на индексацию по автору т.к. опять одни и те же статьи получаются.
  • Строки 11, 12 и 13 – закрытие индексации trackback’а.

line2

  • Со строки номер 5 по 10 – запрещаем от индексации различные административно-технические разделы. Обычно они хранят файлы настройки и управления сайта и разные элементы и настройки движков CMS, которые не нуждаются в индексации.
  • Строки с 23 по 27 – запрещает индексацию различных файлов параметров, скриптов, css-стилей таблиц и других ненужных элементов.

line2

  • Строка № 28 Host: www.white-windows.ru – Директива Host используется для определения основного зеркала сайта.
  • Для поисковой системы Яндекса это все. Далее идет строка № 30 User-agent: Googlebot – запреты для поисковой системы Google и нижеследующие параметры, которые я оставил такими же, как и для Яндекса. Единственное директиву Host больше писать не надо. В строке № 56 User-agent: * - звездочка указывает на как бы параметры для других любых поисковых систем. Здесь я оставил немного укороченный вариант (пока).
  • И последняя строка № 69 Sitemap: https://www.white-windows.ru/sitemap.xml – эта строка указывает поисковикам, где находится файл sitemap.xml (карта сайта в формате XML) для лучшей индексации сайта.

Вообще в идеале в поисковики должны попадать только ваши статьи, ну и желательно картинки с полным описанием т.к. с картинок тоже на ваш сайт могут переходить люди. Но это не всегда так и обычно в индексацию попадают множество копий, дублей и ненужной информации. Что естественно негативно сказывается на отношении поисковиков к вашему сайту. А за очень большое количество одной и той же информации поисковики могут понизить в рейтинге, или вообще забанить ваш сайт или блог посчитав это за методы черной раскрутки.

Что же на деле получилось у меня для поисковика Яндекс:

В основном я добился индексации только своих статей, страниц из основного верхнего меню и той информации, которую хотел чтобы она проиндексировалась. Но есть и спорные моменты. Например такие как – стоит ли разрешать индексацию категорий. Читая разные форумы, блоги и комментарии я для себя решил оставить в индексации категории. Так как кто-то сказал, что если категория имеет описание с некоторым текстом и статьи при нажатии на категорию высвечиваются в виде списка статей и анонса, то есть не полностью отображается статья, то категории не считаются дублем. В целом и я так думаю.

Еще один вопрос это стоит ли закрывать навигационные страницы page 1 2 3 4 … и т.д.

По идее никто вам не запрещает создавать списки страниц с вашими материалами. И если в них не отображаются статьи полностью, а только анонсом то я думаю, это не есть дубль. Поэтому пока оставил в индексации, хотя можно и убрать.

Итоги всей этой эпопеи в том, что все-таки я для себя решил, что файл robots.txt нужный и его использование крайне необходимо, кстати, настолько, что его даже рекомендуют использовать некоторые именитые поисковые системы.

Indexer Diagnostics — UWP-инструмент от Microsoft для диагностики индексации в Windows 10

Windows 10 имеет довольно неплохой встроенный механизм поиска с поддержкой индексации. Последняя особенно хорошо работает Читать далее

Как найти и удалить с сайта скрытые внешние ссылки

На заре интернета, если бы вы захотели создать свой сайт, скорее всего, заниматься версткой вам Читать далее

Как увеличить скорость индексации сайта?

Молодые ресурсы очень часто страдают из-за медленной индексации сайта. Причин медленной индексации очень много: начиная Читать далее

Основные термины, использующиеся в статистике посещаемости сайта

Интернет-статистика предоставляет вебмастерам довольно точные и подробные сведения относительно посещаемости сайта. При этом на странице Читать далее

Оцените Статью:

1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (Пока оценок нет)
Загрузка...

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *