robots.txt

  • Автор темы Автор темы Klenoviy
  • Дата начала Дата начала

Klenoviy

Творец (III)
Сообщения
25
Реакции
5
Баллы
214
Cоставления правил для файла robots.txt

Спецсимволы:
  • * - любое кол-во любых символов
  • $ - отменяет * и фиксирует строку
  • если в конце правила нет знака $, то ПС считают, что там стоит *
Закрытие сайта от индексации:
User-agent: *
Disallow: /

Закрытие отдельной папки
Например нужно закрыть https://site.ru/blog/
User-agent: *
Disallow: /blog/

Разрешить некоторые файлы в закрытой папке:
User-agent: *
Disallow: /blog/
Аllow: /blog/file.php

Закрыть отдельную страницу, но вложенные страницы должны быть открыты:
User-agent: *
Disallow: /blog/$

Закрытие отдельного файла в поисковых системах:
User-agent: *
Disallow: /blog/file.php

Закрытие от индексации изображений:
User-Agent: *
Disallow: *.jpg
Disallow: *.png
Disallow: *.gif

Открыть для индексации изображений:
User-Agent: *
Allow: *.jpg
Allow: *.png
Allow: *.gif
 
Дополнительные директивы для Яндекс

«Crawl-delay:». Минимальный период времени в секундах между окончанием загрузки одной и началом загрузки следующей страницы для поисковых роботов.
Например,
Crawl-delay: 1

«Clean-param:». GET-параметры, не влияющие на отображение контента сайта. Это могут быть UTM-метки или ref-ссылки.
Например,
Clean-param: utm /dir/blog.php

«Sitemap:». Путь к XML-карте сайта.
Например,
Sitemap: https://site.ru/sitemap.xml

Использование мета-тега name="robots" для закрытия сайта

<meta name="robots" content="noindex, nofollow"/>

При помощи данного мета-тега можно обращаться напрямую и к одному из роботов, используя вместо name="robots" имя робота, а именно:

Для Google:
<meta name="googlebot" content="noindex, nofollow"/>
Для Яндекса:
<meta name="yandex" content="none"/>
 
Crawl-delay: игнорируется и во многом устарел. Кстати, сейчас рекомендуют вместо clean-params использовать rel=canonical, при этом rel=canonical не должен указывать сам на себя.
 
Crawl-delay: игнорируется и во многом устарел. Кстати, сейчас рекомендуют вместо clean-params использовать rel=canonical, при этом rel=canonical не должен указывать сам на себя.
Забавно... Яндекс Вебмастер периодически в рекомендациях предлагает использовать директиву Clean-param, хотя используется rel=canonical )))
 
Забавно... Яндекс Вебмастер периодически в рекомендациях предлагает использовать директиву Clean-param, хотя используется rel=canonical )))
А как быть в случае, когда URL, получающийся в результате «обрезания» параметров с помощью директивы Clean-param, в свою очередь является неканоническим? В подобных случаях поисковик может просто проигнорировать директивы.
 
А как быть в случае, когда URL, получающийся в результате «обрезания» параметров с помощью директивы Clean-param, в свою очередь является неканоническим? В подобных случаях поисковик может просто проигнорировать директивы.
Как говориться... «доверяй, но проверяй»
 
Как говориться... «доверяй, но проверяй»
или быть как Остап Бендер, великим комбинатором разных подходов:)

В свое время понравилась вот такая статья (хотя старенькая, и может что поменялось года за 4):

Использование директивы Clean-param в файле robots.txt ограничивается только страницами, имеющими в URL динамические параметры. Это могут быть как параметры, не влияющие на содержимое (например, идентификаторы сессий или рефереры), так и влияющие (например, режимы сортировки). Неканонический URL подклеивается к каноническому, который образован путем удаления указанных в директиве параметров. Естественно, что такой канонический URL должен иметь отклик 200, иначе никакой склейки не произойдет. Данный способ также не приводит к расходу краулингового бюджета, т.к. в этом случае поисковый робот просто не будет скачивать неканонический URL. Однако, надо иметь в виду, что по этой же причине поисковику будут неизвестны ссылки, находящиеся на неканоническом URL. Поэтому целесообразно применять этот способ в случаях, когда «обрезаемые» параметры не влияют на содержимое страницы либо значений этих параметров может быть достаточно много, чтоб оказать заметное влияние на расход краулингового бюджета (например, результаты поиска по сайту).

Использование атрибута canonical тега link – третий вариант, который мне представляется во многих случаях наиболее предпочтительным. К плюсам этого метода относится то, что, как и при любой склейке, происходит суммирование нетекстовых факторов неканонической и канонической страниц (что, кстати, непосредственно подтверждено сотрудником Яндекса Александром Смирновым на Шестой Вебмастерской) плюс происходит учет ссылок, находящихся на неканонической странице (что также было непосредственно подтверждено в блоге собирательного образа службы поддержки Яндекса Платона Щукина).

Единственный минус этого метода – это то, что неканонические страницы в силу того, что они имеют отклик 200, так же, как и в случае с noindex в мета-теге robots, будут выбирать краулинговый бюджет. И так же неканоническая страница может довольно продолжительное время находится в индексе до того момента, как будет склеена с канонической.

Тем не менее данный способ отлично подходит, например:

  • для склейки страниц пагинации
  • различных вариантов сортировки
  • результатов применения фильтров к спискам и т.п.
  • а также «обрезания» динамических параметров URL.
Кстати, что касается пагинации, то сотрудники Google рекомендуют использовать атрибуты rel=”next” и rel=”prev” тега link. Однако Яндекс не поддерживает эти директивы. Поэтому я все-таки рекомендую использовать rel=”canonical” для обоих поисковиков, тем более, что практика показывает, что эта директива прекрасно работает и в Google. Есть различие между Яндексом и Google и непосредственно в обработке директивы rel=”canonical” – Яндекс, в отличие от Google, не поддерживает кросс-доменность этой директивы, то есть нельзя склеить страницы, находящиеся на различных поддоменах.

И в заключение хотелось бы отметить, что следует избегать многократного последовательного применения директив склейки. Например, цепочек редиректов или указания в качестве канонической страницы, которая сама содержит директиву rel=”canonical” на с указанием третью страницу. Равно как и последовательно комбинировать различные методы склейки.
 
или быть как Остап Бендер, великим комбинатором разных подходов:)
Лучше и не скажешь))

А статья отличная!
Касательно директивы Clean-param, мне кажется её точно стоить использовать для URL (посадочных страниц) в контекстной рекламе с UTM-метками и прочими параметрами
 
Если гет запросы не влияют на отображения страниц, добавляю в роботс
Код:
Disallow: *?*
Это нормальная практика?
 
Если гет запросы не влияют на отображения страниц, добавляю в роботс
Код:
Disallow: *?*
Это нормальная практика?
Не особо. Дело в том, что вы запрещаете к индексации все страницы, у которых в GET есть ? . Здесь лучше применить canonical, обрезав в нем ? и все, что идет далее.
 
Наткнулась тут..... индексирование страниц Google
URL с get-параметрами на которые есть внутренние ссылки могут быть проиндексированы, даже если rel=canonical указывает на версию без параметров,
т.к. Google учитывает разные факторы при выборе версии URL, которая показывается в поиске

Подробнее
 
Наткнулась тут..... индексирование страниц Google
URL с get-параметрами на которые есть внутренние ссылки могут быть проиндексированы, даже если rel=canonical указывает на версию без параметров,
т.к. Google учитывает разные факторы при выборе версии URL, которая показывается в поиске

Подробнее
Спасибо за видео, было интересно. Вроде там он говорит о том, что если rel=canonical указывает на страницу, где есть свой rel=canonical, об этом писалось выше. Плюс здесь все же речь ведется о внешних ссылках с utm метками, а это немного другая история. И, если есть такие сомнения, у вас есть такие инструменты, как disallow (robots.txt), директива meta robots, 302, 301 редирект.
 
Как правильно использовать CLEAN PARAM если страниц такого вида:
Код:
/catalog/doma/project1.html?sphrase_id=461
/catalog/doma2/project123.html?sphrase_id=460
/catalog/doma3/project1123.html?sphrase_id=41
/catalog/doma1/project1421.html?sphrase_id=40
/catalog/doma3/project1421.html?sphrase_id=15

sphrase_id - страницу не меняет
Catalog- постоянный раздел, doma и project1 меняются в зависимости от проекта. Правильно ли будет вот так?

Код:
Clean-param: sphrase_id /catalog/*.html
 
Как правильно использовать CLEAN PARAM если страниц такого вида:
Код:
/catalog/doma/project1.html?sphrase_id=461
/catalog/doma2/project123.html?sphrase_id=460
/catalog/doma3/project1123.html?sphrase_id=41
/catalog/doma1/project1421.html?sphrase_id=40
/catalog/doma3/project1421.html?sphrase_id=15

sphrase_id - страницу не меняет
Catalog- постоянный раздел, doma и project1 меняются в зависимости от проекта. Правильно ли будет вот так?

Код:
Clean-param: sphrase_id /catalog/*.html
может будет достаточно ? Clean-param: sphrase_id /catalog/* Плюс, если сомневаетесь, что яндекс вэб мастер, что google search console предлагают инструменты по проверке robots.txt, и что-то там было у binga
 
Я бы еще закрыл бы сайт от не нужных роботов:
User-agent: grub-client
Disallow: /

User-agent: grub
Disallow: /

User-agent: looksmart
Disallow: /

User-agent: WebZip
Disallow: /

User-agent: larbin
Disallow: /

User-agent: b2w/0.1
Disallow: /

User-agent: psbot
Disallow: /

User-agent: Python-urllib
Disallow: /

User-agent: NetMechanic
Disallow: /

User-agent: URL_Spider_Pro
Disallow: /

User-agent: CherryPicker
Disallow: /

User-agent: EmailCollector
Disallow: /

User-agent: EmailSiphon
Disallow: /

User-agent: WebBandit
Disallow: /

User-agent: EmailWolf
Disallow: /

User-agent: ExtractorPro
Disallow: /

User-agent: CopyRightCheck
Disallow: /

User-agent: Crescent
Disallow: /

User-agent: SiteSnagger
Disallow: /

User-agent: ProWebWalker
Disallow: /

User-agent: CheeseBot
Disallow: /

User-agent: LNSpiderguy
Disallow: /

User-agent: ia_archiver
Disallow: /

User-agent: ia_archiver/1.6
Disallow: /

User-agent: Teleport
Disallow: /

User-agent: TeleportPro
Disallow: /

User-agent: MIIxpc
Disallow: /

User-agent: Telesoft
Disallow: /

User-agent: Website Quester
Disallow: /

User-agent: moget/2.1
Disallow: /

User-agent: WebZip/4.0
Disallow: /

User-agent: WebStripper
Disallow: /

User-agent: WebSauger
Disallow: /

User-agent: WebCopier
Disallow: /

User-agent: NetAnts
Disallow: /

User-agent: Mister PiX
Disallow: /

User-agent: WebAuto
Disallow: /

User-agent: TheNomad
Disallow: /

User-agent: WWW-Collector-E
Disallow: /

User-agent: RMA
Disallow: /

User-agent: libWeb/clsHTTP
Disallow: /

User-agent: asterias
Disallow: /

User-agent: httplib
Disallow: /

User-agent: turingos
Disallow: /

User-agent: spanner
Disallow: /

User-agent: InfoNaviRobot
Disallow: /

User-agent: Harvest/1.5
Disallow: /

User-agent: Bullseye/1.0
Disallow: /

User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95)
Disallow: /

User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0
Disallow: /

User-agent: CherryPickerSE/1.0
Disallow: /

User-agent: CherryPickerElite/1.0
Disallow: /

User-agent: WebBandit/3.50
Disallow: /

User-agent: NICErsPRO
Disallow: /

User-agent: Microsoft URL Control — 5.01.4511
Disallow: /

User-agent: DittoSpyder
Disallow: /

User-agent: Foobot
Disallow: /

User-agent: WebmasterWorldForumBot
Disallow: /

User-agent: SpankBot
Disallow: /

User-agent: BotALot
Disallow: /

User-agent: lwp-trivial/1.34
Disallow: /

User-agent: lwp-trivial
Disallow: /

User-agent: BunnySlippers
Disallow: /

User-agent: Microsoft URL Control — 6.00.8169
Disallow: /

User-agent: URLy Warning
Disallow: /

User-agent: Wget/1.6
Disallow: /

User-agent: Wget/1.5.3
Disallow: /

User-agent: Wget
Disallow: /

User-agent: LinkWalker
Disallow: /

User-agent: cosmos
Disallow: /

User-agent: moget
Disallow: /

User-agent: hloader
Disallow: /

User-agent: humanlinks
Disallow: /

User-agent: LinkextractorPro
Disallow: /

User-agent: Offline Explorer
Disallow: /

User-agent: Mata Hari
Disallow: /

User-agent: LexiBot
Disallow: /

User-agent: Web Image Collector
Disallow: /

User-agent: The Intraformant
Disallow: /

User-agent: True_Robot/1.0
Disallow: /

User-agent: True_Robot
Disallow: /

User-agent: BlowFish/1.0
Disallow: /

User-agent: JennyBot
Disallow: /

User-agent: MIIxpc/4.2
Disallow: /

User-agent: BuiltBotTough
Disallow: /

User-agent: ProPowerBot/2.14
Disallow: /

User-agent: BackDoorBot/1.0
Disallow: /

User-agent: toCrawl/UrlDispatcher
Disallow: /

User-agent: WebEnhancer
Disallow: /

User-agent: suzuran
Disallow: /

User-agent: VCI WebViewer VCI WebViewer Win32
Disallow: /

User-agent: VCI
Disallow: /

User-agent: Szukacz/1.4
Disallow: /

User-agent: QueryN Metasearch
Disallow: /

User-agent: Openfind data gathere
Disallow: /

User-agent: Openfind
Disallow: /

User-agent: Xenu's Link Sleuth 1.1c
Disallow: /

User-agent: Xenu's
Disallow: /

User-agent: Zeus
Disallow: /

User-agent: RepoMonkey Bait &amp; Tackle/v1.01
Disallow: /

User-agent: RepoMonkey
Disallow: /

User-agent: Microsoft URL Control
Disallow: /

User-agent: Openbot
Disallow: /

User-agent: URL Control
Disallow: /

User-agent: Zeus Link Scout
Disallow: /

User-agent: Zeus 32297 Webster Pro V2.9 Win32
Disallow: /

User-agent: Webster Pro
Disallow: /

User-agent: EroCrawler
Disallow: /

User-agent: LinkScan/8.1a Unix
Disallow: /

User-agent: Keyword Density/0.9
Disallow: /

User-agent: Kenjin Spider
Disallow: /

User-agent: Iron33/1.0.2
Disallow: /

User-agent: Bookmark search tool
Disallow: /

User-agent: GetRight/4.2
Disallow: /

User-agent: FairAd Client
Disallow: /

User-agent: Gaisbot
Disallow: /

User-agent: Aqua_Products
Disallow: /

User-agent: Radiation Retriever 1.1
Disallow: /

User-agent: Flaming AttackBot
Disallow: /

User-agent: Oracle Ultra Search
Disallow: /

User-agent: MSIECrawler
Disallow: /

User-agent: PerMan
Disallow: /

User-agent: searchpreview
Disallow: /
 
Назад
Верх