Noindex, nofollow — чеклист для работы с контентом и ссылками
Noindex и nofollow зачастую называют некорректно: тегами, метатегами, атрибутами. На самом деле noindex — это тег, а nofollow — атрибут внутри тега.
Метатеги — это теги, которые относятся ко всей странице: <meta name=»robots» content=»noindex, nofollow» />
Тег <noindex> создает конструкцию: <noindex> … </noindex>;
атрибут rel=”nofollow” может появляться в конструкции тега.
С помощью этих параметров можно и нужно указывать поисковым роботам Google, Яндекс или других систем, как именно нужно взаимодействовать с контентом, находящимся внутри этих параметров.
Где и как использовать noindex и nofollow
Эти атрибуты могут располагаться в заголовке страницы, и тогда они будут правилом для всего контента. А могут ограждать конкретный текстовый фрагмент, ссылку или изображение.
Для страниц метатеги noindex и nofollow закрывают от индексации:
- страницы регистрации;
- служебные страницы;
- страницы авторов комментариев;
- другие «вредные» для индексации страницы;
Для контента теги noindex и атрибут nofollow закрывают от индексации:
- «вредные» ссылки;
- цитаты из различных источников;
- повторяющийся контент
Чтобы закрыть от индексации страницы — метатеги noindex и nofollow
Когда нужно чтобы страница и контент на ней индексировались, а поисковый робот не переходил по ссылкам. В таком случае используем конструкцию:
<meta name="robots" content="index, nofollow"/>
Когда надо закрыть страницу от индексации, а переходы по ссылкам разрешить, вставляем
<meta name="robots" content="noindex, follow"/>
Чтобы индексировались и ссылки, и сама страница, в заголовке применяем метатег
<meta name="robots" content="index, follow"/>
Для полного закрытия страницы и ссылок на ней от индексации:
<meta name="robots" content="noindex, nofollow"/>
Для примера приведем заголовок страницы, в которой используются метатеги с полным закрытием страницы и ссылок для индексации ее роботом поисковой системы (noindex, nofollow):
<html>
<head>
<meta name="robots" content="noindex,nofollow">
<meta name="description" content="Description для данной странички">
<title>…</title>
</head>
<body>
Для контента и ссылок тег noindex и атрибут nofollow
Чтобы скрыть от индексации фрагмент текста (работает только для Яндекс и Рамблер), используем следующее решение:
<!--noindex--> (текст, который нужно скрыть) <!--/noindex-->
Чтобы скрыть от индексации ссылку, используем:
<a href="https://mysite.com/" rel="nofollow">Текст ссылки </a>
Чтобы скрыть ссылку от индексации и Яндекс, и Google, применяем
<noindex><a href="http://mysite.com/" rel="nofollow">текст ссылки</a></noindex>
Google в данной конструкции принимает только rel=»nofollow», а для Яндекса действуют и noindex, и rel=»nofollow».
<noindex> — неофициальный тег
<noindex>…</noindex> используется поисковыми системами Яндекс и Rambler. Цель — скрыть от индексации указанный контент.
Google на данный тег не обращает внимание, ибо он не является принятым тегом разметки html.
rel=”nofollow” — атрибут внутри тега ссылки
rel=”nofollow” запрещает поисковым системам переходить по указанной ссылке. Конструкция:
<a href="signin.php" rel="nofollow">Войти</a>
Как сообщается в ответе поддержки Google для веб-мастеров, поисковая система не переходит по ссылке и не использует для перехода по ней краулинговый бюджет. Но это не значит, что робот туда не заглянет и не проверит. То есть дальнейшая судьба данной ссылки такая: мы про тебя знаем, но молчим, пока это безопасно.
Если нужно скрыть от индексации страницы только для Google, можно использовать <meta name=»googlebot» content=»noindex» />.
Если нужно закрыть от индексации только для Яндекс – <meta name=»yandex» content=»noindex»/>.
Закрытие индексации через файл robots.txt
Метатеги, описанные ранее <meta name=»robots» content=»noindex, nofollow»> появляются только после открытия роботом страницы и прочтения заголовка.
Закрытие же страницы через файл robots.txt запрещает даже заходить на страницу.
Если поисковая система раньше проиндексировала эту страницу, то она будет находится в индексе поисковых систем (даже после закрытия в файле robots.txt). А в description нам сообщат, что описание для данной страницы отобразить невозможно, ведь она закрыта от индексации в файле robots.txt.
# robots.txt for http://www.w3.org/
User-agent: W3C-gsa
Disallow: /Out-Of-Date
User-agent: W3T_SE
Disallow: /Out-Of-Date
User-agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT; MS Search 4.0 Robot)
Disallow: /
# W3C Link checker
User-agent: W3C-checklink
Disallow:
User-agent: Applebot
Disallow: /People/domain/
# the following settings apply to all bots
User-agent: *
# Blogs - WordPress
# https://codex.wordpress.org/Search_Engine_Optimization_for_WordPress#Robots.txt_Optimization
Disallow: /*/wp-admin/
Disallow: /*/wp-includes/
Disallow: /*/wp-content/plugins/
Disallow: /*/wp-content/cache/
Disallow: /*/wp-content/themes/
Disallow: /blog/*/trackback/
Disallow: /blog/*/feed/
Disallow: /blog/*/comments/
Disallow: /blog/*/category/*/*
Disallow: /blog/*/*/trackback/
Disallow: /blog/*/*/feed/
Disallow: /blog/*/*/comments/
Disallow: /blog/*/*?
Поэтому для непроиндексированных страниц можно использовать как вариант закрытия через метатеги в заголовке, так и через файл роботс.тхт.
Если страница уже была проиндексирована, рекомендуем вставить в заголовок, в секцию <head> метатег <meta name=»robots» content=»noindex, nofollow» />. Это исключит ее из индексации и предотвратит последующее попадание в нее.
В данном файле есть несколько блоков. Первый — User-agent — команда для определения робота, к которому относится последующие директивы. В коде файла роботс.тхт, что представлен выше — для робота W3C-gsa, W3T_SE, Mozilla/4.0, W3C-checklink, Applebot. А звездочка ( * ) после команды User-agent — говорит что последующие директивы относятся ко всем поисковым роботам.В большинстве случаев нам понадобиться заголовок в файле robots.txt следующего стандартного вида:
User-agent: * # applies to all robots
Последующие директивы позволяют исключить как отдельные страницы, так и целые папки со страницами. Код будет выглядеть так:
Disallow: / # disallow indexing of all pages
В случае, если в данной папке есть одна или несколько страниц, которые должны быть проиндексированы поступаем следующим образом:
User-agent: *
Disallow: /help #запрещает страницы к индексированию, которые находятся в каталоге, например: /help.html и /help/index.html
Disallow: /help/ #запрещает только те страницы, которые находятся на уровень ниже каталога help, а те, что в этом каталоге - остаются открытыми, например: /help/index.html закрыт, но /help.html - открыт
В файле robots.txt обязательно должно быть хотя бы одно поле Disallow. Как же поступить если нам не нужно закрывать ни одной страницы? Оставляем поле пустым:
Disallow: #если после директивы оставить поле пустым - считается что все страницы сайта остаются открытыми для индексирования
Распространенные ошибки:
- Попытка закрыть от индексации ссылку следующей комбинацией: <nofollow><a href=»index.php»>Перейти</a></nofollow>
Тег <noindex> для разметки html является неофициальным; в официальной разметке есть только атрибут rel или метатег со значением nofollow.
- Попытка закрыть ссылку от индексации с помощью тега <noindex>. Таким образом можно закрыть только анкор (текст ссылки, а не саму ссылку), и только для Яндекс.
Выводы
Для экономии краулингового бюджета важно закрывать от индексации лишние ссылки, вес которых не существенен для продвижения.
Для поисковых систем ссылки nofolow выглядят естественно, а их наличие является нормальным. Однако большое количество исходящих ссылок на сайте может оказаться и минусом, несмотря на то, что они были закрыты от индексации.
Заказать сайт