SOCIAL
PROJECT
Noindex, nofollow — чек лист для работы

Noindex, nofollow — чек лист для работы

  • 0 комментариев
  • 336 просмотров
  • 0 репостов
  • 0 лайков
  • 5

Noindex, nofollow — чеклист для работы с контентом и ссылками

Noindex и nofollow зачастую называют некорректно: тегами, метатегами, атрибутами. На самом деле noindex — это тег, а nofollow — атрибут внутри тега.

Метатеги — это теги, которые относятся ко всей странице: <meta name="robots" content="noindex, nofollow" />

Тег <noindex> создает конструкцию: <noindex> ... </noindex>;

атрибут rel=”nofollow” может появляться в конструкции тега.


С помощью этих параметров можно и нужно указывать поисковым роботам Google, Яндекс или других систем, как именно нужно взаимодействовать с контентом, находящимся внутри этих параметров.


Где и как использовать noindex и nofollow

Эти атрибуты могут располагаться в заголовке страницы, и тогда они будут правилом для всего контента. А могут ограждать конкретный текстовый фрагмент, ссылку или изображение.


Для страниц метатеги noindex и nofollow закрывают от индексации:

  • страницы регистрации;
  • служебные страницы;
  • страницы авторов комментариев;
  • другие «вредные» для индексации страницы;

Для контента теги noindex и атрибут nofollow закрывают от индексации:

  • «вредные» ссылки;
  • цитаты из различных источников;
  • повторяющийся контент

Чтобы закрыть от индексации страницы - метатеги noindex и nofollow

Когда нужно чтобы страница и контент на ней индексировались, а поисковый робот не переходил по ссылкам. В таком случае используем конструкцию:

 <meta name="robots" content="index, nofollow"/>


Когда надо закрыть страницу от индексации, а переходы по ссылкам разрешить, вставляем

 <meta name="robots" content="noindex, follow"/>


Чтобы индексировались и ссылки, и сама страница, в заголовке применяем метатег

<meta name="robots" content="index, follow"/>


Для полного закрытия страницы и ссылок на ней от индексации:

<meta name="robots" content="noindex, nofollow"/>


Для примера приведем заголовок страницы, в которой используются метатеги с полным закрытием страницы и ссылок для индексации ее роботом поисковой системы (noindex, nofollow):

<html>
<head>
<meta name="robots" content="noindex,nofollow">
<meta name="description" content="Description для данной странички">
<title>…</title>
</head>
<body>


Для контента и ссылок тег noindex и атрибут nofollow

Чтобы скрыть от индексации фрагмент текста (работает только для Яндекс и Рамблер), используем следующее решение:

 <!--noindex--> (текст, который нужно скрыть) <!--/noindex-->

noindex, nofollow для ссылок

Чтобы скрыть от индексации ссылку, используем:

<a href="https://mysite.com/" rel="nofollow">Текст ссылки </a>


Чтобы скрыть ссылку от индексации и Яндекс, и Google, применяем

<noindex><a href="http://mysite.com/" rel="nofollow">текст ссылки</a></noindex>

Google в данной конструкции принимает только rel="nofollow", а для Яндекса действуют и noindex, и rel="nofollow".

<noindex> — неофициальный тег

<noindex>...</noindex> используется поисковыми системами Яндекс и Rambler. Цель — скрыть от индексации указанный контент.

Google на данный тег не обращает внимание, ибо он не является принятым тегом разметки html.

rel=”nofollow” — атрибут внутри тега ссылки

rel=”nofollow” запрещает поисковым системам переходить по указанной ссылке. Конструкция:

<a href="signin.php" rel="nofollow">Войти</a>


Как сообщается в ответе поддержки Google для веб-мастеров, поисковая система не переходит по ссылке и не использует для перехода по ней краулинговый бюджет. Но это не значит, что робот туда не заглянет и не проверит. То есть дальнейшая судьба данной ссылки такая: мы про тебя знаем, но молчим, пока это безопасно.

Если нужно скрыть от индексации страницы только для Google, можно использовать <meta name="googlebot" content="noindex" />.

Если нужно закрыть от индексации только для Яндекс – <meta name="yandex" content="noindex"/>.


Закрытие индексации через файл robots.txt

Метатеги, описанные ранее <meta name="robots" content="noindex, nofollow"> появляются только после открытия роботом страницы и прочтения заголовка.

Закрытие же страницы через файл robots.txt запрещает даже заходить на страницу.

Если поисковая система раньше проиндексировала эту страницу, то она будет находится в индексе поисковых систем (даже после закрытия в файле robots.txt). А в description нам сообщат, что описание для данной страницы отобразить невозможно, ведь она закрыта от индексации в файле robots.txt.

# robots.txt for http://www.w3.org/
User-agent: W3C-gsa
Disallow: /Out-Of-Date
User-agent: W3T_SE
Disallow: /Out-Of-Date
User-agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT; MS Search 4.0 Robot)
Disallow: /
# W3C Link checker
User-agent: W3C-checklink
Disallow:
User-agent: Applebot
Disallow: /People/domain/
# the following settings apply to all bots
User-agent: *
# Blogs - WordPress
# https://codex.wordpress.org/Search_Engine_Optimization_for_WordPress#Robots.txt_Optimization
Disallow: /*/wp-admin/
Disallow: /*/wp-includes/
Disallow: /*/wp-content/plugins/
Disallow: /*/wp-content/cache/
Disallow: /*/wp-content/themes/
Disallow: /blog/*/trackback/
Disallow: /blog/*/feed/
Disallow: /blog/*/comments/
Disallow: /blog/*/category/*/*
Disallow: /blog/*/*/trackback/
Disallow: /blog/*/*/feed/
Disallow: /blog/*/*/comments/
Disallow: /blog/*/*?

Поэтому для непроиндексированных страниц можно использовать как вариант закрытия через метатеги в заголовке, так и через файл роботс.тхт.

Если страница уже была проиндексирована, рекомендуем вставить в заголовок, в секцию <head> метатег <meta name="robots" content="noindex, nofollow" />. Это исключит ее из индексации и предотвратит последующее попадание в нее.

В данном файле есть несколько блоков. Первый - User-agent - команда для определения робота, к которому относится последующие директивы. В коде файла роботс.тхт, что представлен выше - для робота W3C-gsa, W3T_SE, Mozilla/4.0, W3C-checklink, Applebot. А звездочка ( * ) после команды User-agent - говорит что последующие директивы относятся ко всем поисковым роботам.В большинстве случаев нам понадобиться заголовок в файле robots.txt следующего стандартного вида:

User-agent: *    # applies to all robots

Последующие директивы позволяют исключить как отдельные страницы, так и целые папки со страницами. Код будет выглядеть так:

Disallow: /      # disallow indexing of all pages

В случае, если в данной папке есть одна или несколько страниц, которые должны быть проиндексированы поступаем следующим образом:

User-agent: *
Disallow: /help          #запрещает страницы к индексированию, которые находятся в каталоге, например:  /help.html и /help/index.html
Disallow: /help/         #запрещает только те страницы, которые находятся на уровень ниже каталога help, а те, что в этом каталоге - остаются открытыми, например: /help/index.html закрыт, но  /help.html - открыт


В файле robots.txt обязательно должно быть хотя бы одно поле Disallow. Как же поступить если нам не нужно закрывать ни одной страницы? Оставляем поле пустым:

Disallow:           #если после директивы оставить поле пустым - считается что все страницы сайта остаются открытыми для индексирования


Распространенные ошибки:

  1. Попытка закрыть от индексации ссылку следующей комбинацией: <nofollow><a href="index.php">Перейти</a></nofollow>
  2. Тег <noindex> для разметки html является неофициальным; в официальной разметке есть только атрибут rel или метатег со значением nofollow.

  3. Попытка закрыть ссылку от индексации с помощью тега <noindex>. Таким образом можно закрыть только анкор (текст ссылки, а не саму ссылку), и только для Яндекс.

Выводы

Для экономии краулингового бюджета важно закрывать от индексации лишние ссылки, вес которых не существенен для продвижения.

Для поисковых систем ссылки nofolow выглядят естественно, а их наличие является нормальным. Однако большое количество исходящих ссылок на сайте может оказаться и минусом, несмотря на то, что они были закрыты от индексации.

Заказать сайт

Вам понравилась статья? Поставьте оценку для рейтинга:

Комментарии (0)

Хотите оставить комментарий?

Получите консультацию
удобным для Вас способом!

Ответим в течении минуты!