Необходимость закрытия контента сайта или сайта целиком от индексации может возникнуть в следующих случаях:
Закрыть от индексации можно как весь сайт, так и отдельную страницу. Рассмотрим два основных варианта закрытия от индексации контента – это при помощи метатега robots и директив в файле robots.txt.
Влиять на индексацию контента сайта поисковыми роботами можно прописывая метатег robots либо в http-заголовке, либо в коде страницы.
Ниже приведен пример запрета на индексацию страницы сайта при помощи добавления метатега в http-заголовок в head-раздел страницы. Если метатег robots прописать в http-заголовке главного шаблона (для сайтов с динамическом формированием контента), то он запретит индексацию всего сайта.
<!DOCTYPE html>
<html>
<head>
........
<meta name="robots" content="noindex" />
........
</head>
<body>
</body>
</html>
Чтобы запретить сканирование определенному поисковому роботу, то необходимо указать его user-agent. Пример с роботом Google:
<meta name="googlebot" content="noindex" />
В случае, если нет технической возможности добавить метатег в код http-заголовка, то этот же метатег можно добавить в код страницы, он запретит индексирование страницы всем поисковым роботам:
<meta name="robots" content="noindex, nofollow">
Также можно запретить индексацию всех изображений, размещенных на странице:
<meta name="robots" content="noimageindex">
При помощи директив в файле robots.txt можно ограничить индексацию не только всего сайта, но и отдельных страниц, разделов, папок и файлов сайта. Несмотря на то, что директивы файла robots.txt носят рекомендательный характер и многие краулеры могут их не исполнять, роботы Google и Яндекс работают с файлом достаточно корректно.