Если владелец сайта разместит информацию на нем и забудет ограничить доступ роботам поисковых систем — эта информация будет найдена, проиндексирована и появится в результатах поиска.
Существует несколько способов, позволяющих веб-мастерам препятствовать сканированию и индексированию личных и конфиденциальных данных поисковыми системами.
Запрет на индексирование через robots.txt
Файл robots.txt — первый, на который обращает внимание поисковый робот при заходе на сайт, ещё до того, как он обратит внимание на какие-либо страницы. В этом файле можно указать, сканирование каких частей сайта вы хотели бы запретить при помощи команды Disallow
.
Например, если вы не хотите, чтобы сканировалась папка на сайте, содержащая документы, то в файле robots.txt можно указать следующее:
User-agent: * Disallow: /documents/ Disallow: /files/
Предотвращение индексирования при помощи мета-тега noindex
Этот тег можно разместить в исходном коде вашей страницы (в разделе ), тем самым запретив поисковым системам индексировать страницу, даже при обнаружении ссылок на неё с других страниц. Тег выглядит следующим образом:
Обратите внимание, что тег следует разместить на каждой странице, индексирование которой необходимо запретить.
Предотвращение индексирования при помощи заголовка HTTP X-Robots-tag
Эффект тот же самый, как и при использовании мета-тега noindex, но этот приём особенно полезен для нетекстового содержимого, когда нет возможности разместить мета-тег в исходном коде. Ниже приведён пример применения тега X-Robots-tag
в заголовке HTTP-ответа, позволяющего запретить индексацию страницы.
HTTP/1.1 200 OK Date: Tue, 25 May 2010 21:42:43 GMT (…) X-Robots-Tag: noindex (…)
Бухгалтерский финансовый учет. Светлана Бычкова, Дина Бадмаева
Ссылки
Источник: https://www.kobzarev.com/programming/prevent-scanning-of-confidential-data-by-search-engines/