Google запускает усилия, чтобы сделать роботы Исключение Протокол Интернет-стандарт, открытые источники Robots.txt Parser

Владельцы веб-сайтов уже 25 лет исключают веб-сканеры, использующие Протокол исключения роботов (REP) на файлах robots.txt. Более 500 миллионов веб-сайтов используют файлы robots.txt для разговора с ботами, согласно данным Google. До сих пор никогда не существовало официального стандарта Интернета, никакой документальной спецификации для правильного написания правил в соответствии с протоколом. На протяжении многих лет разработчики делились своими различными интерпретациями протокола, но это создало множество различных неоднозначных методов управления сканерами.

Google работает вместе с Мартейном Костером, автором протокола, веб-мастерами и другими поисковыми системами, чтобы создать предложение представить в Целевую группу по разработке Интернета (IETF) для стандартизации REP:

Предлагаемый проект REP отражает более 20 лет реального мирового опыта полагаться на robots.txt правила, используемые как Googlebot и других крупных сканеров, а также около полумиллиарда веб-сайтов, которые полагаются на РЭП. Эти тонкие зернистые элементы управления дают издателю право решать, что они хотели бы быть ползали на своем сайте и потенциально показаны заинтересованным пользователям. Он не меняет правила, созданные в 1994 году, а определяет по существу все неопределенные сценарии для robots.txt разбора и сопоставления, и расширяет его для современной сети.

Предлагаемая спецификация включает в себя несколько основных элементов, которые веб-мастера и разработчики захотят рассмотреть. Он распространяет использование robots.txt на любой протокол передачи на основе URI (FTP, CoAP и др.), вместо того, чтобы ограничивать его HTTP. Он также реализует новое максимальное время кэширования 24 часов и позволяет владельцам веб-сайтов обновлять robots.txt всякий раз, когда они выбирают, без того, чтобы сканеры перегружать свои сайты с запросами. Если ранее доступный файл robots.txt становится недоступным по какой-либо причине, сканеры будут уважать известные запрещенные страницы, которые ранее были идентифицированы в течение “достаточно длительного периода времени”.

Кроме того, Google предоставила библиотеку СЗ, которая используется для анализа и сопоставления правил в файлах robots.txt, а также инструмент тестирования для тестирования правил. Разработчики могут использовать этот парсер для создания парзеров, которые используют предлагаемые требования REP. Он был обновлен, чтобы убедиться, что Googlebot только сканирует то, что это разрешено, и теперь доступен на GitHub.

“Эта библиотека была вокруг в течение 20 лет, и она содержит части кода, которые были написаны в 90-х годов”, Google Поиск Открыть Sourcing команда заявила в объявлении. «С тех пор библиотека эволюционировала; мы узнали много нового о том, как веб-мастеров писать robots.txt файлов и угловых случаях, которые мы должны были покрыть, и добавил, что мы узнали на протяжении многих лет также в Интернет проект, когда это имело смысл “.

Лиззи Харви, которая поддерживает Google Поиск разработчик документы, обновил и robots.txt спецификации в соответствии с проектом REP. Ознакомьтесь с полным списком изменений, если вы хотите сравнить файл robots.txt с предлагаемой спецификацией. Если предложение о стандартизации REP будет успешно принято IETF, дни прибегая к помощи и пробираться через незарегистрированные правила robots.txt скоро закончится.

Хотите написать для WP таверне? Мы всегда принимаем гостевые сообщения от сообщества и ищем новых участников. Свяжитесь с нами и давайте обсудим ваши идеи.

 

Оригинал: wptavern.com

Добавить комментарий

%d такие блоггеры, как: