Проблема мертвых ссылок и потерянной информации
Веб-сайты приходят и уходят. С ними обычно уходит и их информация. Все это приводит к появлению мертвых ссылок, если рассматриваемый контент был также получен из других внешних источников. Обычно я не волнуюсь по этому поводу, поскольку я не вкладывал своих сил в данный контент. Однако бывают ситуации, когда контент актуален в контексте новостей; также он может представлять собой важный временной отрезок.
Иной раз веб-сайт, на котором публиковались мои статьи, перестает работать или отмирает – в той или иной степени – и мне становится очень грустно оттого, что мой контент тоже становится недоступным.
Три сайта, на которых я писал свой ранний WP-контент, удалили эту информацию или перенесли ее. Все это опечалило меня.
Некоторые из моих первых статей по WordPress были опубликованы на форумах WP Tavern, Theme Hybrid (приватный форум) и WPCandy. В каждой ситуации произошло что-то свое. Форумы WP Tavern просто исчезли, хотя мне подсказали, что у них есть оффлайн бэкап, т.е. эти форумы можно восстановить в случае необходимости. Theme Hybrid перенесли все данные в архивы. WPCandy, хотя и существует до сих пор, кажется, дышит на ладан – в их блоге моему авторству принадлежат примерно 130-140 записей. Мне было бы невероятно грустно столкнуться с исчезновением их навсегда.
Все приведенные здесь истории не уникальны. Все мы, активно пишущие статьи и комментирующие в разных сообществах, можем привести навскидку несколько таких историй. Казалось бы, потеря данных – это обычная вещь для нашего времени. Я знаю, что моя подруга, Шивон Макйон, часто сталкивалась с проблемой поиска старого контента для книги «История WordPress», которую она заканчивает писать.
Борьба с мертвыми ссылками
Почему это так важно, и что мы можем с этим сделать? Есть много ресурсов, которые могут быть полезны для нас.
Первый и самый очевидный способ борьбы с мертвыми ссылками – это archive.org, проект, который ставит своей целью максимальную архивацию сети, чтобы сохранить ее для будущих поколений. Archive.org – выдающийся, крупномасштабный проект. Команда прикладывает массу усилий, чтобы задокументировать важные веб-сайты, а также автоматически сохранить все остальные.
Проблема в том, что в случае со многими небольшими веб-сайтами такой подход может оказаться не слишком эффективным. К тому же, скриншоты веб-сайтов могут оказаться устаревшими или не включать в себя все компоненты. Кроме того, если веб-сайт не был структурирован определенным образом или был защищен паролем, то в таком случае архиватор вряд ли сможет что-то сделать.
Потому не стоит полагаться на archive.org – вместо этого лучше все сделать самостоятельно, благо для этого есть два проверенных метода.
Ручные бэкапы
В отдельных сообществах мы можем вручную забэкапить сайты, которые, как нам кажется, могут находиться под угрозой закрытия. Мы можем также связаться с владельцами этих сайтов и запросить бэкапы, даже если это будет выглядеть как наглость.
Когда Шивон писала книгу «История WordPress», она очень волновалась, поскольку WPCandy в любой момент мог перестать работать – поскольку его состояние «становилось все хуже и хуже» – поэтому Шивон решила самостоятельно сделать бэкап с помощью инструмента под названием SiteSucker.
SiteSucker находит URL-адреса, записывает их в журнал, после чего бэкапит исходный HTML. Такая работа может быть выполнена с помощью wget, если вы знаете, как использовать его. Думаю, что многие люди делали это с разными WordPress-сайтами.
Я знаю, что форумы WP Tavern до сих пор существуют оффлайн, и Шивон рассказала мне, что у нее даже есть копия старых b2 форумов (b2 – это программа, из которой вышел WordPress). Я также думаю, что у Джастина Тэдлока остался бэкап его форумов. Мне хотелось бы, чтобы для таких вот «потерянных» сайтов появилось отдельное место, где располагались бы их архивы.
Саморазмещенные бэкапы
Еще один метод борьбы с мертвыми ссылками – это бэкап привязанных источников в виде создания нового контента. Berkman Center в данный момент тестирует коммерческий инструмент Amber, предназначенный для борьбы с мертвыми ссылками. В новостной индустрии, в частности, адреса источников для контента могут включать в себя определенный контекст; даже если ссылка умрет впоследствии, дополнительный контекст все равно будет доступен читателям.
Amber сохраняет HTML-код источника, что напоминает механизм работы Archive.org, wget или SiteSucker, однако он хранит его на серверах самого сайта. То есть, если бы я в данный момент использовал бы этот инструмент, то каждая ссылка в этой записи превратилась бы в связанный HTML-документ, который располагался бы на моем сервере – в нем хранилась бы ссылка и контент. Инструмент также детектирует 404-страницы, которые появились уже в будущем (если ссылка в итоге умерла), и предлагает кэшированную версию, взятую с вашего сервера.
Очевидно, что такой инструмент, как Amber, требует немалых инвестиций. Новостным сервисам придется выделять больше ресурсов сервера, однако такие инвестиции оправдывают себя, поскольку они помогают защитить целостность исходного контента.
Сайт Amber приводит статистику, согласно которой 49% ссылок в решениях Верховного Суда США являются мертвыми, и что более чем 135 000 исходных ссылок в Wikipedia мертвы. Одни только эти числа дают хороший обзор ситуации. Представьте себе, какой процент мертвых ссылок содержат древние новостные сайты, такие как New York Times и т.д.
Amber будет доступен в версиях для WordPress и Drupal, а также для большинства платформ, поддерживающих Apache или Nginx. Меня действительно поразил этот инструмент. Я знаю, что он потребует денег (в плане ресурсов сервера, поскольку я не знаю, будет ли это коммерческий продукт или нет), однако если достаточное количество людей примут его, то в таком случае он поможет сохранить информацию в будущем. Мне особенно интересен этот инструмент, поскольку здесь, на сайте Post Status, я часто описываю разные компании и блоги, которые пропадают, если их запуск оказывается провальным.
Почему важно бороться с мертвыми ссылками
Мы не знаем, какие пункты, опубликованные сегодня, будут важны завтра. То, что мы действительно знаем – будущие политики, мировые лидеры, а также многие значимые личности и организации публикуют сегодня материалы онлайн. И когда эти люди и организации займут важное место, мы захотим ознакомиться с их прошлым и их ранними мнениями.
Возможно, что еще более важно, культуры, субкультуры и события, задокументированные онлайн, могут просто не иметь оффлайн-версии. Сеть обладает прекрасным преимуществом перед многими остальными СМИ, как телевидение или новостные газеты, которое заключается в том, что хранение исторических данных происходит гораздо проще, и их проще найти потом. Сеть позволяет нам полностью задокументировать нашу жизнь, что было недоступно прежним поколениям.
Наша обязанность в качестве издателей – защитить не только свой контент, но и контент других. Насколько это просто сегодня осуществить в сети, и насколько сложно это сделать для других средств информации. Я когда-то читал историю про Мэрион Стоукс, которая 35 лет записывала телевизионные новости самостоятельно – новости, которые были бы потеряны, если бы не ее монументальные усилия.
Мы, являясь владельцами сайтов, должны стараться сохранять свой контент. В наших различных специализированных сообществах мы должны прикладывать усилия, чтобы задокументировать и сохранить прошлое.
Есть многочисленные важные истории, публикуемые сегодня, которые могут показаться значимыми для будущих издателей, документалистов, заинтересованных личностей. Вы не знаете, когда именно ваш контент может вновь понадобиться, однако это вполне может произойти, и потому мы должны предпринимать все шаги для того, чтобы сохранить его.
Источник: https://poststatus.com