Викисклад включает в себя около 1,1 миллиарда работ в различных форматах – литературных произведениях, видео, фотографиях, аудио, научных исследованиях и других форматах. Поскольку половина этих работ, по оценкам, изображения, прототип для нового инструмента поиска фокусируется на этом формате.
«Наша цель состоит в том, чтобы охватить все достояния, но мы хотели бы разработать что-то люди могли бы проверить и реагировать на это было бы полезно при запуске», Creative Commons генеральный директор Райан Меркли сказал. «Чтобы построить нашу бета-версию, мы остановились на цели представлять один процент известных Викисклада, или около 10 миллионов работ, и мы выбрали вертикальный срез изображений только, чтобы полностью изучить специально созданный интерфейс, который представлял один тип, но многие поставщики».
CC Поиск в настоящее время тянет CC-лицензированных изображений из Rijksmuseum, Flickr, 500px, Нью-йоркской публичной библиотеки, и Метрополитен-музей искусств. Это включает в себя 200000 новых изображений из коллекции 375000 цифровых работ, которые Met выпущен в соответствии с CC0 на этой неделе.
В дополнение к новому интерфейсу поиска, бета-версия включает в себя социальные инструменты, которые позволяют пользователям курировать и делиться своими списками, добавлять теги и избранное, а также сохранять поиск. Встроена атрибуция одним щелчком мыши, что позволяет пользователям правильно отнести работы.
Поскольку Creative Commons является небольшой организацией и довольно опираться на ресурсы, новый поиск был построен одним подрядчиком в течение семи месяцев. Инженер-программист Лиза Дали была выбрана для исследования и создания доказательства концепции для CC Search, проект, который она понимает, чтобы быть «входной дверью во вселенную открыто лицензированного контента».
«CC Search предназначен для того, чтобы сделать материал более обнаруживаемым независимо от того, где он находится», сказал Дели. «По этой причине (и для очевидных целей экономии), мы решили разместить только метаданные изображения — название, имя создателя, любые известные теги или описания — и ссылку непосредственно на поставщика для отображения изображения и загрузки. Следствием этого является то, что CC Search включает только изображения, которые в настоящее время доступны в Интернете; CC не собирает и не архивирует никаких изображений».
Daly создал функцию поиска на облачной инфраструктуре AWS с помощью Python, Django, Postgres и Elasticsearch. Бета-версия оценила расходы на хостинг в ,400/month. Она выбрала Python, потому что она была наиболее знакома с ним.
«По мере развития прототипа мы решили, что возможность привлечения входной двери в Викисклад заключается в курировании и персонализации», — сказал Дали. «Из-за своей специализированной команды обслуживания и частого управления исправлениями, я выбрал Django в качестве веб-платформы». Она выбрала Elasticsearch над Solr (и другие варианты) в первую очередь из-за AWS в Elasticsearch-как-сервис.
«CC Search не является, в настоящее время, особенно сложные поисковые приложения; метаданные изображения относительно просты, и при работе с неоднородным контентом, установленным из различных поставщиков, человек стремится к подходу с наименьшим общим знаменателем – наш поиск может быть таким же богатым, как и наш самый слабый источник данных», — сказал Дейли. «Существует много, чтобы быть улучшены здесь.»
Дали также описал интересную идею добавления архитектуры типа блокчейн, которая будет записывать лицензионные транзакции, обмен и благодарность распределенным способом. Эта идея выходит за рамки MVP, но может быть что-то будущие разработчики проекта будут учитывать при реализации окончательной версии.
«Долгосрочная цель этого проекта заключается в том, чтобы облегчить не только поиск и открытие, но и повторное использование и «благодарность», — сказал Дали. «Частая жалоба на открытые лицензии в целом — как для творческих работ и программного кода — является то, что вклад в достояние может быть неблагодарной задачей. Есть всегда больше потребителей, чем участников, и нет открытой веб-эквивалент аналогии с Facebook «нравится».
Другие будущие улучшения, которые команда рассмотрит на основе отзывов пользователей, включают добавление большего количества партнеров по контенту, дополнительные инструменты для настройки списков, предоставление пользователям возможности поиска из собственного кураторского материала и предоставление доверенным пользователям возможности отодвигать метаданные назад в коллекцию. Фильтры поиска также могут быть расширены, чтобы обеспечить поиск по цвету, сверление в теги и поиск публичных списков.
Проверьте бета-версию для нового поиска CC на ccsearch.creativecommons.org.
Оригинал: wptavern.com