YaCy

YaCy
YaCy
YaCy logo.png
Yacy-buscador.png
Тип

Оверлейная сеть, Поисковая система

Разработчик

комьюнити YaCy

Написана на

Java

Операционная система

Кроссплатформенное ПО

Последняя версия

1.2[1] (7 ноябрь 2012)

Лицензия

GPL

Сайт

YaCy.net

YaCy (от англ. Yet another Cyberspace, Ещё одно Киберпространство; созвучно с англ. Ya see) — свободно распространяемая поисковая система, построенная по принципу одноранговых сетей (P2P). Основной программный модуль, написанный на Java, функционирует на нескольких тысячах компьютеров (по состоянию на 2011 год) участников сети YaCy. Каждый участник проекта независимо исследует Интернет, анализируя и индексируя найденные страницы и складывает результаты индексирования в общую базу данных (так называемый индекс), который совместно используется всеми пользователями YaCy по принципу P2P.

В отличие от частично распределённых поисковых систем, сеть YaCy характеризуется децентрализованной архитектурой. Все узлы эквивалентны и отсутствует центральный сервер. Программа может работать в режиме поискового робота или в качестве локального прокси-сервера, индексируя страницы, посещаемые пользователем (при этом игнорируются страницы с признаками персональных данных — cookies и т. п.).

Доступ к функциям поиска обеспечивается за счёт локально запущенного веб-сервера, который генерирует поисковую страницу с полем для ввода поисковых запросов и возвращает результаты поиска в том же формате, что и другие популярные поисковые системы.

Программа распространяется под лицензией GPL. Проект поддерживает европейское отделение фонда свободного программного обеспечения (FSFE).[2]

Проект YaCy был основан Михаэлем Кристеном (нем. Michael Christen) в 2003 году.

Содержание

Преимущества и недостатки

Преимущества

  • Совместный поиск может быть осуществлён с YaCy практически всегда: всегда есть часть сети, которая будет доступна.
  • Интернет-пользователи поисковика YaCy независимы от компаний, их рейтинга (который надо заработать) и их цензуры.
  • Программное обеспечение с открытым исходным кодом, распространяемое по лицензии GNU GPL и является бесплатным.
  • При использовании прокси‐сервера клиента, он может просканировать страницы из глубокой паутины или неиндексированных сетей общего пользования (таких, как I2P), которые не могут быть проиндексированными обычными пауками, такими как в Google, Yahoo или Bing.
  • YaCy не обязательно связан с участием в общественном YaCy-кластере и может, таким образом, быть использованным в качестве поисковой системы в частных сетях (таких, как внутренняя сеть компании) или в частных поисковых сервисах (и индексах) определённой группы страниц.

Недостатки

  • Спамеры, теоретически, могут запускать свои узлы, возвращающие спам в качестве результата. Поэтому клиент имеет функцию проверки страниц на наличие искомого текста.[3]
  • Из‐за того, что YaCy необходимо связаться с другими узлами для запроса, и из‐за упомянутой выше (необязательной) проверки достоверности результатов, поиск занимает больше времени, чем в традиционных поисковых системах.[3]
  • Протокол YaCy организован с использованием индивидуальных HTTP-запросов, что влечет за собой бо́льшие задержки, чем при использовании UDP или TCP с постоянным подключением.
  • В общественной сети «freeworld» для поиска по Всемирной паутине в настоящее время представлено относительно мало «активных» «старших» узлов (хранящих накопленный поисковый индекс и отвечающих на поисковые запросы от других узлов), и они могут выдать относительно немного результатов по сравнению с крупными поисковыми машинами. На один узел приходится до нескольких десятков миллионов записей, поэтому их полное перемещение между узлами занимает значительное время, и резкое выключение или добавление значительного количества узлов может временно ухудшить качество сети для некоторых поисковых запросов, как это произошло после выпуска версии 1.0 в ноябре 2011 года, когда количество участников быстро увеличилось примерно до 4000[3] или 1000[4] (позже оно несколько уменьшилось, оставшись в несколько раз большим, чем до выпуска версии 1.0). Чем больше узлов находится в сети, тем меньше данных хранится на каждом узле относительно размера индекса, и тем меньше влияние на сеть изменения количества узлов. В начале марта 2012 года «активными» были около 1/6 одновременно работавших узлов.

Программа

Ядро поиска отличается от других поисковых систем — это не центральный сайт, а компьютерная программа, которая работает в различных операционных системах. Поиск ведётся на локальном веб-сайте, который работает с помощью установленной программы. Отображение результатов обычно происходит в виде веб-страницы.

В сочетании с дополнительными P2P-системами используется прокси, который автоматически индексирует посещённые страницы. Индексирование не производится в тех случаях, когда данные передаются через GET или POST, или же используются куки (cookies) или HTTP-аутентификации (например, страницы входящие в определённую запароленную зону).[5] Тем самым гарантируется, что действительно индексируются только доступные для общественности данные.

Другие функции

  • YaCy обеспечивает всех пользователей прокси-функцией, которая позволяет также подключатся к другим узлам по адресу ИМЯУЗЛА.yacy или ИМЯХЭША.yacyh. www.ИМЯУЗЛА.yacy может быть главной страницей пользователя, под share.ИМЯУЗЛА.yacy находится файлообменник, а ИМЯУЗЛА.yacy это стандартный интерфейс доступа. Другие поддомены могут быть специально созданы путём создания папки с именем поддомена. Динамический DNS не поддерживается.
  • Кроме .yacy-домена, YaCy предоставляет возможность создавать домашнюю страницу и папки, которые могут быть связаны с текущим IP или адреса динамического DNS и доступны для не YaCy пользователей.
  • YaCy имеет встроенную функцию передачи сообщений с помощью которой можно отправлять текстовые сообщения (с форматированием вики), и, в зависимости от настройки приёмника, также отправлять файлы.
  • YaCy имеет встроенные вики и блог.
  • Есть управление закладками, которые могут быть общедоступными и личными.
  • Есть возможность внесения отдельных областей в чёрные списки.
  • Есть OpenSearch-интерфейс. Каждый узел обеспечивает доступность его по адресу http://<адрес-узла>:<порт-узла>/opensearchdescription.xml, например http://sciencenet.fzk.de:8080/opensearchdescription.xml

Технология

Программа основана на веб-сервере, который также является кэширующим-прокси. Пользователь веб-сервера может получить доступ к оболочке поиска и управления своим собственным узлом. Прокси имеет общий код со сканером, а это значит, что все посещённые через него страницы, которые не являются личными, по умолчанию автоматически записываются в индекс. Кроме того, YaCy предоставляет собственный домен в YaCy-сети, который доступен через прокси-сервер.

Распределённый индекс

В отличие от файлообменных сервисов результаты P2P-поиска должны быть доступны немедленно. Чтобы достигнуть этого YaCy использует распределённую хеш-таблицу (DHT). Это означает, что все распознанные программой URL-адреса и слова отправляются к узлам, которые подходят для хранения соответствующих контрольных сумм слов, узлов или ссылок. При поиске всё работает наоборот: поиск происходит только по узлам, подходящим для хранения хешей URL-адреса для этого слова.

Таким образом, для получения хороших результатов необходимо задействовать только часть узлов.

Типы узлов

Сеть YaCy состоит из четырёх различных типов узлов:

Новичок
Эти узлы не могут быть найдены, потому что новичок не имеет связи с сетью. Таким образом, вы видите только себя, если узел новичок.
Младший
Узел находится за файрволом. Другие относят его к младшим или потенциальным узлам,[6] они видят только последний его запрос и у них нет способа определить, находится ли он до сих пор в сети.
Старший
На старший можно попасть снаружи и он является полноправным членом сети YaCy. В статистике сети работающие в данный момент старшие узлы называются активными, неработающие — пассивными.[6]
Главный
Старший, который выгружает список сидов, используемый для начального соединения с другими узлами.

Протокол

Протокол YaCy состоит из текстовых сервлетов, которые обеспечивает встроенный веб-сервер по адресу /yacy/servletname.html. Другие узлы передают данные через GET-параметры и получают ответ в виде простого текста, точный формат отличается для сервлетов.

Начальная загрузка

При начальной загрузке узел пытается связаться с другими узлами YaCy-сети. Сначала ищутся списки узлов. Первый адрес в superseed.txt служит для загрузки устойчивых YaCy-узлов. seeds.txt является также ссылками на другие узлы, таким образом устанавливается контакт с YaCy-сетью. В следующий раз, когда вы запускаете YaCy, gebootstrapt создаётся из известных с предыдущего раза узлов сети и списки узлов бывает необходимы только когда большинство старых ссылок больше не доступны.

См. также

Литература

  • M. Christen: Peer-to-Peer: Eigenes Suchportal mit Yacy einrichten in iX 02/2008, S. 102 ff.
  • M. Schlenker: Gemeinsam gegen Google in OpenSource, 01/2007, November 2006, S. 94-97
  • J. Bager: Europäische Gegenströmung in c’t, 2006/10, 2. Mai 2006, S.172-174 (Onlinetext)
  • R. Sietmann: Wider die Monokultur. P2P-Strategien gegen die Suchmaschinen-Monopolisierung. in c’t, 2005/16, 25. Juli 2005, S.52-53 (Onlinetext)
  • M. Schwarze: Jedermanns Suchmaschine in: HAZ (Artikel als PDF 107 kB)
  • Michael Christen: YaCy - Peer-to-Peer Web-Suchmaschine in Die Datenschleuder, #86, 2005, S.54-57 (gesamtes Heft als PDF 1,7 MB)

Примечания

Ссылки


Wikimedia Foundation. 2010.

Игры ⚽ Нужно решить контрольную?

Полезное


Смотреть что такое "YaCy" в других словарях:

  • Yacy — Aktuelle Version: 0.7 (14. Januar 2009) Betriebssystem: Plattformunabhängig (dank Java→JRE/J2SE) Kategorie …   Deutsch Wikipedia

  • YaCy — Aktuelle Version 0.99 (5. November 2010) Betriebssystem Plattformunabhängig (Java) Kategorie Suchmaschine …   Deutsch Wikipedia

  • YaCy — Captura de Yacy 0.91 Desarrollador Comunidad YaCy yacy.net/es …   Wikipedia Español

  • YaCy — est un moteur de recherche basé sur le principe d un réseau poste à poste (P2P). Ce logiciel est développé en Java et est actuellement installé sur des centaines (fin 2006) d ordinateurs appelés YaCy peers ou postes YaCy. Chaque poste YaCy lance… …   Wikipédia en Français

  • YaCy — Infobox Software name = YaCy caption = developer = Michael Christen latest release version = 0.61 latest release date = October 2, 2008 operating system = Platform independent programming language = Java genre = Search engine license = GPL… …   Wikipedia

  • Yet another Cyberspace — YaCy Aktuelle Version: 0.7 (14. Januar 2009) Betriebssystem: Plattformunabhängig (dank Java→JRE/J2SE) Kategorie …   Deutsch Wikipedia

  • Sciencenet — Infobox Software name = Sciencenet YaCy caption = developer = Michael Christen latest release version = 0.61 latest release date = October 2, 2008 operating system = Platform independent genre = Search engine programming language = Java license …   Wikipedia

  • Distributed search engine — A distributed search engine is a search engine where there is no central server. Unlike traditional centralized search engines, work such as crawling, data mining, indexing, and query processing is distributed among several peers in decentralized …   Wikipedia

  • Harvester42 — (englisch harvester, „die Erntemaschine, arbeiter“) ist eine Meta Suchmaschine über mehrere große Suchmaschinen. Harvester42 verlinkt den Inhalt von ca. 12 häufig verwendeten Suchmaschinen. Harvester42 verwendet dafür die inframe Methode, welche… …   Deutsch Wikipedia

  • Список поисковых машин — …   Википедия


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»