Lablog Online: Suchen ohne Zensur:
Aus dem Testlabor: Die flexible Peer-2-Peer-Seach-Engine »Yacy«
Die Datensammelwut von Google, die nicht veröffentlichten Algorithmen der Suchmaschine und die bezahlte Werbung gefallen nicht jedem. Die Peer-to-Peer-Suchmaschine »Yacy« kann jeder selbst einsetzen. Im Labor von Network Computing musste die Open-Source-Software zeigen, wie gut sie im praktischen Einsatz ist.
(Fortsetzung des Artikels von Seite 2)
Peer-to-Peer-Netzwerke haben einen schlechten Ruf, da Protokolle wie Edonkey oder Bittorrent im großen Stil zur Verbreitung von Raubkopien genutzt werden. Doch gerade die dezentrale und daher kaum kontrollierbare Datenstruktur solcher Dienste eröffnet neue Anwendungsmöglichkeiten wie für eine Web-Suche.
Startbildschirm der Peer-to-Peer-Suchmaschiene »Yacy«. Die Open-Source-Lösung kann ein Anwender selbst betreiben.
Wer etwas im Internet finden möchte, wendet sich bislang an Google, einem Großkonzern mit finanziellen Interessen. Zahlende Kunden landen in den Ergebnislisten auf den vorderen Plätzen. Viele Suchen führen zu langen Listen gesponserter Links. Pro-Google-Websites, welche Tools wie Analytics verwenden, erreichen ebenfalls bessere Page-Rankings. Sie liegen gleich hinter den Angeboten, welche Google-Ads auf den Seiten einbinden.
Der Betreiber der Suchmaschine gibt seine Suchalgorithmen nicht der Öffentlichkeit Preis. Niemand kann außerdem kontrollieren, welche Webseiten gar nicht in der Suche auftauchen, da sie einer konzerneigenen Zensur unterliegen.
Wer Informationen ohne Einschränkungen im Internet finden möchte, muss folglich seine eigene Suchmaschine verwenden. Diese müsste dann aber weite Teile des Internets durchforsten und indizieren, um akzeptable Ergebnisse zu erreichen. Um diesen Aufwand zu verringern, empfiehlt sich eine Suchmaschine, die sich mit anderen austauschen kann.
Eine solche Suchmaschine ist »Yet another Cyberspace«, kurz Yacy [1]. Die Java-Software kann auf einer Arbeitsstation oder einem Server tätig werden. Der Anwender füttert Yacy mit einer Liste der für ihn interessanten Websites. Das Tool macht sich dann daran, die Sites bis zur vorgegebenen Content-Tiefe zu durchsuchen (Crawl) und zu indizieren. Es folgt dabei natürlich auch den Links zu verwandten Seiten. Zusätzlich kann der Anwender Yacy als Proxy verwenden: Die Suchmaschine begleitet dann den Benutzer auf seiner Reise durch das Web und indiziert alle besuchten Seiten.
Die Suchmaschine lässt sich rein lokal betreiben. So sucht das Tool aber nur die lokal indizierten Ergebnisse. Die eigentliche Stärke von Yacy ist der Peer-to-Peer-Betrieb. Hier schließt sich die eigene Suchmaschine einem weltweiten Yacy-Verband mit mehreren tausend Rechnern an. Suchanfragen durchlaufen dann nicht nur den lokalen Index, sondern auch den der verbundenen Peers. Je mehr das Yacy-Netz wächst, desto umfangreicher werden die Suchergebnisse.
Network Computing hat zu Testzwecken einen Yacy-0.61-Server im Labor Poing aufgesetzt. Die Plattform ist ein 4-Wege-Opteron-846-Server mit 8 GByte RAM, Ubuntu-Server-8.04.1 64-Bit und Sun-JRE6 (Java-Runtime-Environment). Das Laborteam entscheidet sich für die starke Maschine, nachdem erste Tests mit einer schmalbrüstig konfigurierten VM (Virtual-Machine) kläglich scheiterten.
Yacy ist schnell installiert. Es genügt, den Inhalt der von der Yacy-Website herunterladbaren ZIP-Datei in ein Verzeichnis zu entpacken und ein Start-Skript auszuführen. Die Konfiguration der Suchmaschine erfolgt im Browser. Hier wählt der Verwalter den Betriebsmodus und füttert den Crawler mit URLs. Läuft der Rechner hinter der Firewall empfiehlt es sich, ein Port-Forwarding für Port 8080 auf die Maschine einzurichten. Nur so arbeitet Yacy im Senior-Modus und verbindet sich mit anderen Peers.
Ohne Crawl und eine passende Verschlagwortung findet Yacy erst einmal herzlich wenig. Erst die Crawls durch deklarierte Sites oder die Indizierung über den Proxy-Betrieb füttern die Datenbank. Im Test musste Yacy erst einmal ein paar Tage laufen und sich umsehen, bevor die Software akzeptable Suchergebnisse liefert. Wie präzise die Software ans Werk geht, bestimmt letztendlich der Anwender. Bei selbstdefinierten Crawl-Targets lässt sich die Suchtiefe einstellen. Dadurch indiziert die Suchmaschine Sites wesentlich detaillierter, als das bei öffentlichen Suchmaschinen der Fall ist.
Im Test füttert Network Computing Yacy mit einer Vielzahl von News- sowie Magazin-Seiten und Blogs rund um das Thema IT. Nach den ersten Crawls liefert die Suchmaschine sehr genaue Quellen auf Artikel zurück, welche die gewünschten Suchworte enthalten. Leider kombiniert Yacy mehrere Suchworte nicht sehr gut miteinander. Komplexe Suchanfragen mit vielen Begriffen liefern keine sehr präzisen Ergebnisse.
Negativ fällt auch auf, dass die Java-Applikation sehr viele Ressourcen schluckt. Mehrere aktive Crawls beeinträchtigen die Performance der Suchmaschine und des Proxies sehr stark. Das passierte selbst auf der Vierprozessormaschine mit 8 Gbyte-RAM, von denen sich Yacy ganze 6,5 GByte nehmen darf.
Fazit:
Das Konzept der sehr flexibel einstellbaren Suchmaschine gefällt. Allerdings hakt die Implementierung noch an etlichen Stellen. Java ist wahrscheinlich nicht die optimale Sprache für eine so aufwändige und Ressourcen-intensive Applikation. Auch beim Proxy besteht Nachholbedarf, da dieser nicht alle Http-Anfragen korrekt verarbeitet.
Steckbrief
Produkt: Yacy
Charakteristik: Peer-to-Peer-fähige Suchmaschine
Web: http://yacy.net [1]
Preis: Open-Source
Plusminus
+ genaue Indizierung der vom Benutzer vorgegebenen Sites
+ Keine Sponsoren-Links und keine Zensur durch Suchmaschinebetreiber möglich
- Hoher Ressourcenbedarf der Java-Applikation
- Mäßige Performance von Search-Engine und Proxy, auch auf leistungsstarker Hardware
[1] http://yacy.net/
[2] http://yacy.net/
- 1. Seite: Aus dem Testlabor: Die flexible Peer-2-Peer-Seach-Engine »Yacy«
- 2. Seite: Aus dem Testlabor: Die flexible Peer-2-Peer-Seach-Engine »Yacy« (Fortsetzung)
- 3. Seite: Fazit: Das Konzept der sehr flexibel einstellbaren Suchmaschine gefällt. Allerdings hakt die Implementierung noch an etlichen Stellen. Java ist wahrscheinlich nicht die optimale Sprache für eine so aufwändige und Ressourcen-intensive Applikation. Auch beim Proxy besteht Nachholbedarf, da dieser nicht alle Http-Anfragen korrekt verarbeitet. Steckbrief
» Newsletter abonnieren
Täglich aktuelle News und Hintergründe für Fachhändler, ITK-Hersteller, Distributoren und aus der Online-Welt.
» Tipp der Redaktion
Die besten System-Tools für Android
Android erlaubt tiefe Eingriffe in das System – und viele Apps nutzen diese Möglichkeit, um die Leistung zu optimieren und dem Nutzer bei der Bedienung seines Smartphones zu helfen. Wir stellen die besten System-Tools für Android vor.
Zwölf Smartphone-Flatrates ab 20 Euro im Vergleich
Mit Yourfone von E-Plus kommt jetzt eine neue Günstig-Flat für Smartphones. Unsere Kollegen von der Connect haben den Neuling mit der etablierten Konkurrenz verglichen.
Ungarn führt Telefonsteuer ein
Weit weniger Spaß als bisher werden die Bürger Ungarns sicherlich künftig beim Telefonieren haben. Als Reaktion auf die Schuldenlast des Landes hat das Parlament die Einführung einer Telefonsteuer beschlossen.
Weitere Artikel
» Bilderstrecken
» Meistgelesene News
So sexy sind Deutschlands Bäuerinnen
Vor kurzem war es wieder soweit: Die Macher des Deutschen Bauernkalenders suchten nach den schönsten Botschafterinnen für die Landwirtschaft. Die ansprechendsten Bewerberinnen kamen zum Casting nach München und Hamburg. Wir zeigen Ihnen die besten Bilder der Vorauswahlen in unserer Bilderstrecke ...
Massenentlassungen bei HP geplant
Der Rückgang der PC-Nachfrage und die Zusammenlegung von PC-und Druckersparte haben einschneidende Konsequenzen für die Mitarbeiter von HP. Es sollen laut Medienberichten 30.000 Mitarbeiter entlassen werden.