Lablog Online: Suchen ohne Zensur:
Aus dem Testlabor: Die flexible Peer-2-Peer-Seach-Engine »Yacy«
Die Datensammelwut von Google, die nicht veröffentlichten Algorithmen der Suchmaschine und die bezahlte Werbung gefallen nicht jedem. Die Peer-to-Peer-Suchmaschine »Yacy« kann jeder selbst einsetzen. Im Labor von Network Computing musste die Open-Source-Software zeigen, wie gut sie im praktischen Einsatz ist.
Peer-to-Peer-Netzwerke haben einen schlechten Ruf, da Protokolle wie Edonkey oder Bittorrent im großen Stil zur Verbreitung von Raubkopien genutzt werden. Doch gerade die dezentrale und daher kaum kontrollierbare Datenstruktur solcher Dienste eröffnet neue Anwendungsmöglichkeiten wie für eine Web-Suche.
Startbildschirm der Peer-to-Peer-Suchmaschiene »Yacy«. Die Open-Source-Lösung kann ein Anwender selbst betreiben.
Wer etwas im Internet finden möchte, wendet sich bislang an Google, einem Großkonzern mit finanziellen Interessen. Zahlende Kunden landen in den Ergebnislisten auf den vorderen Plätzen. Viele Suchen führen zu langen Listen gesponserter Links. Pro-Google-Websites, welche Tools wie Analytics verwenden, erreichen ebenfalls bessere Page-Rankings. Sie liegen gleich hinter den Angeboten, welche Google-Ads auf den Seiten einbinden.
Der Betreiber der Suchmaschine gibt seine Suchalgorithmen nicht der Öffentlichkeit Preis. Niemand kann außerdem kontrollieren, welche Webseiten gar nicht in der Suche auftauchen, da sie einer konzerneigenen Zensur unterliegen.
Wer Informationen ohne Einschränkungen im Internet finden möchte, muss folglich seine eigene Suchmaschine verwenden. Diese müsste dann aber weite Teile des Internets durchforsten und indizieren, um akzeptable Ergebnisse zu erreichen. Um diesen Aufwand zu verringern, empfiehlt sich eine Suchmaschine, die sich mit anderen austauschen kann.
Eine solche Suchmaschine ist »Yet another Cyberspace«, kurz Yacy [1]. Die Java-Software kann auf einer Arbeitsstation oder einem Server tätig werden. Der Anwender füttert Yacy mit einer Liste der für ihn interessanten Websites. Das Tool macht sich dann daran, die Sites bis zur vorgegebenen Content-Tiefe zu durchsuchen (Crawl) und zu indizieren. Es folgt dabei natürlich auch den Links zu verwandten Seiten. Zusätzlich kann der Anwender Yacy als Proxy verwenden: Die Suchmaschine begleitet dann den Benutzer auf seiner Reise durch das Web und indiziert alle besuchten Seiten.
Die Suchmaschine lässt sich rein lokal betreiben. So sucht das Tool aber nur die lokal indizierten Ergebnisse. Die eigentliche Stärke von Yacy ist der Peer-to-Peer-Betrieb. Hier schließt sich die eigene Suchmaschine einem weltweiten Yacy-Verband mit mehreren tausend Rechnern an. Suchanfragen durchlaufen dann nicht nur den lokalen Index, sondern auch den der verbundenen Peers. Je mehr das Yacy-Netz wächst, desto umfangreicher werden die Suchergebnisse.
Network Computing hat zu Testzwecken einen Yacy-0.61-Server im Labor Poing aufgesetzt. Die Plattform ist ein 4-Wege-Opteron-846-Server mit 8 GByte RAM, Ubuntu-Server-8.04.1 64-Bit und Sun-JRE6 (Java-Runtime-Environment). Das Laborteam entscheidet sich für die starke Maschine, nachdem erste Tests mit einer schmalbrüstig konfigurierten VM (Virtual-Machine) kläglich scheiterten.
Yacy ist schnell installiert. Es genügt, den Inhalt der von der Yacy-Website herunterladbaren ZIP-Datei in ein Verzeichnis zu entpacken und ein Start-Skript auszuführen. Die Konfiguration der Suchmaschine erfolgt im Browser. Hier wählt der Verwalter den Betriebsmodus und füttert den Crawler mit URLs. Läuft der Rechner hinter der Firewall empfiehlt es sich, ein Port-Forwarding für Port 8080 auf die Maschine einzurichten. Nur so arbeitet Yacy im Senior-Modus und verbindet sich mit anderen Peers.
Ohne Crawl und eine passende Verschlagwortung findet Yacy erst einmal herzlich wenig. Erst die Crawls durch deklarierte Sites oder die Indizierung über den Proxy-Betrieb füttern die Datenbank. Im Test musste Yacy erst einmal ein paar Tage laufen und sich umsehen, bevor die Software akzeptable Suchergebnisse liefert. Wie präzise die Software ans Werk geht, bestimmt letztendlich der Anwender. Bei selbstdefinierten Crawl-Targets lässt sich die Suchtiefe einstellen. Dadurch indiziert die Suchmaschine Sites wesentlich detaillierter, als das bei öffentlichen Suchmaschinen der Fall ist.
Im Test füttert Network Computing Yacy mit einer Vielzahl von News- sowie Magazin-Seiten und Blogs rund um das Thema IT. Nach den ersten Crawls liefert die Suchmaschine sehr genaue Quellen auf Artikel zurück, welche die gewünschten Suchworte enthalten. Leider kombiniert Yacy mehrere Suchworte nicht sehr gut miteinander. Komplexe Suchanfragen mit vielen Begriffen liefern keine sehr präzisen Ergebnisse.
Negativ fällt auch auf, dass die Java-Applikation sehr viele Ressourcen schluckt. Mehrere aktive Crawls beeinträchtigen die Performance der Suchmaschine und des Proxies sehr stark. Das passierte selbst auf der Vierprozessormaschine mit 8 Gbyte-RAM, von denen sich Yacy ganze 6,5 GByte nehmen darf.
Fazit:
Das Konzept der sehr flexibel einstellbaren Suchmaschine gefällt. Allerdings hakt die Implementierung noch an etlichen Stellen. Java ist wahrscheinlich nicht die optimale Sprache für eine so aufwändige und Ressourcen-intensive Applikation. Auch beim Proxy besteht Nachholbedarf, da dieser nicht alle Http-Anfragen korrekt verarbeitet.
Steckbrief
Produkt: Yacy
Charakteristik: Peer-to-Peer-fähige Suchmaschine
Web: http://yacy.net [1]
Preis: Open-Source
Plusminus
+ genaue Indizierung der vom Benutzer vorgegebenen Sites
+ Keine Sponsoren-Links und keine Zensur durch Suchmaschinebetreiber möglich
- Hoher Ressourcenbedarf der Java-Applikation
- Mäßige Performance von Search-Engine und Proxy, auch auf leistungsstarker Hardware
[1] http://yacy.net/
[2] http://yacy.net/
- 1. Seite: Aus dem Testlabor: Die flexible Peer-2-Peer-Seach-Engine »Yacy«
- 2. Seite: Aus dem Testlabor: Die flexible Peer-2-Peer-Seach-Engine »Yacy« (Fortsetzung)
- 3. Seite: Fazit: Das Konzept der sehr flexibel einstellbaren Suchmaschine gefällt. Allerdings hakt die Implementierung noch an etlichen Stellen. Java ist wahrscheinlich nicht die optimale Sprache für eine so aufwändige und Ressourcen-intensive Applikation. Auch beim Proxy besteht Nachholbedarf, da dieser nicht alle Http-Anfragen korrekt verarbeitet. Steckbrief
» Newsletter abonnieren
Täglich aktuelle News und Hintergründe für Fachhändler, ITK-Hersteller, Distributoren und aus der Online-Welt.
» Tipp der Redaktion
Acer rockt die Eifel
Rund um den Nürburgring dröhnten einmal nicht die Rennmotoren: Beim Acer Kick-off 2012 brachten stattdessen Bässe und Gitarrensoli die Eifel zum Wackeln. Über 600 Acer-Partner rockten zum Ausklang des Partner-Events im Eifel Stadl zu Live Musik oder ließen sich im Rockstar-Outfit fotografieren.
Die besten Multifunktions-Farblaser ab 300 Euro
Im Gegensatz zu den ultrabilligen Tintenstrahl-Einsteigerdruckern, die oft schon unter 100 Euro zu haben sind, sollte die Investition in einen Multifunktions-Laserdrucker schon etwas besser überlegt sein. Wir sagen Ihnen, welcher Laser sich besonders für welchen Zweck lohnt.
Cisco zurück auf Wachstumskurs
Cisco ist zurück auf der Überholspur. Nach einem radikalen Stellenabbau und einer stärkeren Fokussierung hat der Netzwerkriese im zurückliegenden Quartal sowohl Umsatz als auch Gewinn deutlich ausgebaut.
» Bilderstrecken
» Meistgelesene News
Ist Ihrer auch zu breit?
Die linke Fahrspur ist in vielen Autobahn-Baustellen nur für Fahrzeuge mit maximal zwei Meter Breite zugelassen. Jetzt warnt der ADAC: 67 Prozent der Neuwagenmodelle sind breiter als zwei Meter! Wer nicht nachmisst, riskiert ein Bußgeld.
Chefs versagen im zwischenmenschlichen Umgang
Vielen Führungskräften fehlt es an Empathie im Umgang mit ihren Mitarbeitern und sie erfüllen ihre Aufgaben nicht effektiv. Zu diesem ernüchternden Ergebnis kommt eine Studie des Beratungsunternehmens Development Dimensions International (DDI).
