Technologien für komplexe Informationen auf dem Vormarsch:
Big Data bereichern IT-Lösungen

von Werner Fritsch (werner.fritsch@crn.de)

09.11.2011

Geschäftschancen für die Unternehmen verändern das Informationsmanagement: Riesige Datenmengen jenseits betriebswirtschaftlicher Zahlen erfordern neue Technologien zur Speicherung und Auswertung.

Keine Beiträge im Forum. » Diskussion starten!

Ein neues Schlagwort ist im Bereich des Informationsmanagements immer öfter zu hören: »Big Data«. Es ist einfach und eingängig, und der grundlegende Sachverhalt ist offensichtlich: Die Datenmengen wachsen unaufhörlich und immer schneller. Bisher haben sich die IT-Abteilungen auf harte betriebswirtschaftliche Informationen im Sinn von Zahlen konzentriert und diese vorwiegend in relationalen Datenbanksystemen verwaltet. Solche Informationen werden für die Transaktionsverarbeitung in operativen Datenbanken und für Auswertungszwecke in Data Warehouses oder Marts abgelegt und aufbereitet. Andere Informationen fristeten bislang ein Schattendasein, wurden in separaten Dokumenten- oder Content-Management-Systemen oder gar nicht gespeichert.

Mit großen Datenmengen aus ihren Kundeninteraktionen haben Einzelhandels- oder Telekommunikationsunternehmen schon immer zu tun. Doch inzwischen sind komplexe Informationen in den Blick gerückt: Texte in Office-Anwendungen, Video-Sequenzen für Marketing-Zwecke, Inhalte in sozialen Netzwerken, Daten von E-Commerce-Websites oder RFID-Chips. Mit drei »V« charakterisieren Marktforscher den Trend: Volume (Menge), Variety (Vielfalt) und Velocity (Geschwindigkeit). Hinzu kommt die zunehmende Komplexität der Datenstrukturen. Weitere Aspekte sind die Echtzeitverarbeitung, die Qualität der Daten sowie Zugriffsregelungen.

Die Verwaltung der wachsenden Informationsmengen beschert einerseits Speicherherstellern wie EMC oder Netapp eine Sonderkonjunktur. Andererseits erkennen die Hersteller relationaler Datenbanken wie IBM, Oracle oder Microsoft, dass ihre Systeme für die Ablage der komplexen Daten ungeeignet sind. Für manche Zwecke der fortgeschrittenen Datenanalyse finden Appliances wie Netezza (IBM) oder Greenplum (EMC) Verwendung.

Hadoop als Schlüsseltechnologie

Am häufigsten eingesetzt wird für Big Data neuerdings jedoch eine quelloffene Technologie namens Hadoop, die auf Google zurückgeht und sich unter den Fittichen der Apache Software Foundation befindet. Im Kern handelt es sich dabei um ein leistungsfähiges Dateisystem mit zugehöriger Abfragesprache.

Kaum eine größere Ankündigung von Datenbank- oder Business-Intelligence-Produkten versäumt es, deren nun erreichte Hadoop-Kompatibilität herauszustellen – ob es sich um große Anbieter wie Microsoft oder um kleine wie Jaspersoft handelt. IBM setzt noch eines drauf und arbeitet in dem Watson-Projekt daran, Hadoop mit Technologien der Künstlichen Intelligenz zu bündeln, um mit Komplettsystemen, die eine Neuauflage der alten Expertensysteme darstellen, etwa Ärzte im Gesundheitswesen bei ihren Entscheidungen zu unterstützen.

Brian Hopkins, Analyst bei dem Marktforschungsunternehmen Forrester Research, nennt aus allgemeiner Sicht als technologische Bausteine für die Handhabung von Big Data Verfahren zur Verarbeitung von Datenströmen sowie verteilte Dateisysteme und Datenbanken, die auf extrem hohe Skalierung ausgerichtet sind und dafür die strengen Regeln relationaler Systeme samt der zugehörigen Sprache SQL aufgeben. Hinzu kommen Verfahren für Abfrage und Analyse sowie in gewissem Umfang zur transaktionellen Verarbeitung. Ein Bespiel dafür ist das Framework Map Reduce für parallele Berechnungen auf Server-Clustern, das Google entwickelt hat und das für die Datenhaltungstechnologie Hadoop vorliegt. Für Data-Warehouse-Lösungen gibt es das Framework Hive. Datenströme lassen sich mit einem Werkzeug wie Infosphere Streams von IBM auch ohne Speicherung auswerten.

Voll ausgereift sind diese Big-Data-Softwaresysteme zwar noch nicht, aber die Voraussetzungen scheinen günstig. Die Hardware-Plattformen lassen sich aus preisgünstiger Massenware zusammenstellen und Datenanalysen mit parallelen Verfahren durchführen, wie sie der Warehouse-Spezialist Teradata schon vor Jahren entwickelt hat. Erfassung und Ablage der Big Data werfen keine grundsätzlichen Probleme auf.

Die bereits verfügbaren Big-Data-Technologien sind Hopkins zufolge gut geeignet für komplexe Informationen, wie sie auf Webseiten und Blogs oder in E-Mails vorkommen und für Internet-Firmen wie Google, Yahoo und Facebook besonders relevant sind. Datenströme, die von RFID-Chips oder medizinischen Geräten erzeugt werden, lassen sich damit ebenfalls handhaben, in gewisser Weise ferner Bild- und Ton-Dateien.

Anwendungen in vielen Bereichen

»Es wäre töricht, die Daten liegen zu lassen und nicht auszuwerten.« Rüdiger Spies, Analyst bei IDC

»Es wäre töricht, die Daten liegen zu lassen und nicht auszuwerten«, sagt Rüdiger Spies, Analyst bei der Marktforschungsfirma IDC. Manager brauchen für ihre Entscheidungen alle relevanten Informationen – unabhängig davon, in welchem technischen Format sie vorliegen. Relationale Daten lassen sich mit herkömmlichen Business-Intelligence-Werkzeugen von Anbietern wie SAP (Business Objects), IBM (Cognos), SAS oder Microstrategy auswerten. Für textuelle Informationen gibt es ebenfalls seit einiger Zeit Hilfsmittel, beispielsweise von Autonomy: etwa um Eingangspost als Beschwerde oder Bestellung zu erkennen und entsprechend weiterzuleiten oder um E-Mails automatisch zu beantworten. Auch Stimmungsanalysen, mit denen in Call-Centern oder in sozialen Netzwerken grob analysiert werden kann, was Kunden über die eigenen Produkte sagen, gehören zum technologischen Status quo. Insofern startet man mit den Big Data keineswegs bei Null.

»Für Partner von IT-Herstellern eröffnen Big Data einen lukrativen Markt«, meint Spies. Beratern im Umfeld von Business Intelligence empfiehlt er, Kompetenz aufzubauen und Referenzprojekte zu schaffen. Die Anstöße für solche Projekte müssten von den Fachabteilungen kommen, denn IT-seitig sei fast alles machbar. Interesse sieht er bislang vor allem bei großen Unternehmen.

»Große Daten bedeuten große Gelegenheiten«, pflichtet Stephen Prentice bei, Analyst bei der Marktforschungs- und Beratungsfirma Gartner. Als Beispiele nennt er im öffentlichen Sektor Verkehrsdaten, im Einzelhandel Kundenpräferenzen, in der Logistik die Optimierung der Ressourcen, im Gesundheitswesen statistische Informationen über Krankheiten für bessere Diagnosen und Behandlungsempfehlungen, im Finanzsektor das Risikomanagement.