Auswertung der Paradise Papers: Talend klärt auf

Die großen Datenmengen der Paradise Papers wurden auch mit Hilfe von Talend-Software aufgearbeitet und ausgewertet.

(Foto: monsitj - Fotolia)

Das internationale Netzwerk investigativer Journalisten (ICIJ) nutzte Open-Source-Software von Talend für die Auswertung der Paradise Papers. Dabei handelt es sich um 13,4 Millionen verschlüsselte Dokumente von zwei Offshore-Dienstleistern und 19 Steueroasen, die sich der geheimen Abwicklung von Finanztransaktionen politischer Größen und Konzerngiganten verschrieben haben. Das ICIJ nutzte Talend, um mehr als 1,4 Terabyte unstrukturierter Daten in eine »Neo4j«-Graphdatenbank zu laden. Mit der Software »Linkurious«, einer Plattform für die Graphvisualisierung, erfolgten Informationszugriff und Datenorganisation. Pierre Romera, CTO des ICIJ: »Das Arbeiten mit Open-Source-Tools wie Talend gewährleistet die Sicherheit und Zuverlässigkeit der Daten.« Thomas Steinborn, Senior Director Produkt Management bei Talend, meint dazu: »Die Journalisten haben die Rohdaten genommen und zur Aufbereitung ist Talend ins Spiel gekommen. Wir waren ein kleines, aber nicht unbedeutendes Puzzleteil.«

Talend hat 2006 mit Datenintegration angefangen. 2017 hat das Unternehmen eine Technologiepartnerschaft mit Amazon, Microsoft und Google aufgesetzt. Steinborn sieht das Unternehmen auf einem guten Weg: »Wir haben im Q3 den Umsatz um 40 Prozent gesteigert im Vergleich zum Vorjahr. Die Wachstumsfelder sind Cloud und Big Data, und die Enterprise Customer Base hat dabei um 60 Prozent zugenommen.«

Stark im Trend lägen Intelligence, Machine Learning und Deep Learning, hier biete Talend entsprechende Connectoren an, etwa um Duplikate zu erkennen. »Self Service als Trend ist auch elementar für uns«, so Steinborn. »Data Preparation ist eine dieser Self-Service-Applikationen, die exemplarisch dafür steht, was wir in der Zukunft machen wollen und wie sich das Ökosystem ändert.« Bis Ende dieses Jahres habe Talend mit Data Preparation, Data Stewardship, Data Streams und Data Catalog alle Tools, um den Fachanwender zu unterstützen. Als weiteres wichtiges Thema sieht Steinborn die Datenschutzgrundverordnung (DSGVO) an. »Wir müssen den Kunden helfen bei der Nachverfolgbarkeit, und die Möglichkeit schaffen, Daten zu anonymisieren und zu maskieren, auch Meta-Data-Management und das Recht auf Vergessen sind sehr wichtig.« Das schlimmste sei, wenn man gar nicht wisse, wo die Daten sind. Der Versandhändler Otto sei in seiner ersten Aufwandsschätzung davon ausgegangen, dass Kundendaten in etwa 100 Systemen vorlägen. »Als sie dann in das Projekt eingestiegen sind, haben sie festgestellt, dass es 500 sind. Dem Mittelständler geht es genauso: Er denkt es sind fünf, aber er hat 20. Gleiches Problem.«

Noch im Jahr 2018 soll »Talend 7« als Plattform runderneuert werden. »Wir leben in einer Cloudwelt. Talend war anfangs eher On Premise unterwegs und hat erst 2015 angefangen, Public Cloud Services aufzubauen«, führt Steinborn aus. Dieses Jahr bringe man beide zusammen. »Es wird eine Plattform sein in der Cloud wie On Premise, es ist die gleiche technologische Plattform.« Ein spannendes Thema wenn auch nicht für 2018 sei die Blockchain. »Sie wäre ein Technik um zu dokumentieren, wie habe ich meine Daten verarbeitet, wer war involviert, welches System hat den Datensatz angefasst. Das könnten wir 2019 mit einbinden«, so Steinborn.