Quelloffene Spracherkennungssoftware: »Hey Mozilla…«

Um eine Open-Source-Alternative im Bereich der Spracherkennung zu schaffen, hat Mozilla jetzt eine quelloffene Software inklusive lizenzfreier Trainingsdaten veröffentlicht.

Spracherkennung (Foto: fotolia)

Siri, Alexa, Echo und Cortana bewegen sich noch in einem exklusiven Kreis. Jetzt will Mozilla dafür sorgen, dass auch Kerstin, Rudolf oder Santa die technischen Barrieren niederreißen und die Kommunikation aufnehmen können. Denn obwohl es schon Open-Source-Alternativen im Bereich der Spracherkennung gibt, fehlen ausreichend echte Sprachdaten, mit denen die Fehlerrate der Software reduziert werden kann. Mozilla hat nun sowohl eine quelloffene Spracherkennungssoftware auf Tensorflow-Basis, als auch eine Sammlung frei verfügbarer Trainingsdaten zur Verfügung gestellt.

Die Spracherkennungssoftware setzt auf Deep Learning und hat laut Mozilla eine Fehlerrate von etwa 6,5 Prozent – im Vergleich dazu hatte Google im Mai erklärt, die Fehlerrate ihrer Spracherkennung läge bei knapp unter fünf Prozent. Da es kein standardisiertes Messverfahren gibt, ist ein Vergleich der Werte allerdings nur bedingt sinnvoll. Die Software steht unter der Mozilla-Public-License 2.0 und kann auf Github heruntergeladen werden. Über die Entwickler-Plattform kann sich jeder Anwender auch an der Weiterentwicklung beteiligen.

Hinter Mozillas » Common-Voice-Projekt« verbirgt sich eine umfangreiche Sammlung frei verfügbarer Trainingsdaten, die Mozilla jetzt unter einer freien Lizenz veröffentlicht hat. Das heißt, die Trainingsdaten können für kommerzielle und nichtkommerzielle Zwecke verwendet werden. Über die Common-Voice-Website können Anwender am Ausbau der Sprachdaten mitwirken, indem sie vorgefertigte Sätze ablesen, die dann in den Datenbestand integriert werden. Derzeit umfasst das Spracharchiv etwa 500 Stunden Sprachaufnahmen, die sich aus 400.000 Einzelaufnahmen von 200.000 unterschiedlichen Personen zusammensetzen.