Telekommunikation und Smartphones:
Apple iPhone 4S: Siri im Praxistest

von magnus.de

17.10.2011

Neben einigen Verbesserungen an der Hardware ist die wohl wichtigste Innovation bei Apples iPhone 4S der sprachgesteuerte persönliche Assistent Siri. Obwohl die Software laut Apple noch nicht ganz ausgereift ist, funktioniert sie im Praxistest erstaunlich gut - und macht dabei auch noch Laune.

Dass man heute trotz aller Technik noch nicht einfach sein Haus betreten und dem vollvernetzten Wohnruam "Licht an" und "Was läuft gerade im Fernsehen?" und "wie geht es meiner Tochter Lisa?" sagen kann, hat einen guten Grund: Das Verstehen menschlicher Sprache ist für Maschinen überaus schwierig. Dabei geht es nicht nur um das technische Aufnehmen der Schallwellen, Rausfiltern von Störgeräuschen und anderer Stimmen, eliminieren von Tonlagen und Verschnupfungen, Trennen des kontinuierlichen Sprachbreis in Wörter. Das ist noch vergleichsweise einfach.

Schwieriger ist es, bei gleichklingenden Wörtern das richtige zu wählen. Etwa die Silbe "stedt" bei Ortsnamen und "steht" als Verb. Da hilft nur ein Satz drumrum. Schon deshalb sollte man Siri mit ganzen Sätzen füttern. Das hilft beim Verstehen. Daneben gibt es auch noch Wörter mit mehreren Bedeutungen, im Kinderjargon als Teekesselchen bekannt. Auch solche Bedeutungen klären sich nur im Zusammenhang.

Und dann kommt die Grammatik, die man schon als Mensch in der Schule nie richtig kapiert hat, weil sie einer Logik folgt, die schon die alten Griechen in Verzweiflung gestürzt hätte. Bei einfachen Hauptsätzen verstehen auch Computer den Sinn eines Satzes, bei Nebensatz-Konstruktionen kaum noch einer. Aber in der Realität, gibt es unendlich viele gültige Sätze, weil man an jeden Satz, und sei er noch so lang, immer wieder ein Komma, schon gestaltet wie ein Säbel, aus dem Märchen, das wir vor kurzem im neuen Wohnzimmer, mit dem schönen neuen Sofa auf dem Teppich, gefunden haben, gebogen, anfügen kann. :-)

Klare Ansage als Grundbedingung

Klar, bei so einem Satz verlieren sogar Menschen wie Sie und ich die Übersicht, aber Computer scheitern schon bei einfachen Bedingungssätzen a la "Wenn es morgen kalt ist, mach bitte einen Termin mit Klaus aus." - Siri übrigens auch, aber dazu gleich mehr. Zu alle dem sagen Menschen oft nicht, was sie meinen. "Mir ist kalt" heißt oft: "Mach das Fenster zu". Das muss man wissen. Aber davon gibt es zahllose Varianten. Ironie und Witz sind besonders schwierig zu erkennen, muss man dafür doch die Betonung des Satzes (nicht nur der Wörter im Satz) auswerten und auf das vorher gesagte beziehen.

Die Wissenschaft - ja, da gibt es eine -, die sich seit den 60er Jahren des letzten Jahrhunderts mit der Spracherkennung beschäftigt, nennt sich Computer-Linguistik. Der noch lebende Pionier dieser Forschungszweigs ist Noam Chomsky, der nicht nur den Compilerbau, sondern auch die Spracherkennung enorm nach vorne gebracht hat. Wer heute allerdings unter "Spracherkennung" in der Wikipedia nachliest, sieht, dass sich die Forscher überhaupt nicht einig sind, wie der Mensch Sprache verarbeitet. Um so erstaunlicher ist es, dass es Siri überhaupt gibt. Und auch noch in Deutsch und Französisch. Das im täglichen Leben gesprochene Deutsch ist deutlich komplizierter als das gesprochene Englisch (ich rede hier nicht von Literatur, sondern von der im Alltag gesprochenen Sprache).

Apples Blick auf Siri

Der erste Siri-Kontakt

Fragt man

Zum einen muss man Siri überhaupt nicht anlernen. Es geht sofort. Für eine Software, die ganze Sätze versteht und auch als Diktat-Sklave einsetzbar ist, erstaunlich. Die Ergebnisse sind ziemlich gut. Klar hilft eine deutliches Aussprache, aber übermäßig anstrengen muss man sich dafür nicht.

Man muss auch nicht "in das iPhone hineinsprechen". Es reicht, wenn es auf dem Tisch liegt. Ein Vor-den-Mund-halten ist unnötig. Das klappt gut in normalen Räumen, in kleinen stillen Örtchen mit großem Hall kommt öfter mal Mist raus.

Siri startet, wenn der User lange die Home-Taste drückt - sogar wenn das iPhone noch nicht entriegelt ist. Wenn man das iPhone schon entriegelt hat, reicht es, das Gerät einfach ans Ohr zu halten. Die Sensoren des Geräts erkennen das und starten Siri.

Siri ist eine eigenständige Anwendung, die neben allen anderen Apps läuft. Erscheint Siri, drückt das iOS die aktuelle App in den Hintergrund. Als Befehlsempfänger zum Steuern von Apps taugt der Sprach-Butler also nicht. Dennoch kann man Siri in vielen Apps einsetzen: Denn die iPhone-Tastatur hat eine neue Mikrofon-Taste links vom Leerzeichen. Darauf getippt, lassen sich Texte per Sprache eingeben. Praktisch ist das z.B. bei Suchfeldern.

Kein Netz - kein Siri

Die Verarbeitung der Sprache erfolgt übrigens nicht auf dem iPhone selbst. Hat es keine Internet-Verbindung, geht gar nichts. Dann nimmt Siri nicht mal Sprache auf. Aber egal ob WLAN oder 3G, die Reaktion erfolgt meist in 1 bis 2 Sekunden und ist gefühlt sehr schnell. Auch ein Mensch als Gesprächpartner braucht einen kurzen Moment, um mein Gebrabbel zu verstehen. Längere Texte können auch schon mal 3 bis 4 Sekunden dauern, bis sie erkannt sind. Wenn die Erkennung sowieso bei Apple erfolgt, fragt man sich allerdings, warum Siri aufs iPhone 4S beschränkt wurde (Hintergrund: Siri ist ein Entwicklung einer Firma, die Apple vor mehr als einem Jahr gekauft hat. Die nicht mehr erhältliche Ursprungs-App lief auch auf einem iPhone 4).

Hat Siri etwas nicht verstanden oder braucht weitere Informationen, fragt es nach. So entsteht ein einfacher Dialog, wie etwa beim Erstellen einer SMS mit Adressat und Text. Dazu kann Siri auch selbst sprechen und nicht nur Texte auf dem Bildschirm anzeigen. Die Sprachausgabe lässt sich aber auch ausschalten, falls einem die leicht monoton klingende Computerstimme zu sehr nervt.

Bildergalerie: iPhone 4S: Siri im Praxistest

Bild 1Bild 2Bild 3

Klicken Sie auf ein Bild, um die Bildergalerie zu öffnen.

Was beherrscht Siri?

Ein guten Überblick, was Siri alles kann, zeigt das iPhone 4S an, wenn man auf das kleine 'i' neben dem Mikrofon tippt. Es erscheint eine Liste mit Apps, für die es als Front-End dienen kann. Tippt man auf einen Eintrag, zeigt es einem diverse Sprachbeispiele.

Zu den unterstützten Apps gehören: Telefon, Musik, SMS und iMessage, Kalender, Aufgaben, E-Mail, Wetter, Aktien, Wecker, Kontakte, Notizen und die Suche im Web mit Google oder Wikipedia. Was fehlt ist Unterstützung für Karten (geht nur in den USA und wenn man Siri auf US-Englisch stellt), Videos oder Einkäufe per iTunes. Auch Apps startet Siri leider nicht auf Befehl. Als Antwort auf "Starte Safari" kommt als Antwort "Das kann ich nicht für Dich tun, David. Tut mir leid".

Völlig unverständlich ist, dass Siri nicht rechnen kann. Fragt man "Was ist 2 + 4" kommt als Antwort "Ich kann nichts zu "Was ist zwei plus vier" finden." Schaltet man Siri auf Englisch, wirft es die Suchmaschine Wolfram Alpha an, die das richtige Ergebnis liefert. Dabei erkennt es im Englischen die Zahlen richtig und schreibt sie als Ziffern. Hier hinkt die deutsche Beta noch der englischen Version hinterher.

Bezogen auf die bereits genannten Apps kann Siri aber fast alles: Termine vereinbaren, ändern, löschen, anzeigen. Eine Frage wie "Zeige mir alle Mails von Thomas Müller" zeigt sie in Kurzform an. Tippt man eine, landet man in Mail an der richtigen Stelle.

Einen Timer stellen geht genauso einfach: "Stelle einen Timer in 5 Minuten" und schon läuft er. Es lässt sich auch nach dem Wetter fragen: "Wie wird das Wetter heute?". Die Antwort ist allerdings sehr subjektiv. Hat man pralle Sonne, aber nur maximale 10 Grad zu erwarten, sagt Siri: "Es sieht (überwiegend) nicht so gut aus für heute.". Fragt man gezielt: "Ist es heute windig", kommt ein "Nein, heute eigentlich nicht". Das gleiche für die Frage nach Regen.

Möchte man etwas allgemeines wie "Wer ist meine Mutter?" wissen, sagt Siri, dass es noch nicht weiß, wer meine Mutter ist und fragt nach dem Namen. Anschließend klappt die Frage und kann auch bei Anrufen und Nachrichten verwendet werden. Das funktioniert auch für "Vater", "Schwester" und "Ehefrau". Bei letzter kam Siri aber ins Schleudern. Ich sagte "Melanie Göhler", Siri schreibt "Melanie Goehler", findet aber nur eine "Melanie Göhler" und findet das dann wortwörtlich "merkwürdig". Amerikaner - mit Umlauten können Sie einfach nicht umgehen!

Fragen über Fragen

Es lässt sich auch nach dem Wetter fragen:

Noch ein paar Fragebeispiele: "Habe ich neue Mails von Klaus Poster?" - schon sieht man sie in einer Liste - allerdings auch schon die gelesenen, die unterscheidet Siri nicht. "Habe ich neue Mails von Peter Hofmann?" klappt abhängig von der Aussprache. Spricht man das "o" kurz, nimmt Siri an, der Name werde mit zwei 'f' geschrieben und findet nichts. Spricht man "Hofmann" mit langem 'o' klappt es prima. "Zeig mir Termine zum Thema Reiten" fördert einwandfrei sechs Termine auf den Schirm.

Auf die Frage "Kennst Du ein Rezept für einen Apfelkuchen?" gab es erst einmal keine Antwort - schade. Aber es war nur falsch gefragt: "Suche Rezept für einen Apfelkuchen" funktioniert. Siri öffnet Safari mit der Google-Websuche und fördert passende Fundstellen zu Tage. Das "Suche" wirft immer eine Websuche an. Alternativ kann man auch noch ein "in Wikipedia" einflechten (mittendrin oder zum Schluss) und die Suche erfolgt direkt im Internet-Lexikon - auch sehr praktisch.

Bei der Rezept-Frage zeigt sich leider, dass man nicht "irgendwie" fragen kann, sondern dass Siri schon auf gewisse Schlüsselwörter anspringt. Hört Siri die Frage "Wann bin ich geboren?", weiß es damit nichts anzufangen. Bei "Wann ist mein Geburtstag?" spuckt es meine Visitenkarte mit meinem Geburtsdatum aus. Hier müssen die Entwickler noch mehr Varianten bei Fragen hinzufügen.

Eine URL direkt einzusprechen, scheint auf den ersten Blick gar nicht zu gehen. Über einen Umweg geht es doch. Wenn man gar kein Verb in eine Anfrage an Siri verpackt, sucht es automatisch im Web danach. Es reicht also einfach "magnus.de" (gesprochen "magnus" "Punkt" "d" "e") zu sprechen und der Sprach-Butler wirft Google für die Suche an. Üblicherweise ist die Website dann an ersten Stelle zu finden. Ein Fingertipp reicht aus, sie zu öffnen.

Diktat, Freisprechen & weitere Funktionen steuern

Musiksteuerung

Die Musik der Musik-App lässt sich per Siri perfekt steuern. Lieder, Interpreten, Alben, Wiedergabelisten, alles lässt sich beim Namen nennen, stoppen, überspringen oder per Zufall abspielen. Auch hier gibt es nur Schwierigkeiten bei englischen Titeln wie etwa "Indian Summmer" von Friedemann, weil Siri auf "Deutsch" eingestellt ist. Diese findet es dann nicht, oder nimmt einen Titel, der für Siri ähnlich klingt (was bei Indien Sammer lustig sein kann). Kaufen lässt sich dagegen nichts, weder Musik noch Bücher: "Kaufe das Buch 'Max und Moritz' im Bookstore" führt zu "Entschuldigung David, leider kann ich dir mit dem Kaufen von Büchern nicht helfen." Hat man sich anderweitig verhaspelt, reicht ein "Vergiss es!" und Siri bricht die aktuelle Aktion einfach ab.

Freisprech-Einrichtungen

Hat man eine Bluetooth-Freisprech-Einrichtung mit dem iPhone 4S gekoppelt und startet eine Verbindung, springt auf dem iPhone automatisch Siri an. Leider sind die Versuche, Siri dann etwas Verständliches zu sagen, zum Scheitern verurteilt.

Beim im Test verwendeten Cruiser II von Hama erkennt Siri das Ende der Spracheingabe nicht von allein. Scheinbar rauscht das Mikrofon so stark, dass der Pegel nicht unter das notwenige Level fällt. Und die Tests haben wir in einem Wohnraum gemacht (nicht im lauten Auto bei 100 km/h). Man muss also am iPhone auf den runden Siri-Knopf drücken. Dann folgt die nächste Ernüchterung: Siri versteht nur Salat. Ein Billig-Bluetooth-Kopfhörer-Adapter von Pearl konnte sich mit Siri gar nicht verständigen. Ohne die Doppelmikrofone des iPhones mit aktiver Störgeräusch-Unterdrückung scheint die Erkennung nicht zu funktionieren - oder man braucht ein sehr hochwertiges Headset. Beim mitgelieferten Kopfhörer-Kabel gab es diese Probleme übrigens nicht.

Diktieren und Übersetzen

Eine Erinnerung an den Tee einzustellen...entwickelt sich zum Dialog mit Siri.

Neben der Leerzeichen-Taste auf der iPhone-Tastatur ist ein Mikrofon-Symbol, das die Spracheingabe einschaltet. So kann man in jeder Situation, in der die Tastatur erscheint, auch Text sprechen, was oft schneller ist. Bei fließendem Text kann man ganz normal reden. Wenn es aber so etwas wie einen Namen einzugeben gilt, sollte dieser sehr sauber ausgesprochen werden, weil Siri ja keinen Anhaltspunkt dazu hat (etwa in der systemweiten Suche).

Daneben versteht die Spracheingabe auch "Komma", "Punkt", "Fragezeichen" und "Neuer Absatz". Eine kurze E-Mail lässt sich damit schon recht gut diktieren - so lange es keine Fehler gibt; dann muss man doch mit dem Finger die Fehlerstelle antippen und die Korrektur per Finger vornehmen oder noch einmal sprechen. Im privaten Bereich kann man mit kleineren Fehlern sicher leben, im beruflichen sicher weniger.

Die Unfähigkeit mit Wörtern anderer Sprachen als der eingestellten umzugehen, verbaut Siri auch die Möglichkeit, einfache Wörter oder Sätze zu übersetzen. Dabei wäre ein "Was bedeutet das englische 'convinced' in Deutsch?" vorstellbar. Google hat ein entsprechendes Programm ja am Start.

Vorlesen kann Siri nur teilweise. Wenn es im Feedback-Modus ist, spricht ja eine automatische Stimme. Auch SMS-Texte kann Siri vorlesen. Bei E-Mails weigert es sich aber strickt.

Komplexes und Lustiges

Siri kann durchaus lustig sein. Antwortet man auf die Rückfrage "An wen soll ich die Nachricht senden" mit "an niemand" kann er "niemand" leider nicht in den Kontakten finden - fast schon philosophisch.

Bedingungen gehen leider auch nicht: "Wenn morgen gutes Wetter ist, lade meinen Vater um 15:00 zum Tee ein" klappt - wie erwartet - nicht. Wahrscheinlich ist das für die Grammatik-Engine noch viel zu schwierig.

Auf die Frage nach dem Sinn der Lebens kennt der Sprachassistent übrigens viele Antworten, die immer wieder wechseln. Auch bei Fehlermeldungen erhält man nicht immer die gleiche; Siri wechselt ein paar Varianten durch, um wohl einen menschlicheren Eindruck zu hinterlassen.

Einstellen lässt sich an Siri allerdings nicht viel. Die wenigen Möglichkeiten, die man unter "Allgemein / Siri" suchen darf, sind die Sprache (Deutsch, Englisch, Französisch), ob er ein Sprachfeedback geben soll und ob das ans Ohr halten Siri starten soll. Natürlich kann man Siri auch ganz ausschalten. Die Stimme lässt sich nicht wählen. Es ist immer eine Frauenstimme, deren Intonation nicht immer natürlich klingt.

Fazit

In manchen Fällen ist die Spracheingabe in wenigen Sekunden erledigt. Wie etwa beim Timer.

Was für ein Spielzeug! Wer einmal mit seinem iPhone gesprochen hat, kann gar nicht davon lassen. Ständig fällt einem ein, was man noch mal eben probieren könnte. Auch wenn es noch eine Beta ist: viele klare, einfache Anweisungen funktionieren prächtig. Komplexere Anfragen gehen - wie zu erwarten - meist nicht. Dennoch ist Siri bisher das beste, was es für normale Leute wie Du und ich zu kaufen gibt. In manchen Fällen (etwa bei Terminen) ist die Spracheingabe in wenigen Sekunden erledigt, was sonst eine halbe Minute dauert. Das gleiche gilt für eine schnelle SMS, einen Timer oder ein Aufgabe, die einem gerade eingefallen ist.

Die Begeisterung darf aber nicht darüber hinweg täuschen, dass insbesondere in der deutschen Umsetzung noch große Lücken klaffen: Keine Kartenanzeige, kein Rechnen, kein Start von Apps, kein direktes Öffnen von Webseiten, kein Steuern von Apps. Das gerade Freisprecheinrichtungen ihre Probleme mit Siri haben, dürfte Autofahrer nicht gerade begeistern. Auch Musik-Titel zu starten, die ja meist in Englisch sind, stellt Siri noch vor unlösbare Probleme.

Dennoch ist Siri die Knallerfunktion für das iPhone 4S. Wie schon der Touchscreen bei Einführung des ersten iPhones wird Siri unsere Gewohnheit, mit Smartphones und Computern umzugehen, gehörig verändern.

Pros

  • erlernt Begriffe wie "Schwester", "Vater" und "Ehefrau" oder "Tochter Claudia"
  • sehr praktisch für Termine, Telefonate, SMS, Timer, Erinnerungen, Aufgaben und EMails.
  • gute Worterkennung
  • hervorragender Ersatz für die fummelige iPhone-Tastatur
  • Supereinfache Bedienung

Cons

  • Startet keine Programme oder Videos
  • kann nicht rechnen
  • kann noch keine Karten oder Verkehrsdaten anzeigen
  • kann nicht als Steuerung innerhalb von Apps genutzt werden (etwa zu "App schließen").
  • kommt überhaupt nicht mit Deutsch-Englisch-Texten klar
Verwandte Artikel