Single Blog Title

This is a single blog caption
6
Apr

Digitale Sprachassistenten sind mehr als Hören/Sagen!

If this, maybe that!

Das Spiel „Stille Post“ dürfte wohl jeder kennen. Es wird dem ersten, in einer Kette von vielen Mitspielern ein Satz ins Ohr geflüstert und der empfangende Mitspieler flüstert diesen Satz dann dem nächsten Mitspieler ins Ohr. Der letzte Mitspieler muss den Satz dann laut aussprechen. Der Satz, welcher am Anfang des Spiels von einem Mitspieler eingeflüstert wurde unterscheidet sich meist sehr deutlich von dem welcher am Ende der Kette dann herauskommt. Der Grund dafür ist das ein jeder Mitspieler diesen Satz anders wahrnimmt (persönliche Realität) und dann, ob mit Absicht oder nicht, verfälscht (Rauschen) weitergibt. Siehe auch Shannon-Hartley-Gesetz…

Der Unterschied zur Informationsverarbeitung in einem digitalen Sprachassistenten ist, dass während der Verarbeitung einer vom Nutzer gesprochenen Eingabeinformation, kein solches Rauschen hinzugefügt wird, sondern eine Fakteninformationen aus einer Datenbank, die der Sprachassistent nach einer Analyse (NLU = Natural Language Understanding) den Eingabeinformationen zuordnet. Als technisches System hat der digitale Sprachassistent keine eigene Realität und auch keine eigene natürliche Wahrnehmung/Intuition um die Eingabeinformationen damit zu verfälschen oder zu korrigieren. Er „weiß“ dass die von ihm gefundene und ausgelieferte Information die „einzig richtige“ ist, da es seinen Regeln nach keine andere Möglichkeit gibt, selbst wenn die Ausgabe für den Menschen dennoch unbrauchbar und falsch sein sollte.
Richtigkeit der Ausgabeinformation aus Sicht des …

  • Sprachassistenten = Eingabe > Verarbeitung + NLU > einzig richtige Ausgabe
  • Nutzers = Eingabe > Verarbeitung + NLU > richtige oder falsche Ausgabe

Der Nutzer hat mit seiner Informationseingabe an den digitalen Sprachassistenten eine bestimmte Absicht (Intent), ob diese vom digitalen Sprachassistenten wirklich erfüllt wurde, kann derzeit nur der Mensch entscheiden, nicht die Maschine.

Das Maschinen dies noch nicht leisten liegt können, liegt einfach in der Tatsache dass die Kontextualisierung von Informationen ein sehr schwieriges wissenschaftliches Feld ist. Auch uns Menschen fällt es oft schwer die Zusammenhänge und den Kontext einer Information zu erkennen. So ist z.B der Satz „Sich die Haare wachsen lassen“, das Gegenteil von „Sich die Haare wachsen lassen!“ oder „Die Oma umfahren!“ das Gegenteil von „Die Oma umfahren!“. Die Kontexterkennung ist also entscheidend um eine Information richtig einordnen zu können.

Kurz gesagt: Je komplexer/mehrdeutiger die Eingabeinformation ist, umso eher wird die Ausgabeinformation, die der digitale Sprachassistenten ausspricht, nicht mit dem Kontext der Eingabeinformation des Nutzers übereinstimmen. Noch….. denn die Entwicklung hat in Sachen künstlicher Intelligenz stark angezogen, so dass auch das NLU und damit die Ausgabeinformationen immer besser werden und immer öfter passen. Das Kontextverständnis der Systeme lässt sich dabei momentan grob in folgende Grund-Anwendungsfälle einteilen…

• Fragen, Antworten: Geht schon ganz gut z.B bei Google Assistant
• Steuerung: Geht auch ganz gut z.B Licht oder Musiksteuerung
• Assistenz: Geht langsam los z.B Kochassistent Alexa Kitchen Histories
• Dialog: Braucht noch lange (Königsdisziplin) z.B Diskussion über Politik

Grundsätzlich ist es zum aktuellen Zeitpunkt damit nun mal so, dass die Intelligenz der Anwendungen die momentan in einem digitalen Sprachassistenten ihr Zuhause finden, noch nicht aus den Systemen selbst kommen kann, sondern durch die Entwickler, Designer und Programmierer hergestellt werden muss. Dies kann natürlich nur in den Grenzen und nach den Regeln stattfinden, die die Systembetreiber vorgeben. Entsprechend ist die Nutzung eines digitalen Sprachassistenten für den Nutzer aktuell immer dann sehr frustrierend, wenn er den Anspruch an den Sprachassistenten stellt sich in einem natürlichen Dialog mit dem System unterhalten zu können, so wie er es mit einem Menschen (meistens jedenfalls), auch tun würde. Alle anderen Ansprüche, funktionieren eigentlich schon ganz gut und sind in vielen Anwendungsfällen schon oft fast frustfrei!

Wir wissen nicht, dass wir nichts wissen!

Den Bildschirm und die Tastatur kennen wir schon lange und haben gelernt damit umzugehen. Der digitale Sprachassistent ist ein neuer Kanal zum Nutzer, den der Nutzer aktuell sehr wohlwollend annimmt. Noch nie in der Menschheitsgeschichte wurde eine Technologie so schnell und umfangreich adaptiert wie Smart Voice. Die tägliche Berieslung in den Medien mit entsprechender Werbung beweist dies Eindrucksvoll, Ebenso wie der Investitionsumfang der größten der großen Digitalkonzerne.

Klar das Unternehmen den Kanal der digitalen Sprachassistenten bespielen wollen umso motivierend und nah am Nutzer zu sein wie nur möglich. Dies erfordert jedoch Lernkurven die durchaus unbequem sein können, da Sprache (Mund und Ohr = Mikrofon und Lautsprecher) nun mal gegensätzlich zu den von uns über die letzten Dekaden erlernten Bildschirmmedien (Auge und Hand = Bildschirm und Tastatur) funktionieren.

Sprache ist die motivierteste, emotionalste und sensibelste Kommunikationsform des Menschen. Die ersten Wahrnehmungen des Menschen sind der Herzschlag und die Stimme der Mutter im Mutterbauch. Aus dieser frühen Erfahrung heraus beruhigt selbst einen erwachsenen Menschen der gehörte Herzschlag des Partners während man kuschelig auf der Couch liegt.

Auge trifft Ohr, Autsch!

Während das Auge z.B eine Menge von 10.000.000 Bit pro Sekunde quasi parallel erfassen kann, kann das Ohr dies nur eher seriell mit einer Geschwindigkeit von 100.000 Bits pro Sekunde. Die Informationsverarbeitung über das Ohr ist also wesentlich langsamer und muss damit gänzlich anders gestaltet sein als über das Auge. Dies führt dazu das das Ohr, wie zuvor auch in der Entwicklung von Mobile First, zum neuen KgN (Kleinsten gemeinsamen Nenner) für die Gestaltung von Medien wird. Folgerichtig müssen die Inhalte dieser Entwicklung folgen und nun angepasst werden.
Das Auge mag Wiederholungen, es ist verwirrt wenn eine Information sich plötzlich………………..………………..………………..………………..………………..……………..………………..………………..………………..………………..………………..………………..………………..………………..………………..………………..……………..………………..………………..………………..………………..………………..……………..………………..………………..………………..………………..………………..……………..………………..………………..………………..………………..………………..……………..ganz woanders wiederfindet als man es gewohnt ist. Ebenso mag es Harmonie. Viele dürften z.B den goldenen Schnitt aus der Gestaltungslehre kennen. Und so weiter…

  • Das Ohr dagegen langweilt sich sehr schnell bei Wiederholungen, langweilt sich sehr schnell bei Wiederholungen, langweilt sich sehr schnell bei Wiederholungen.
  • EbensowürdeessichgenauschnelllangweilenwennihmdieInformationohnejedeVarianzzugetragenwerdenwürde.

Ja, die Satzgestaltung waren jetzt gutgemeintböse Absicht des Autors!

Aus den eben genannten Gründen schlägt der erste Gedanke eines jeden Unternehmens auch sofort fehl, wenn die für den Bildschirm gestalteten Inhalte direkt und unverändert in einen digitalen Sprachassistenten (Voice Bot / Voice Assistant) verklappt werden. Beweise sind z.B im Amazon Skill Store zuhauf zu finden.
Daher müssen die Unternehmen jetzt die für die Anpassung von Smart Voice Content (Inhalte für digitale Sprachassistenten) nötige Gestaltungsrichtlinie „Voice First“ erst einmal inhalieren um einen Fehlstart in Sachen Smart Voice zu vermeiden. Wobei deutlich darauf hingewiesen sei, das es „Voice First“ und nicht „Voice only“ heisst. Dort wo man aufgrund der äußeren Umstände, der Komplexität oder des Formats der zu transportierenden Informationen nur mit Stimme (Voice only) nicht weiter kommt, muss man den Nutzungsprozess eventuell um andere/weitere Medien und Möglichkeiten, wie z.B den Bildschirm erweitern (Multimodalität). Es ist gar so, das obwohl die üblichen Dampfplauderer und Abschreiber das baldige Ende des Bildschirms und der Tasten herbeikatastrophisieren, die meisten wirklich sinnvollen und effizienten Anwendungsfälle für digitale Sprachassistenten eher in Kombination mit einem Bildschirm multimodal sind und/oder sein werden. Bildschirm und Tasten bleiben uns also definitiv erhalten.

Diese Multimodalität macht alleine schon aus der Tatsache heraus Sinn, das der Mensch grundsätzlich in Absichten (= Englisch: Intents) denkt und auf Basis eines natürlichen Dialogs auch spricht. In einen solchen gesprochenen Dialog passen eine große Masse an Informationen durch die Wahrnehmungsregeln des Ohres einfach nicht hinein um sie natürlich und effizient zu übertragen. Schon mal versucht ein Bild oder einen Klang nur über Worte zu beschreiben? Richtig, geht nicht! Der Empfänger wird stets ein anderes Bild/anderen Klang im Kopf haben als es wirklich ist.

Zu der Eigenschaft eines natürlichen Dialogs gehört vor allem dass eine größere Menge an Informationen an das Ohr nur Häppchenweise (Snacks) übertragen werden können. Dies Phänomen kennt wohl jeder der schon mal in einem Restaurant versucht hat sich die Zehn verschiedenen Nachtische vom Kellner aufzählen zu lassen. Wenn der Kellner den fünften Nachtisch nennt, hat der Gast bereits vergessen was der Dritte war. Aus diesem Grund arbeitet die Bewirtungshilfe dann ebenfalls multimodal, nämlich in dem er dem Kunden ein Medium für das Auge reicht, die Speisenkarten (…Bildschirm). Ohne alternatives Medium müsste der Kellner ständige Rückfragen stellen um an die gewünschte Wahl des Gastes zu kommen: „Soll es dieser sein? Oder soll ich den nächsten nennen?“. Könnte ätzend werden oder? Bei zu vielen Rückfragen verliert die Stimme ihre Effizienz in den zu gestaltenden Anwendungsfällen, weil es einfach zu lange dauert. Das Marketing z.B hat zur Definition genau dieser Informationshäppchen den Begriff „snackbar“ oder auch „Snackbare Inhalte“ erfunden. Ein Begriff den alle nun ebenfalls erlernen sollten, weil er schlicht und einfach sehr gut zu den Anforderungen eines geschmeidigen Anwendungsfalles für digitale Sprachassistenten passt.

Der beste Snack ist dabei der „Punkt der Erfüllung“. Dieser Punkt ist die eine einzige und optimalste Information die ein Nutzer von seinem Sprachassistenten ausgegeben bekommt, da eine große Auswahl aus vielen Informationen ja per Stimme nicht funktioniert. Letztendlich ist dies nichts anderes was auch die Suchmaschinenbetreiber für den Bildschirm in den letzten Monaten und Jahren mit den „Direct Answers“ angetrieben haben. Hierbei wird an erster Position (auch Position Null genannt), nicht mehr eine Internetadresse zur angefragten Information geliefert, sondern in attraktiverer Weise als alle nachfolgenden Suchtreffer, die Information selbst. Sprich, die Quelle der auf Position eins ausgelieferten Information wird gar nicht mehr sichtbar. Womit auch automatisch die Frage im Raum steht wozu dann überhaupt noch Internetadressen oder Marken nötig sind/werden!?

Betrachten wir die Fakten zusammengefasst…
• Das Ohr ist mit 100.000 Bit pro Sekunde in der Wahrnehmung wesentlich langsamer als das Auge (10.000.000 Bit pro Sekunde).
• Das Ohr Verarbeitet die Daten seriell, das Auge fast parallel.
• Das Auge mag Wiederholungen und Harmonie, das Ohr mag Varianz und Überraschungen.
• Inhalte müssen entsprechend der Voice First Gestaltungsrichtlinie versprachlicht werden um in einen natürlichen gesprochenen Dialog zu passen.
• Je nach Anwendungsfall, müssen die Nutzungsprozesse multimodal gestaltet sein. Voice Only reicht meist/oft nicht.
• Das Ohr ist äußerst sensibel und langweilt sich schnell. Alles was nicht in einen natürlichen gesprochenen Dialog passt, ist ein Störfaktor und wird vom Nutzer unmittelbar ignoriert.
• Eine zu laute Umgebung oder eine Ablenkung des Empfängers macht die Wahrnehmung per Ohr fast unmöglich.
• Komplexe Informationen müssen in Häppchen (snackbar!) übertragen werden, verliert bei zu vielen Häppchen jedoch die Effizienz.
• Eine große Auswahl an Optionen ist für das Ohr eine zu komplexe Information und muss daher möglichst auf nur eine einzige optimale Information hin gestaltet werden, dem „Punkt der Erfüllung“.
• Nutzerabsichten / User-Intents als Inhalte machen Internetadressen und Marken …vielleicht… überflüssig.

Rein mit den Infos

Für die Eingabe von Informationen per Stimme/Sprache an die Maschine, gibt es schon mal deutlich weniger Einflussfaktoren zu beachten als bei der Ausgabe von Informationen. Der Mensch kann drei bis fünf Mal so schnell per Stimme Daten an die Maschine übertragen als durch jede andere Möglichkeit, wie z.B per Tastatur. Per Tastatur kann der Mensch ca. 35 bis 40 Worte an die Maschine übertragen. Per Sprache sind es 120 bis bis 140 Worte. Der Mensch kann sogar schneller Sprechen als Denken, was viele Merkwürdigkeiten unserer Zeit und Gesellschaft erklären würde.
Google Assistant und die meisten anderen digitalen Sprachassistenten erledigen diese Eingabefunktion inzwischen mit einer sehr hohen Qualität. Über viele Jahre marktführend sind dabei z.B die Eingabelösungen von Dictation Philips (https://www.dictation.philips.com). Ebenso ausgereift ist auch die Sprachsynthese, also der Wandlung von Text zu einer vom der Maschine generierten künstlichen Stimme die inzwischen auch sehr natürlich klingt. Letztendlich hat besonders die von Amazons Alexa sehr natürlich klingende Stimme einen großen Anteil am Erfolg der digitalen Sprachassistenzsysteme.

Grundsätzlich macht eine Informationseingabe per Stimme am meisten Sinn, je größer die Masse an einzugebender Information ist. Dies verhält sich damit im Grunde umgekehrt zur Informationsausgabe per Sprachassistent, aber eben auch nur bis zu einem gewissen Punkt.

Ein Einfaches „Licht aus“, kann man genauso schnell und effizient durch das drücken eines Schalters erledigen, insofern man die Hand frei hat. Die Eingabe von langen Texten, oder die Programmierung der Heizung nach bestimmten Regeln, wird jedoch per Stimme um vieles schneller funktionieren als das herumgefummle auf Bildschirmen und Tastaturen.

• Je umfangreicher die einzugebende Information ist, umso mehr Sinn macht die Eingabe per Stimme.• Kurze Eingaben per Stimme sind meistens nur dann am effizientesten, wenn man grade keine Hand frei hat um z.B einen Knopf zu drücken.
• Die äußeren Umstände müssen eine problemfreie Spracheingabe ermöglichen.
• Sämtliche Eingabeanforderungen müssen auch ohne Spracheingabe realisierbar sein (Voice First / Multimodalität).

Ein trivialer Vergleich wie sich die Eingabemöglichkeiten unterscheiden. Dies variiert natürlich von Anwendungsfall zu Anwendungsfall und auch ob der Nutzungsprozess fehlerfrei abläuft:

Spracheingabe ohne Rückfragen = ab ca. 7 Sekunden  Spracheingabe mit Rückfragen = ab ca. 20 Sekunden  Bildschirmeingabe = ab ca. 30 Sekunden
„Stelle die Heizung im Wohnzimmer jeden Tag von 6 bis 23 Uhr auf 21 Grad und sonst auf 16 Grad.“ 

 

„Stelle die Heizung“

• Welche Heizung?
• An welchen Tagen?
• Von Uhrzeit?
• Bis Uhrzeit?
• Temperatur 1?
• Temperatur 2?

 • Zugriff auf Gerät und Software
• Welche Heizung?
• An welchen Tagen?
• Von Uhrzeit?
• Bis Uhrzeit?
• Temperatur 1?
• Temperatur 2?

Klar, auf nur dieses Beispiel bezogen mag man sich fragen was diese ganze Voice firsterrei eigentlich soll. Selbst per Bildschirm ist das Beispiel eigentlich noch ganz effizient. Wenn man jedoch betrachtet dass zahlreiche Anwendungsfälle im tägliche Leben und Arbeiten über Voice First effizienter gestaltet werden könnten, kommt da eine Menge Arbeits- und Lebenszeit zusammen die man für viele Dinge besser einsetzen kann. Bei einigen Anwendungsfällen dürfte die Effizienzsteigerung gar eklatant hoch sein. Dazu kommt auch noch die Tatsache dass die Fragmentierung der Medien reduziert wird, da wir dann oft nur noch über eine Schnittstelle mit der Technik kommunizieren müssen, dem Sprachassistenten. Vieles wird also nicht nur effizienter, sondern auch einfacher und damit barrierefreier. Erst recht wenn man z.B die Hände nicht einsetzen kann oder sonst wie eingeschränkt ist und die Stimme das fast einzige Werkzeug ist.

Die Entwicklung geht gar in die Richtung das digitale Sprachassistenten nicht nur hören und sprechen, sondern auch sehen können. Google Lens (https://lens.google.com/) ist eine solche Entwicklung die es der Maschine möglich macht zu sehen. Die Verbindung zum Sprachassistenten Google Assistant ist dann nicht mehr weit. Wenn man das ganze jetzt noch in einen fahrbaren Roboter einbaut der zeitgleich die Wohnung saugt, haben wir ein Zukunftszenario welches in seinen Anfängen bereits existiert. Wer Staunen will, möge sich alleine mal auf youtube die Videos der Roboterforscher von Boston Dynamics ansehen (https://www.youtube.com/user/BostonDynamics).

Raus mit den Infos

Durch die Wahrnehmungsgrenzen des Ohres, ist es unabdingbar die Herstellung eines Nutzungsprozesses für Voice First/Smart Voice, auf jeden Fall multimodal zu gestalten zu müssen. Es gilt also immer die Sattelpunkte im Nutzungsprozess zu finden wo die Stimme nicht mehr effizient in der Informationsübertragung ist und ein weiteres Medium z.B der Bildschirm hinzugenommen werden muss. Genau diese dafür grundlegende Definition der gesprochenen Sprache für Inhalte hat z.B Google bereits im Dezember 2017 erstmals versucht in entsprechende Richtlinien (Evaluation of Search Speech Guidelines, https://storage.googleapis.com/guidelines-eyesfree/evaluation_of_search_speech_guidelines_v1.0.pdf) zu packen, auch wenn diese noch viel zu kurz gefasst sind um die Komplexität von Sprache wirklich abzubilden.

Diese Guidelines werden aktuell in den USA in kleinem Umfang zusammen mit den Schema.org Markup (https://pending.schema.org/speakable) getestet. Womit klar ist, dass es aktuell bei der Suchmaschine noch keine reinen Rankingfaktoren für sprechbare Inhalte gibt, sondern die Ergebnisse den Rankingfaktoren der bildschirmbasierten Suche entsprechen, egal was viele merkwürdige SEO Agenturen behaupten mögen. Auf jeden Fall sind diese Google Guidelines eine wertvolle Hilfe um den Sattelpunkt für eine multimodale Informationsausgabe zu finden.

Sprich; Wenn die auszugebenden Informationen nicht in diese von Google definierten Guidelines passen, braucht es eine multimodale Weiterführung (=Medienbruch) um einen effizienten Nutzungsprozess weiterführen zu können. Visuelle oder tonale Formate (Bild, Video, Ton) passen in diese Guidelines eh nicht hinein und benötigen damit sowieso ein weiterführendes Medium wie den Bildschirm, es sei denn das sie lediglich nur „beschrieben“ und nicht dargestellt werden müssen.

Mal kurz beleuchtet welches Format per Stimme gut/schlecht in den Kopf des Nutzers zu bringen ist:

Beschreibend (Teildarstellend) Volldarstellend
Bild  Gut  Schlecht
Bewegtbild  Gut  Schlecht
Ton  Gut  Schlecht
Text  Gut  Gut

 Doch selbst dort wo die Stimme die Informationen gut in den Kopf des Nutzers bringen kann, bricht sich die Effizienz der Übertragung einer Beschreibung per Stimme an der Masse der Information. Ein jeder kennt einen solchen Sattelpunkt aus der der Suche im Internet wenn man von der textbasierten Suche auf die Bildersuche umschaltet. Also dem Moment wo aus Beschreibung (textbasierte Suche) eine Ausgabe (Bildersuche) wird weil die textbasierte (beschreibende) Suche nicht mehr gut genug funktioniert. Das ist in bei der Verwendung der Stimme nicht anders. Man könnte diesen Punkt auch als „Medienbruch Sattelpunkt“ bezeichnen, wobei der Medienbruch jedoch kein Fehler ist, sondern die logische und gewollte Konsequenz. Also dann vielleicht doch eher „Medienwechselpunkt“!?

Einer Microsoftstudie aus dem Jahr 2015 folgend, hat sich die initiale Aufmerksamkeitsspanne des Menschen von 20 Skunden auf Goldfischnievau von 8 Sekunden verkürzt. Dies aber nicht nur weil der Mensch grundsätzlich dümmer geworden ist, sondern weil er durch die große Informationsflut gelernt hat die Informationen schneller zu filtern. Schneller heißt jedoch leider nicht unbedingt besser. Der Begriff „Clickbaiting“ dürfte vielen inzwischen geläufig sein, bei dem der Leser lediglich anhand der Überschrift erfasst und urteilt wie relevant der dahinterstehende Inhalt sein könnte, obwohl der Inhalt selbst nach dem Lesen der Überschrift noch gar nicht bekannt ist. Anderseits wenn ein Artikel es nötig hat mit einer Clickbait Überschrift aufzuschlagen, mit hoher Wahrscheinlich auch wirklich keinen guten Inhalt bieten wird.
Beispiel Oberflächliche Bildschreibung…

Ca. 15 Sekunden zum Sprechen: Ein Bruchteil einer Sekunde zu erfassen des Bildes mit dem Auge:
„Ein blauer Himmel bei Sonnenschein mit Bergen im fernen Hintergrund. Vor den Bergen liegt eine Meeresbucht die von links nach rechts ein wenig breiter wird. Im Vordergrund liegen Felsen und Steine die von Sträuchern umwachsen sind und durch einen Wald von der Meeresbucht getrennt werden.“

Dies Beispiel liegt mit einer Lesedauer zur oberflächlichen Beschreibung des Bildes von maximal zwanzid Sekunden somit im optimalen Rahmen der menschlichen Aufmerksamkeit, noch besser wären natürlich acht Sekunden gewesen. Alles darüber hinaus, wird dem Nutzer zu unbequem und zu langweilig und muss entsprechend entweder in einem neuen Abschnitt wie z.B über die Rückfrage „Willst du mehr?“, oder über ein anderes Medium serviert werden. Genau diese Aufmerksamkeitsspanne bestimmt darüber in welche Häppchen/Snacks die Inhalte aufbereitet werden müssen um in einen natürlichen Dialog zu passen. Die bereits erwähnte Google Guidelines sind dabei ebenfalls eine gute Gestaltungshilfe. So bleiben bei der Dialoggestaltung dann folgende Optionen wenn die Informationsmasse für Voice only zu groß wird.

Das System zum Sprechen bringen du musst!

Natürlich stellt sich die Frage wie man letztendlich einen Dialog entwirft und nachvollziehbar veranschaulicht in denen man die bisher genannten Optionen und Fakten dann verwurstet um sie in einen digitalen Sprachassistenten als Skill (Amazon Alexa oder Microsoft Cortana) oder in Actions (Google Assistant) einzubacken. Die Komplexität des Entwurfs eines solchen Dialogmodells entscheidet sich natürlich nach der Komplexität des Nutzungsprozesses / Anwendungsfalles für das der digitale Sprachassistent eingesetzt werden soll. Dies kann für einfache Anwendungsfälle eine simple Darstellung von Fallunterscheidungen sein die sich z.B mit einen so bekannten Diagrammtypen wie dem Programmablaufplan (PAP nach DIN 66001) bereits sehr gut gestalten lassen. Aktuell dürften die meisten (oft sehr einfachen) existenten Voice Apps (Skills und Actions), sich damit gut graphisch abbilden lassen.

Wer jedoch auch komplexe Anwendungsfälle und vor allem die oft nötige Multimodalität abbilden möchte, wird nicht um leistungsfähigere Diagrammtypen wie z.B UML (Design Pattern/Entwurfsmuster / https://de.wikipedia.org/wiki/Unified_Modeling_Language) herumkommen um die entsprechenden Prozesse gut nachvollziehbar zu planen.
Zum Testen des Dialogs auf die entsprechende Natürlichkeit eignet sich neben dem Hausfrauentest am realen Nutzer, auch das Wizard-of-Oz Experiment, bei dem ein Mensch das Verhalten der Maschine und damit des entworfenen Dialogs simuliert. Dies gilt auch wenn der Nutzungsprozess multimodal gestaltet ist, wobei dann zusätzlich natürlich bekannte Designrichtlinien für den Bildschirm ebenfalls greifen. Wichtig ist in jedem Fall das alles was auf einem Bildschirm gestaltet ist, auch per Stimme beeinflussbar oder zumindest beschreibbar sein muss, da sonst ein harter Medienbruch vorliegen würde und der Nutzer verwirrt wäre.

Auch wenn in den verschiedensten Tutorials zur Erstellung von Smart Voice Anwendungen dem Entwickler die Empfehlung gegeben wird das dem Nutzer stets eine verbale Hilfe angeboten werden soll, so ist genau das nicht nur völlig unnatürlich, sondern auch noch extrem störend und nervig. Oder schon mal während eines Gesprächs mit einer anderen Person den Gesprächspartner darauf hingewiesen was er als nächstes sagen soll/könnte? Aha! 😉

Grundsätzlich gilt, je weniger Hilfe der Sprachassistent zu seiner Nutzung dem Nutzer geben muss, umso besser sind das Dialogmodell und die Sprache gelungen. Andersherum, während eines natürlichen Dialogs Hilfe zum Dialog selbst zu leisten, ist unnatürlich und störend.

Letztendlich ist die eigentliche Programmierung einer Voice App, eines Skills oder einer Action, stets der kleinste Teil der Arbeit, der eh erst dann Sinn macht, wenn Inhalte und Logik so gut es geht durchgeplant wurden. Ein Maurer baut das Haus auch erst nachdem der Architekt es geplant hat.

Das Unternehmen welches bei der Auswahl eines Dienstleisters oder einer Agentur zur Erstellung einer Voice App, sich auf die Dienstleister mit bereits komplexeren Referenz Voice Projekten konzentriert, dürfte mit dem Ergebnis am Ende zufriedener sein. Derartiges Wissen ist in großen Agenturen oder gar Kreativagenturen, grundsätzlich eh nicht vorhanden, sondern liegt definitiv in der Hand von innovativen kleinen Unternehmen die in jedem Fall die Programmierung als Schwerpunkt haben. Für eine optimale Entwicklung von Voice Apps empfiehlt sich selbstverständlich neben einem UX-Designer, auch ein Linguist, denn so etwas wie einen VUI-Designer gibt es „noch“ nicht.

Zum Punkt der Erfüllung kommen zu musst!

Es kann alles an der Gestaltung des digitalen Sprachassistenten perfekt sein, wenn der Sprachassistent nicht in der Sprache des Nutzers spricht, wird seine eigentlich extremst vertrauenserweckende und motivierende Wirkung beim Nutzer verpuffen.
Ein wichtiger Aspekt um Dialoge möglichst Natürlich zu gestalten, sind Fehler, Pausen, Aussetzer und Quittungen. Der Mensch sendet während er Spricht eine Vielzahl an unterbewussten Informationen, sowohl in der Stimme, als auch z.B über die Mimik und Gestik, so dass der Gesprächspartner erahnen kann wann er im Dialog einsetzen kann. Auch eine Maschine muss diesen Regeln folgen. Insofern keine visuellen Informationen übertragbar sind, sind z.B Quittungstöne und vor allem richtige Betonungen für den Nutzer ein wichtiger Hinweis darauf wo er als Gesprächspartner der Maschine gefordert ist.

Es braucht nur ein paar eigentlich einfache Regeln…
• Langweile nicht!
• Wiederhole nicht, sondern Variiere ständig und überall!
• Gestalte Sprechfehler, Pausen, Aussetzer, Betonungen… so wie ein Mensch auch spricht!
• Beachte die Eigenschaften von Sprache und Ohr!
• Setz Humor ein!
• Sprich in der Sprache des Nutzers!
• Jede Information die sich nicht in einen natürlichen, gesprochenen Dialog passt, stört!
• Beachte den „Punkt der Erfüllung“ bei komplexen Inhalten!
• Nutze Gegenfragen um den Dialog lebendig zu halten!
• Nutze Quittungstöne wenn andere Anfangs- und Beendigungsindikatoren fehlen!

Natürlich stellt sich auch die Frage danach, welche sprachlichen Formulierungen denn überhaupt die geeignetsten sind um sie in einem zu gestaltendem Sprachassistenten Verwendung zu finden. Logischerweise ist es hilfreich so viele Varianten an Formulierungen wie nur möglich einzubauen. Anderseits werden aus all den möglichen Varianten nur ein kleiner Prozentsatz wird oft genutzt. Um diese Formulierungen zu finden, braucht es ein möglichst gutes Wissen über den Nutzer auf Basis seiner Nutzungsdaten. Aktuell können nur die Systembetreiber selbst diese Daten anhäufen und dem Entwickler liefern. Jedoch auch aktuell, werden die erhobenen Daten noch nicht sehr breit erhoben und noch viel schmaler an die Entwickler weitergegeben. Vom Datenschutz bis hin zur Wahrung eigener Interessen sind die Gründe der Systemanbieter dafür vielfältig. Dabei ist das eigentlich Ziel der Systeme, das die nötigen Formulierungen für die Sprache eines Tages nicht mehr durch den Entwickler geleistet werden müssen, weil die Intelligenz der Systeme dann schon so groß ist, das die Formulieren von der Maschine automatisch richtig zugeordnet werden. Doch da sind wir noch ein paar Jahre an Entwicklung von weg.

Wer jedoch die Sprachwelt seiner Kunden kennt, das Territorium, das Jargon, die Betonungen, die typischen Redewendungen und den Dialekt, der wird auch so recht schnell schon jetzt mit Vertrauensbonus an die Nutzer nah herankommen. In der Sprache des Nutzers zu sprechen ist ja nun keine neue Weisheit.

Erkenne mich!

Der Mensch spricht und denkt in Absichten (Intents). Der persönliche Assistent sollte seinen Nutzer so gut wie nur möglich kennen, um ihm so viele Aufgaben wie möglich abnehmen zu können, aber auch um ihm die optimalsten Informationen liefern zu können. Dies bedeutet auch dass der digitale Sprachassistent im Grunde in die Zukunft sehen können muss um die Absicht des Nutzers zu erkennen. Damit macht er dann im Grunde ein Marketing, welches Unternehmen für die Zukunft mit in ihr Vermarktungsportfolio aufnehmen müssen; Intent-Marketing. Intent-Marketing ist das Marketing der Absichten und braucht neben gesprochener Sprache auch einen hohen Grad an Personalisierung, da es aus daraus die Absicht des Nutzers erkennen soll um ihn mit entsprechend passender Information zu beliefern. Genau diese Vorrausetzungen liefern digitale Sprachassistenten. Intent-Marketing ist die durch Sprachassistenten forcierte logische Weiterentwicklung des Content-Marketings und wurde bereits 2004 erstmals andiskutiert. Jedoch ist die Vermarktungsbranche selbst noch sehr weit entfernt davon und braucht leider erst wieder ein paar Disruptionen, wie z.B das Wegbrechen von Erlösen des Bildschirms weil bei Voice only keine Werbebanner ausgeliefert werden können, um einen Schritt in Richtung Intent-Marketing zu tun.

Einige der dafür nötigen personalisierenden Daten können vom Nutzer direkt in der Konfigurationsumgebung des digitalen Sprachassistenten eingestellt werden, oder werden von den Systemen wir Alexa oder Google Assistant aus den mitgespeicherten Erfahrungsdaten / Protokollen herausinterpretiert. Für die Entwickler von digitalen Sprachassistenten ist es außerdem noch möglich weitere Erfahrungsdaten auch außerhalb der Sprachassistenzsysteme der großen Provider wie Amazon oder Google zu sammlen, z.B durch eine eigene Nutzerauthentifizierung auf eigenen Systemen.
Fakt ist, wer eine möglichst hochwertige persönliche Assistenz durch die digitalen Sprachassistenten möchte, wird auch viel von sich und seinen Nutzungsdaten hergeben müssen. Im Grunde ist die damit verbundene Verfolgung und Protokollierung des Nutzers Big Data und Nutzer-Tracking in höchst möglicher Machbart und damit der Alptraum eines jeden Datenschützers, aber auch der feuchte Traum eines jeden Marketers, Verbrechensbekämpfers oder Überwachers. Dennoch überwiegt der Nutzen an umfangreicher Protokollierung oft gegenüber eventuellem Missbrauch der Daten. Erst recht wenn es um Anwendungsfälle geht die Leben retten könnten oder die Lebensqualität stark steigern können, wie z.B für umfangreich eingeschränkte Menschen. Fakt ist aber auch, das mit einer starken Personalisierung die Gefahr von Identitätsdiebstahl eher verringert als gesteigert wird. Je mehr persönliche Merkmale des Nutzers bekannt sind, umso eher fällt es auf wenn plötzlich welche fehlen oder anders sind.

So wäre vielleicht echt toll einfach nur mit seinem Gesicht an der Kasse zahlen zu können, die Protokollierung der Masse an Daten dahinter ist jedoch eher beängstigend. So bleiben dem Entwickler aktuell nur der gesunde Menschenverstand und die Zahlen der Statistiken der Systembetreiber als Grundlage für die Entwicklung von digitalen Sprachassistenten. Das da noch wesentlich mehr als das kommen wird und muss, ist grade zu in Stein gemeißelt. Freuen wir uns auf oder Gruseln wir uns vor dem Tag, an dem der digitale Sprachassistent mehr richtige Informationen ausgibt als falsche oder keine. So weit weg ist das alles nicht.