Spracherkennung

Was ist Spracherkennung? (Es ist nicht das, was Sie denken!)

In diesem Beitrag finden Sie:

Was ist Spracherkennung?

Was ist Spracherkennung — ein einfaches Thema, oder?

Grundsätzlich ja! Die Spracherkennung ist ziemlich einfach zu verstehen.

Die einfachste Definition lautet: eine Softwarelösung, die menschliche Sprache verarbeiten und entsprechend reagieren kann. In einem Inbound-Callcenter wird es im Allgemeinen verwendet, um Anfragen zu lösen und Anrufe weiterzuleiten.

Das ist keine weltbewegende Offenbarung. Warum also sind die Leute verwirrt über den Begriff der Spracherkennung?

Grundsätzlich gibt es in diesem Bereich eine Menge spezieller Begriffe und die Leute verwenden diese Terminologie je nach Branche unterschiedlich.

Lassen Sie uns etwas von dieser Verwirrung klären.

Terminologie der Spracherkennung

Jeder dieser Begriffe ist Teil des breiten Themas “Spracherkennung” – aber nicht der gesamte Bereich. Betrachten Sie es einmal so: Software ist ein Begriff, der zum Thema “Computing” gehört… aber das ist noch nicht alles.

Conversational-AI / IVR

In Contact Centern sind IVR-Lösungen das, was sprachbasierte Systeme ersetzen oder ergänzen werden. Verzichten Sie auf “Drücken Sie die 1 für Vertrieb” und setzen Sie stattdessen auf dialogorientierten Service.

Natürliche Sprachverarbeitung (NLP)

NLP wandelt Sprache in strukturierte Daten um, die ein Computer verarbeiten kann. Die Aufgabe des Geräts ist es, zu “hören” und aufzuzeichnen, was eine Person ihm sagt.

Natürliche Spracherkennung (NLU)

NLU ist ausgeklügelter. Es geht über das hinaus, was der Sprecher sagt, und zielt darauf ab, zu verstehen, was der Anrufer meint – und daher, was dieser brauchen könnte.

(Möchten Sie mehr Details? Lesen Sie „NLU und NLP — was ist der Unterschied?“)

Speech-to-Text (STT)

Das ist das A und O der Spracherkennung. Das System nimmt Audioeingaben entgegen und transkribiert sie in Text, um sie zu verarbeiten und zu speichern.

Text-to-Speech (TTS)

Im Allgemeinen verwendet ein Spracherkennungssystem auch Sprache als Ausgabe, d.h. Sie sprechen mit ihm und es antwortet. TTS bedeutet, dass das System nicht auf aufgezeichnete Audio angewiesen ist.

(Möchten Sie mehr erfahren? Lesen Sie „Wie profitieren Contact Center von TTS?“)

Spracherkennung

Spracherkennung bezieht sich in der Regel auf ein System, das *nur* auf eine bestimmte Stimme reagiert, oft als Sicherheitsmerkmal.

Sie erkennen also wahrscheinlich die Herausforderung! Die Spracherkennung ist eine sehr wirksame Methode, um Ressourcen mit diesen verschiedenen Merkmalen zu beschreiben. Aber sie ist auch extrem breit gefächert, wenn man bedenkt, wie weit und schnell sich konversationelle Systeme verbreiten.

Denken Sie darüber nach – Siri auf Ihrem iPhone? Das ist Spracherkennung! Sprachdialogsystem im Contact Center? Das ist Spracherkennung! Sprachbasierte Suchmaschinen? Smart-TVs? Ihr Alexa Zuhause? Alles Spracherkennung. Aber hinter der Kulisse sind es verschiedene Systeme.

Ist Spracherkennung ein veralteter Begriff?

Ein möglicher Kritikpunkt an dem Begriff Spracherkennung – er ist vielleicht etwas altmodisch.

Das habe ich schon ein paar Mal gehört, also hier ist der Gedanke…

Spracherkennungssysteme prägen schon seit langem die Dienstleistungen von Contact Centern. Moderne Systeme, die Sprache als Eingabe/Ausgabe verwenden, sind das Ergebnis jahrzehntelanger Forschung und Entwicklung auf diesem Gebiet. Bereits in den 1950er Jahren entwickelte Bell Laboratories das Audrey-System, das laut gesprochene Ziffern erkennen konnte.

IBM folgte diesem Coup mit Shoebox, das 16 Wörter verstand – fast so gut wie ein typisches 2-jähriges Kind! (Ich weiß nicht, welche 16 Wörter sie verwendet haben.)

In den 1980er Jahren gab es große Fortschritte, gefolgt von großen Vorstößen bei Googles Sprachsuche und Apples Siri im neuen Jahrtausend.

Worauf will ich hinaus? Die Spracherkennung war ein Ziel, das die Technologen schon vor Jahren hatten – und mittlerweile auch erreicht haben.

Zu den Zielen moderner sprachbasierter Systeme gehören:

  • Verstehen
  • Maschinelles Lernen
  • Dynamische Reaktion
  • Datenintegration
  • Vorausschauende Analyse
  • Agentenführung

Ja, Sie können diese Systeme als Spracherkennung bezeichnen. Als allgemeiner Begriff ist er in Ordnung, aber er deckt kaum ab, wofür die zugrunde liegende Technologie gedacht ist.

Denken Sie für ein ähnliches Beispiel an Ihr Smartphone. Das Telefonelement ist heutzutage nicht mehr wirklich wichtig, oder?

Kunden sind bereits an Spracherkennung gewoehnt
Quelle

Warum wollen Unternehmen sprachbasierte Tools?

Jedes Tool, das auf Spracherkennung angewiesen ist, ist weitaus komplexer als eines, das beispielsweise auf Tastendruck für die Eingabe angewiesen ist. Was ist also der Anreiz für Unternehmen?

Es ist ganz einfach — sie erleichtern den Kunden das Leben.

Computer denken nicht mit Sprache, daher hat es mehr als ein halbes Jahrhundert gedauert, sie zu unterrichten.

Aber Sprache ist die Art und Weise, wie Menschen denken; die meisten von uns lernen sie innerhalb ihres ersten Jahrzehnts.

Die starke Präferenz der Kunden für sprachbasierte Systeme wird deutlich, wenn Sie Ressourcen wie IVR-Systeme vergleichen. Wenn Sie die Wahl haben, sich durch ein Labyrinth von Schaltflächen zu bewegen oder ihr Bedürfnis klar zu formulieren, entscheiden sich Ihre Kunden für Letzteres.


Wir haben einige großartige Anwendungsfälle in Wie Delta mit Conversational-IVR 5 Millionen Dollar pro Jahr spart zusammengestellt, aber hier sind die Highlights:

  • Reduzierung der Anrufe um 5%
  • Falsch umgeleitete Anrufe gingen um 15% zurück
  • Erfassung der Anruferabsicht hat 75% erreicht
  • AHT sank um 10%
  • Verfügbarkeit der Agenten um 25% erhöht

Es zeigt sich also, dass sprachbasierte Systeme in dieser raren Traumzone liegen. Sie sind etwas, das Ihre Kunden unbedingt wollen und sie sparen viel Geld.

Und das sieht man nicht jeden Tag…

[simple-author-box]

Verwandte Blogartikel