Generative AI Sprachassistent

Generative AI Sprachassistent
Autor: Theodor Kramer

12.000 Anrufe am Tag, 20 Menschen an den Telefonen, das Ergebnis? Hohe Kosten, die Kundschaft muss dennoch lange warten und ist unzufrieden. Die Mitarbeitenden kommen nicht mehr hinterher, Stress und Burnout sind die Folge. Dieses Problem ist alltäglich in vielen Firmen. Als Management möchte man da Abhilfe schaffen. In Zeiten von Personalmangel sucht man selbstverständlich nach Möglichkeiten, seine Mitarbeitenden zu entlasten und trotzdem alle Aufgaben zu erledigen. Nicht zuletzt auch im Kundensupport. Gerade der First-Level-Support ist oft überlastet. Das stresst die Mitarbeitenden und führt zu langen Wartezeiten für die Kundschaft. Online stehen bereits einige Möglichkeiten zur Verfügung, die den Kunden helfen, ihre Probleme zu lösen, ohne die Support Mitarbeitenden zu belasten. Von FAQs bis zu Chatbots ist hier vieles vertreten. Doch der Telefonsupport ist bisher, von einigen sehr umständlichen, unnatürlichen und frustrierenden Telefoncomputern abgesehen, Sache der Menschen.

Hier kommt unsere Lösung ins Spiel: Für diesen Blog Post haben wir ein innovatives Sprachassistenzsystem auf Basis von GPT-4 entwickelt. Mit dieser Lösung lassen sich viele Aufgaben automatisiert erledigen. Durch den KI-gestützten Kundensupport werden Mitarbeitende entlastet und Wartezeit effektiv reduziert.

Was wollen wir tun?

Um effektiven Telefonsupport zu leisten, muss unser System in der Lage sein, per Sprache mit den Anrufenden zu kommunizieren. Wir brauchen also ein System, das natürliche Sprache akzeptiert und wiederum in natürlicher Sprache antwortet und das auch noch mit korrekten Informationen und in Echtzeit. Doch Kommunikation allein reicht selten aus. Um echten Mehrwert zu bieten, soll der Assistent zudem in der Lage sein, selbständig Termine zu vereinbaren, wichtige geschäftliche Informationen bereitzustellen und die Identität des Kunden zu verifizieren. So erhalten die Kunden nicht nur Antworten, sondern auch sofortige Lösungen. Beispielhaft simulieren wir den Telefonservice eines Autohauses, entsprechend soll der Agent die Rolle eines Mitarbeitenden in besagtem Autohaus übernehmen, die Kundschaft zu neuen Fahrzeugen beraten, Servicetermine vereinbaren und Informationen zu Autos bereitstellen.

Wie setzen wir das um?

Der heutige Goldstandard zur Verarbeitung natürlicher Sprache sind Large Language Models, kurz LLMs, wie zum Beispiel ChatGPT von OpenAI. Diese Modelle können auf natürliche Weise auf eine Vielzahl verschiedener Eingaben antworten. Eine tiefere Einsicht in die Funktion von LLM-Agenten findest du in unserem Beitrag zu Chatbot Assistenten durch Nutzung von LLMs und Retrieval Augmented Generation.

Moderne Verfahren des Maschinellen Lernens sind in der Lage, direkt mit Spracheingaben zu arbeiten. Oft sind die Ergebnisse dieser Modelle jedoch schlecht nachvollziehbar und anfällig für Fehler. Daher verwenden wir textbasierte Modelle, für diese Anwendung fiel die Wahl auf OpenAIs leistungsfähiges multimodales GPT-4o. Damit wir dennoch Sprache als Ein- und Ausgabe erzielen, kombinieren wir verschiedene Technologien. Vor unserem LLM verwenden wir ein Speech-to-Text (STT) Modell, was unsere Audioeingabe transkribiert und so in verarbeitbaren Text umwandelt. Die Ausgabe des LLMs wird wiederum mithilfe eines Text-to-Speech (TTS) Modells in Sprache konvertiert, sodass der Kunde eine natürliche Antwort erhält.

Verarbeitungsflow des Generative AI Sprachassistenten

Aber wie setzen wir die Interaktion mit den Systemen zur Terminvereinbarung etc. um? Hier kommt uns die LLM-Technologie erneut entgegen, denn moderne Modelle sind in der Lage, selbstständig Werkzeuge zu verwenden. Wir stellen dem System also Tools zur Verfügung. Mithilfe besonderer Funktionen, die direkt an den AI Agent angeschlossen werden, kann der Agent unmittelbar auf interne Systeme zugreifen.

Für unser Autohaus statten wir unser System also zusätzlich mit der Fähigkeit aus, freie Termine abzurufen, neue Termine einzutragen und die Kundenidentität zu verifizieren, indem wir für jede dieser Aufgaben ein Tool erstellen. Diese Tools greifen im Hintergrund beispielsweise auf den Kalender oder die Kundendatenbank direkt zu und garantieren so die Korrektheit der Information.

Durch diese nahtlose Verknüpfung von Sprach- und Texttechnologien ermöglichen wir es den Kunden, ihre Anliegen unkompliziert und effizient per Telefon zu klären, ohne lange Wartezeiten oder manuelle Eingriffe. Der Generative AI Assistant übernimmt die typischen Aufgaben eines Kundenbetreuers. Die KI bedient selbstständig die Systeme des Unternehmens und hilft dem Kunden so bei seinen Anliegen, egal ob er einfach nur Informationen zu Produkten und Leistungen braucht, oder direkt einen Termin ausmachen möchte. Auf diese Weise werden Ressourcen im Team geschont und das Kundenerlebnis verbessert!

Ergebnis

Wir widmen uns gleich der technischen Umsetzung, jetzt aber erstmal ein paar Ergebnisse! Fügt man alle Komponenten zusammen, erhält man einen voll funktionsfähigen digitalen Assistenten, der unseren Kundensupport erheblich entlastet, indem er repetitive Aufgaben wie das Vergeben von Service-Terminen oder simple Informationsanfragen autonom verarbeitet. Wir simulieren hier ein Kundengespräch, keine der folgenden Personen ist ein realer Mensch. Es zeigt sich, wie natürlich und kompetent der KI-Assistent auf Kundenanfragen reagiert:

Kunde
"Guten Morgen, ich interessiere mich für eine neues Fahrzeug für meinen Betrieb."
KI
"Guten Morgen! Vielen Dank für Ihr Interesse an einem neuen Fiat Fahrzeug für Ihren Betrieb. Um Ihnen bestmöglich weiterhelfen zu können, würde ich gerne mehr über Ihre Anforderungen erfahren. Welches Modell oder welche Funktionen sind Ihnen besonders wichtig?"
Hier ruft der AI-Agent bereits Daten aus der API ab, um dem Kunden das aktuelle Angebot kommunizieren zu können

KI
Kunde
"Ich hab einen Malerbetrieb, also brauche ich viel Platz!"
KI
"Für einen Malerbetrieb mit viel Platzbedarf könnte zum Beispiel der Fiat Ducato oder der Fiat Talento gut geeignet sein. Beide Modelle bieten großzügige Ladeflächen und Vielseitigkeit. Soll ich Ihnen mehr Informationen zu diesen Modellen zukommen lassen oder möchten Sie einen Termin für eine Probefahrt vereinbaren?"
KI
Kunde
"Was kosten die denn so?"
KI
"Der Fiat Ducato und Fiat Talento haben beide eine Leasingrate von dreihundertfünfzig Euro pro Monat. Wenn Sie weitere Informationen oder eine Probefahrt wünschen, lassen Sie es mich bitte wissen!"
KI
Kunde
"Dann würde ich mir die gerne ansehen! Wann kann ich vorbei kommen?"
KI
"Sie können uns gerne am Freitag, dem Zwanzigsten September, entweder um zehn Uhr oder um zwölf Uhr dreißig besuchen. Alternativ haben wir auch einen Termin am Montag, den Dreiundzwanzigsten September, um neun Uhr morgens. Welche Zeit passt Ihnen am besten?"
Hier ruft der AI-Agent im Hintergrund freie Termine aus dem Kalender ab

KI
Kunde
"Der Termin Montag morgen würde mir gut passen!"
KI
"Der Termin ist für Montag, den Dreiundzwanzigsten September, um neun Uhr morgens festgelegt. Wir freuen uns darauf, Ihnen den Fiat Ducato und den Fiat Talento zu zeigen. Sollten Sie vorab noch Fragen haben, zögern Sie nicht, uns zu kontaktieren. Bis bald!"
Der AI-Agent reserviert im Hintergrund den Zeitslot selbstständig im System

KI

Wie erwartet geht der KI-Assistent natürlich und kompetent auf die Anfragen des Kunden ein. Er bleibt immer freundlich, ist rund um die Uhr verfügbar und ermöglicht eine gleichbleibend hohe Servicequalität – ohne Pausen oder Erschöpfung.

Technische Umsetzung

Jetzt wie versprochen zur Technik: Zeit, ein wenig tiefer in die Materie einzusteigen! Um dieses Konzept umzusetzen, verwenden wir eine Reihe hochmoderner Tools. Mithilfe der Software n8n wurde die Pipeline für den Voice Assistenten umgesetzt. Hier wartet eine Webhook auf die Spracheingabe des Kunden, die anschließend vom Speech-to-Text-Modell (STT) von OpenAI in Text umgewandelt wird. Diese Texteingabe wird dann von einem speziell konfigurierten LLM-Agenten verarbeitet. Für die Sprachausgabe testen wir mehrere Text-to-Speech-Modelle (TTS), um herauszufinden, welches die natürlichste und kundenfreundlichste Audioausgabe bietet. Die daraus resultierende Audio-Datei wird dann als Antwort auf die ursprüngliche Web-Anfrage gesendet und erreicht so wieder den Kunden.

Prompting

Der LLM-Agent wurde hier mit einem System Prompt, also grundsätzlichen Instruktionen zu seiner Aufgabe, seinem Verhalten und sonstigen Besonderheiten, ausgestattet. Um einen Mitarbeiten im Kundenservice unseres Autohauses zu verkörpern, könnte die Anweisung eines solchen Agenten zum Beispiel wie folgt lauten:

„Du bist ein langjähriger Mitarbeiter im Autohaus „MeinAutohaus“. Ihr bietet Leasing und Werkstattservices an. Du bist im Kundenservice am Telefon tätig, deine Aufgabe ist den Kunden nach deinen Möglichkeiten zu unterstützen und du bist dabei Freundlich und Höflich.
Behalte den Kontext und versuche den Kunden zu verstehen. Sei präzise und prägnant, nicht ausschweifend. Generiere absolut keine Formatierung, auch keine Paragraphen oder Markdown syntax. Schreibe Zahlen immer in Wörtern aus, zum Beispiel 1234 als eintausend zweihundert vierunddreißig. Identifikatoren musst du ebenfalls ausschreiben, beispielsweise eine Kundennummer 6790 als sechs sieben neun null. Datumsangaben müssen ebenfalls ausgeschrieben werden, zum Beispiel 10.03.2005 als zehnter März Zweitausendfünf.
Solltest du dir unsicher sein oder der Kunde möchte einen Leasingvertrag abschließen, verweise ihn an einen Mitarbeiter, vereinbare gegeben Falles direkt einen Termin.
Falls Probleme mit einem Fahrzeug bestehen vereinbare einen Service Termin mit dem Kunden.“

n8n Pipeline des GenAI Voice Assistant

Werkzeugkasten

Um diese Automatisierung nahtlos zu gestalten, haben wir verschiedene Werkzeuge implementiert, die direkt mit dem LLM-Agenten interagieren. Diese Tools sind direkt in der n8n Pipeline enthalten. Sie sind im Hintergrund in Python implementiert und können so beliebige Funktionen bereitstellen. Unter anderem auch auf APIs zugreifen, um Informationen aus internen und externen Systemen abzurufen, Prozesse anzustoßen, Mitarbeiter zu benachrichtigen und vieles mehr. Hier haben wir exemplarisch 5 Tools implementiert:

KalenderZeiten: Zum Abrufen freier Termine aus dem Kalender System.

TerminBuchen: Mit diesem Tool können neue Termine direkt im System festgelegt werden.
FahrgestellnummerAbgleich: Ruft Informationen zu einer Fahrgestellnummer ab und verifiziert sie durch das Geburtsdatum des Fahrers.
KundenNummerAbgleich: Dieses Tool ruft Informationen zu einem Kunden ab, hier wird ebenfalls das Geburtsdatum des Kunden zur Verifikation benötigt
FahrzeugFlotte: Ruft aus dem System ab, welche Fahrzeuge aktuell zu welchen Konditionen erhältlich sind

Jedes dieser Werkzeuge enthält einen spezifischen Prompt, der beschreibt, was es tut und wie es zu bedienen ist, dieser ist nötig, damit das LLM weiß wie es mit dem Tool umzugehen hat. Hier exemplarisch der Tool-Prompt für den KundenNummerAbgleich:

„Benutze dieses Tool, um informationen zu einem Kunden zu erhalten. Folgende informationen kannst du abrufen:
Name des Kunden,
Geburtsdatum,
Geleaste Fahrzeuge,
Monatliche kumulierte Leasingrate.
Übergib dabei die Kundennummer und das Geburtsdatum des Kunden im format Kundennummer,tag,monat,jahr du benötigst unbedingt das Geburtsdatum.
Ein Beispiel für eine korrekte Eingabe wäre:
1496423,10,3,2003“

Oberfläche

Für die Benutzeroberfläche dieses Projekts haben wir Streamlit verwendet, um den Audio-Input und -Output zu handhaben sowie eine Auswahlmöglichkeit für die TTS-Modelle anzubieten. Das Frontend ist hier sehr rudimentär, da das System letztendlich an eine Telefonanlage angeschlossen oder in bestehende Support Systeme integriert werden soll.

Streamlit Benutzeroberfläche zur Interaktion mit dem GenAI Voice Assistant

Mit diesen technischen Komponenten konnten wir also das Ergebnis von oben erzielen! Wenn Ihr Support-Team ebenfalls von einer Entlastung durch einen KI Assistenten, ausgestattet mit modernster Technik, profitieren könnte, melden Sie sich gerne bei uns! Wir stehen für Fragen und Beratung jederzeit zur verfügung!

Nimm gerne Kontakt zu uns auf!

Du möchtest selbst die Möglichkeiten von generativer KI in Deinem Unternehmen implementieren oder möchtest weitere Informationen zu Herausforderungen und deren Bewältigung erhalten? Dann freue ich mich über den Austausch mit Dir!

Nimm Kontakt mit Matthias auf