„99 Prozent Genauigkeit sprechen für sich“

Er und sein Team begeisterten bereits Milliarden Nutzer mit dem Anfang der Neunziger entwickelten Audioformat. Mit uns sprach „Mr. MP3“, Prof. Karlheinz Brandenburg, über „embedded Sprachsteuerung“ und Voice Biometrie. Im Interview erklärt der Experte, wie weit die Entwicklung heute bereits ist und worauf Anwender sowie Provider sich zukünftig einstellen müssen.

Herr Prof. Brandenburg, Sie gelten als „Mr. MP3“, weil Sie – mit Kollegen am Fraunhofer-Institut – dieses disruptive Audioformat entwickelt haben. Stimmt es, dass Sie ursprünglich nur einen Weg gesucht haben, Musik in guter Qualität über ISDN-Telefone zu übertragen?

Karlheinz Brandenburg: Richtig, das war die eigentliche Idee meines Doktorvaters. Für meine Dissertation hat er mir daher die Aufgabe gestellt, herauszufinden, welche Tonqualität bei welcher Bitrate möglich ist. Während unserer Arbeit an einem Kompressionsverfahren sind dann aber schnell andere Anwendungen in den Vordergrund gerückt, etwa der digitale Hörfunk oder die Möglichkeit, Audiodateien auf einem PC direkt anzuhören. Dafür brauchte es aber eine einheitliche Dateiendung.

Auch dafür haben Sie eine Lösung gefunden …

Karlheinz Brandenburg: In der Tat: Am 14. Juli 1995 haben wir im Team verschiedene Namen diskutiert und uns schließlich für die Dateiendung „.mp3“ entschieden. Damit war das MP3-Format offiziell geboren, auch wenn wir das Verfahren selbst bereits drei Jahre zuvor fertig hatten.

Haben Sie damals schon geahnt, dass Ihre Erfindung die Art und Weise, wie wir Musik hören, revolutionieren wird?

Karlheinz Brandenburg: Als Wissenschaftler träumt man natürlich davon, etwas Großes zu entdecken oder zu erfinden. Aber dass wir einmal Milliarden Nutzer für unsere Technologie begeistern würden, konnten wir uns damals nicht ausmalen. Das deutete sich erst Jahre später an, als sich die Idee verbreitete, Musik im MP3-Format auf Halbleitern – heute kennt jeder Flash-Speicher – abzulegen. Dass das alles so groß werden würde, haben wir trotzdem nicht geglaubt.

Immer mehr Menschen starten ihre MP3-Playlists heute per Sprachsteuerung. Alexa, Siri & Co. boomen. Beschäftigen Sie sich am Fraunhofer-Institut auch damit?

Karlheinz Brandenburg: Ja, sogar sehr intensiv. Unsere Oldenburger Kollegen arbeiten aktuell an einer „embedded Sprachsteuerung“. Also an einer intelligenten Spracherkennung, die man in relativ einfache Hardware integrieren kann. Die von uns entwickelte Stichwort-Erkennung steckt zum Beispiel im Smart Speaker der Telekom. Wenn der intelligente Lautsprecher auf „Hallo Magenta!“ reagiert, funktioniert unsere Technik.

Mit der Stimme kann man sich inzwischen auch authentifizieren. Millionen Kunden weltweit haben sich bereits für dieses Zugangsverfahren entschieden. Glauben Sie, dass sich Voice Biometrie durchsetzen wird?

Karlheinz Brandenburg: Das hängt davon ab, wie zuverlässig das Ganze funktioniert und wie fälschungssicher es ist. Es gibt internationale Wettbewerbe, die testen, wie gut die Stimmerkennung funktioniert. Wird der berechtigte Nutzer nicht erkannt, ist das weniger kritisch. Wird hingegen ein Unberechtigter fälschlicherweise als Nutzer erkannt, ist das problematisch. Laut aktueller Tests liegt die Genauigkeit von Voice Biometrie bei 99 Prozent. Das ist ein sehr guter Wert. Insofern ist Voice Biometrie für viele Anwendungen ein nützliches Erkennungsverfahren, das zu Recht schon weit verbreitet ist.

Ist es heute schon möglich, eine menschliche Stimme mithilfe künstlicher Intelligenz täuschend echt nachzubilden?

Karlheinz Brandenburg: Da befinden wir uns gerade in einer Übergangsphase: Bis jetzt wird eine gefälschte Stimme gut erkannt. Synthetisierte Sprache, die durch ein Kodiergerät gegangen ist oder per MP3 abgespielt wird, können wir noch sicher unterscheiden von natürlicher Sprache, die direkt ins Mikrofon gesprochen wird. Und ohne Stimmprobe hat man ohnehin keine Chance, eine Stimme nachzubilden.

Sie sprechen aber von einer Übergangsphase. Wie sieht das in Zukunft aus?

Karlheinz Brandenburg: Es gibt erste Versuche, mithilfe neuer, maschineller Lernverfahren Stimmen so zu re-synthetisieren, dass sie ganz natürlich klingen. Und man muss damit rechnen, dass das irgendwann gelingt. Dann müssten auch die Sicherheitssysteme entsprechend intelligenter werden, um etwaige Betrugsversuche zuverlässig zu erkennen.

Wird es jemals ein 100-prozentig fälschungssicheres technisches Zugangssystem geben? Oder müssen wir immer mit einem gewissen Restrisiko leben?

Karlheinz Brandenburg: Von absoluter Sicherheit zu reden ist immer schwierig. Wir sehen das im Kryptografie-Bereich. Es gibt mittlerweile aber sehr gute Verfahren, die für den Alltag sicher genug sind. Beim Onlinebanking etwa fühle ich mich sicher. Auf jeden Fall sicherer, als wenn ich das per Papier-Überweisung machen würde.

Würden Sie das Voice Biometrie-Verfahren selbst nutzen, wenn Sie sich dann keine Kundennummern und Passwörter mehr merken müssten?

Karlheinz Brandenburg: Ich denke schon, dass ich Voice Biometrie persönlich nutzen würde, weil es komfortabler ist. Für den Notfall – etwa wenn man im Auftrag von Familienmitgliedern anruft – sollte es aber weiterhin möglich sein, sich mit Kundennummer und Passwort an der Hotline zu registrieren.

Zur Person
Prof. Karlheinz Brandenburg (64) hat mit Kollegen am Fraunhofer-Institut für Integrierte Schaltungen IIS das weltweit verbreitete Audioformat MP3 entwickelt. Auch für seine Grundlagenarbeit im Bereich der Audiocodierung, der Wahrnehmungsmessung, der Wellenfeldsynthese und der Psychoakustik ist er bekannt. Für seine Arbeiten hat er zahlreiche nationale und internationale Forschungspreise, Auszeichnungen und Ehrungen erhalten. Heute leitet er das Fachgebiet Elektronische Medientechnik an der Technischen Universität Ilmenau und das Fraunhofer-Institut für Digitale Medientechnologie IDMT.

Archiv

„99 Prozent Genauigkeit sprechen für sich“

Hinweis

Cookies und ähnliche Technologien

Archiv

Sorry, diesen Inhalt dürfen wir aufgrund Ihrer Cookie-Einstellungen nicht anzeigen.

Hinweis