Hamburger entwickelt Software, die Hörbücher mit der eigenen Stimme versieht. Es gibt erste Erfolge

Hamburg. Michael Stoss knetet seine Finger, er starrt auf die Leinwand. "Jetzt bin ich aber gespannt", sagt der 42-Jährige und lächelt unsicher, als ahne er, dass die Vorführung nicht ganz so gut laufen wird, wie er hofft.

Stoss ist Wirtschaftsingenieur und Gründer der Firma Voice Choice. Er hat ein Programm entwickeln lassen, das zu einer Sensation werden könnte: Es soll eine bereits aufgenommene Stimme durch eine beliebige andere Stimme ersetzen können - egal in welcher Sprache, ob weiblich oder männlich, hoch oder tief, hart oder weich.

Anwendungsmöglichkeiten gäbe es viele: Ein Krimi-Hörbuch ließe sich mit der eigenen Stimme besprechen - etwa als Geschenk für Eltern oder Freunde. Man könnte auch Filme individualisieren, etwa Leonardo DiCaprios Stimme in "Titanic" durch den eigenen Tonfall ersetzen. Es sollte auch möglich sein, Originalstimmen in eine andere Sprache zu übertragen, zum Beispiel einen deutschen Text mit der Stimme der US-Schauspielerin Scarlett Johansson sprechen zu lassen. Oder einen chinesischen Text. Sagt Michael Stoss.

Die Idee für das Programm kam ihm, als er 2007 für Volkswagen in Kuala Lumpur (Malaysia) arbeitete. Damals war der Wirtschaftsingenieur oft länger getrennt von seiner Familie in Hamburg. Wenn er seinem Ziehsohn Tom eine Gute-Nacht-Geschichte vorlesen wollte, musste Stoss das am Telefon tun. "Es müsste doch irgendwie machbar sein, meine Stimme zu übertragen", dachte Stoss und wandte sich, zurück in Deutschland, an das Institut für Akustik und Sprachkommunikation der Technischen Universität Dresden.

Ja, so ein Programm sei machbar, bescheinigten ihm die Dresdener Forscher, aber es koste Geld. Also besorgte sich Stoss 2010 rund 50 000 Euro vom Pro-Ideenfonds, einer von der Stadt Hamburg und der EU geförderten Einrichtung, die Existenzgründer unterstützt. Mit dem Geld ließ Stoss die Forscher in Dresden eine erste Version der Stimmsoftware erstellen. Im Mai dieses Jahres startete er eine Zusammenarbeit mit dem Institut für Allgemeine Nachrichtentechnik der Helmut-Schmidt-Universität in Hamburg.

Hier steht Stoss nun in einem spärlich eingerichteten Seminarraum, vor sich eine Leinwand, auf der die Bedienoberfläche des Programms abgebildet ist. Links oben sind die Sprachsignale einer "Quellstimme" zu sehen. Als Beispiel hat Stoss die Stimme von Schauspielerin Barbara Auer ausgewählt. Sie liest aus dem Kinderbuch "Mumins lange Reise". Ihr Text beginnt mit dem Satz: "Es muss irgendwann im August gewesen sein." In einem Programmfenster links unten auf der Leinwand sind die Sprachsignale einer "Zielstimme" abgebildet. Diese stammt von einem Mann, der sagt: "Angeblich hat die Menschheit nur noch zehn Jahre Zeit, einen unumkehrbaren Klimawandel abzuwenden."

Mit einem Klick auf die Schaltfläche "Stimme konvertieren" geht es los: Das Programm arbeitet; es "lernt" den Klang der Zielstimme. Etwa 15 Sekunden vergehen, dann erscheinen in einem Fenster oben rechts neue Sprachsignale. "Es muss irgendwann im August gewesen sein", sagt der Mann jetzt anstelle von Barbara Auer, und dabei klingt die neu erzeugte Stimme fast genauso wie die Quellstimme des Mannes.

Stoss zufolge bildet das Programm bisher etwa 70 Prozent einer Stimme nach. Dabei kann es mit drei Parametern umgehen: der durchschnittlichen Tonhöhe, dem Tonumfang (ist die Stimme monoton oder eher variabel) sowie mit einem Faktor, der die Beschaffenheit des Vokaltraktes erfasst. Dieser beginnt am Kehlkopf und besteht aus Rachen, Mundraum und Nasenhöhlen. Je nach Länge und Form des Vokaltraktes klingen Stimmen eher dumpf oder eher hell und klar, wobei etliche Zwischentöne entstehen können. Es ist vor allem der Vokaltrakt, der über die einzigartige Klangfarbe einer Stimme entscheidet. Es gibt allerdings noch weitere wichtige Parameter wie Betonung und Sprachrhythmus, mit denen das Programm bisher nicht umgehen kann.

Doch auch mit den drei genannten Einflussgrößen kann Voice Choice bisher nur optimal arbeiten, wenn die Zielstimme in exzellenter Qualität vorliegt. Das setzt voraus, dass die Aufnahme in einem professionellen Tonstudio stattfindet. Die Tonsignale werden danach zudem noch in mehreren Schritten bearbeitet. Auf dieser Grundlage funktioniert die Stimmkonvertierung beeindruckend gut. Unter einfachen Bedingungen zeigen sich aber Schwächen, wie ein Test ergibt.

In einem semiprofessionellen Tonstudio der Hochschule nimmt Adrian von dem Knesebeck, 29, Ingenieur und Doktorand am Institut für Allgemeine Nachrichtentechnik, meine Stimme auf. Er überträgt die Datei auf ein Notebook und öffnet Voice Choice. Meine Stimme soll nun die Stimme von Barbara Auer ersetzen. Aus den Boxen schallt ein lautes "Pling" - ansonsten passiert erst einmal nichts. "Oh, oh, das ist ein Zeichen, dass der Algorithmus nicht funktioniert", sagt Stoss und rutscht auf seinem Stuhl hin und her. Adrian von dem Knesebeck nimmt einige Einstellungen vor. Dann klappt es doch noch. Die Stimme, die nun sagt, "Es muss irgendwann im August gewesen sein", klingt aber nicht wie meine eigene ... oder doch? Irgendetwas an der Art des Klangs erscheint vertraut; dennoch ist das Produkt weit davon entfernt, so zu klingen wie ich.

Man sollte fair sein: Noch ist Voice Choice ein Prototyp. Aber wird eine weiterentwickelte Version tatsächlich all das leisten können, was sich Michael Stoss erhofft? "Es sind wahrscheinlich noch zwei bis drei Jahre Forschungs- und Entwicklungsarbeit nötig", sagt Prof. Udo Zölzer, Leiter des Instituts für Allgemeine Nachrichtentechnik. Prinzipiell habe das Programm aber ein großes Potenzial. "Ich stehe voll hinter dem Projekt. Michael Stoss ist jemand, der eine Vision hat. Er braucht jetzt dringend Investoren, die seine Idee unterstützen."

Eine halbe bis eine Million Euro sei nötig, um das Programm zur Marktreife zu bringen, schätzt Stoss. Das Startkapital von 50 000 Euro ist aufgebraucht; er hat seine Ersparnisse in das Projekt gesteckt, seine Eltern haben ihm Kredite gegeben. Er bewirbt sich parallel, es ist sein Plan B. "Noch gebe ich aber nicht auf", sagt Stoss. "Ich brenne für diese Idee. Es kann funktionieren."

Als erste Anwendung schwebt ihm ein Internetportal für Hörbücher vor. Dort könnte man eine Geschichte aussuchen und seine Stimme hochladen. Einige Tage später käme das individuell besprochene Hörbuch dann als MP3-Datei per Mail oder auf DVD per Post. Hilfreich etwa für Väter wie ihn, die oft auf Dienstreise sind und möchten, dass zumindest ihre Stimme immer zu Hause und bei den Kindern ist.