OpenAI veröffentlicht die hyperrealistische Stimme von ChatGPT für einige zahlende Benutzer

OpenAI begann am Dienstag mit der Einführung des Advanced Voice Mode von ChatGPT und gab den Benutzern erstmals Zugriff auf die hyperrealistischen Audioreaktionen von GPT-4o. Die Alpha-Version wird heute einer kleinen Gruppe von ChatGPT Plus-Benutzern zur Verfügung stehen, und OpenAI sagt, dass das Feature im Herbst 2024 allmählich allen Plus-Benutzern zur Verfügung stehen wird.

Als OpenAI im Mai erstmals die Stimme von GPT-4o präsentierte, schockte das Feature das Publikum mit schnellen Antworten und einer verblüffenden Ähnlichkeit mit einer echten menschlichen Stimme - einer ganz bestimmten. Die Stimme, Sky, ähnelte der von Scarlett Johansson, der Schauspielerin hinter der künstlichen Assistentin im Film "Her". Kurz nach der Demonstration von OpenAI sagte Johansson, dass sie mehrere Anfragen von CEO Sam Altman abgelehnt habe, ihre Stimme zu verwenden, und nachdem sie das Demo von GPT-4o gesehen habe, rechtliche Schritte unternommen habe, um ihr Ebenbild zu verteidigen. OpenAI bestritt die Verwendung von Johanssons Stimme, entfernte aber später die im Demo gezeigte Stimme. Im Juni teilte OpenAI mit, dass die Veröffentlichung des Advanced Voice Mode zur Verbesserung der Sicherheitsmaßnahmen verzögert werde.

Einen Monat später ist das Warten vorbei (sozusagen). OpenAI sagt, dass die Video- und Bildschirmfreigabefunktionen, die während des Frühjahrsupdates vorgestellt wurden, nicht Teil dieser Alpha-Version sein werden und zu einem „späteren Zeitpunkt“ starten. Im Moment ist das GPT-4o-Demo, das alle begeistert hat, immer noch nur ein Demo, aber einige Premium-Benutzer haben jetzt Zugriff auf das Voice-Feature von ChatGPT, das dort gezeigt wurde.

ChatGPT kann jetzt sprechen und zuhören

Sie haben vielleicht bereits den Voice-Mode ausprobiert, der derzeit in ChatGPT verfügbar ist, aber OpenAI sagt, dass der Advanced Voice Mode anders ist. Die alte Lösung von ChatGPT für Audio verwendete drei separate Modelle: eines zur Umwandlung Ihrer Stimme in Text, GPT-4 zur Verarbeitung Ihres Inputs und dann ein drittes zur Umwandlung des Textes von ChatGPT in Sprache. Aber GPT-4o ist multimedial und kann diese Aufgaben ohne Hilfe von Hilfsmodellen verarbeiten, was zu deutlich geringerer Latenz in den Gesprächen führt. OpenAI behauptet auch, dass GPT-4o emotionale Intonationen in Ihrer Stimme erkennen kann, einschließlich Traurigkeit, Begeisterung oder Singen.

In diesem Pilotprojekt werden ChatGPT Plus-Benutzer aus erster Hand sehen können, wie hyperrealistisch der Advanced Voice Mode von OpenAI wirklich ist. TechCrunch konnte die Funktion nicht testen, bevor dieser Artikel veröffentlicht wurde, aber wir werden sie überprüfen, sobald wir Zugriff erhalten.

OpenAI sagt, dass die Veröffentlichung der neuen Stimme von ChatGPT schrittweise erfolgt, um ihre Nutzung genau zu überwachen. Die Personen in der Alpha-Gruppe werden eine Benachrichtigung in der ChatGPT-App erhalten, gefolgt von einer E-Mail mit Anweisungen zur Verwendung.

In den Monaten seit der Demonstration von OpenAI sagt das Unternehmen, dass es die sprachlichen Fähigkeiten von GPT-4o mit mehr als 100 externen Red-Teamern, die 45 verschiedene Sprachen sprechen, getestet hat. Ein Bericht über diese Sicherheitsbemühungen wird Anfang August veröffentlicht.

Das Unternehmen sagt, dass der Advanced Voice Mode auf ChatGPTs vier voreingestellte Stimmen - Juniper, Breeze, Cove und Ember - beschränkt sein wird, die in Zusammenarbeit mit bezahlten Synchronsprechern erstellt wurden. Die Sky-Stimme, die in der Demo von OpenAI im Mai gezeigt wurde, ist nicht mehr in ChatGPT verfügbar. OpenAI-Sprecherin Lindsay McCallum sagt: „ChatGPT kann nicht die Stimmen anderer Personen, sowohl Einzelpersonen als auch Prominente, imitieren und blockiert Ausgaben, die sich von einer dieser voreingestellten Stimmen unterscheiden.“

OpenAI versucht, Kontroversen um Deepfakes zu vermeiden. Im Januar wurde die Sprachklontechnologie des KI-Startups ElevenLabs verwendet, um Präsident Biden zu imitieren und Primärwähler in New Hampshire zu täuschen.

OpenAI sagt auch, dass neue Filter eingeführt wurden, um bestimmte Anfragen zur Erzeugung von Musik oder anderem urheberrechtlich geschützten Audio zu blockieren. Im letzten Jahr gerieten KI-Unternehmen in rechtliche Schwierigkeiten wegen Urheberrechtsverletzungen, und Audio-Modelle wie GPT-4o eröffnen eine ganz neue Kategorie von Unternehmen, die eine Beschwerde einreichen können. Insbesondere Plattenlabels, die dafür bekannt sind, klagefreudig zu sein, haben bereits KI-Song-Generatoren wie Suno und Udio verklagt.