OpenAI hat ein weiteres Modell mit Künstlicher Intelligenz veröffentlicht: die Voice Engine.
Abgesehen davon, dass ChatGPT mit dem Start dieses Monats nun ohne Login und Account nutzbar ist, gibt es auch noch weitere spannende KI-News von Open AI:
Die neue KI, Voice Engine genannt, ist kein Chatbot wie ChatGPT. Stattdessen analysiert das Modell Stimmen und versucht, sie zu imitieren. Das Input-File muss nur 15 Sekunden lang sein.
Voice Engine produziert dabei eine natürlich klingende Sprache, die dem Originalsprecher sehr ähnlich ist. Die 15-Sekunden-Sample reichen, um laut OpenAI „emotionale und realistische Stimmen erzeugen“ zu können.
„Wir haben die Voice Engine erstmals Ende 2022 entwickelt und sie verwendet, um die voreingestellten Stimmen zu unterstützen, die in der Text-to-Speech-API sowie in ChatGPT Voice und Read Aloud verfügbar sind.“
KI-generierte Stimme klingt wie Original
Laut OpenAI soll die von der KI generierte Stimme der des Originals nahe kommen. Die Arbeit an der Voice Engine ist Ende 2022 gestartet. Die Entwickler sehen viele Anwendungsoptionen:
- Bereitstellung von Lesehilfe für Nichtleser und Kinder durch natürlich klingende, emotionale Stimmen, die ein breiteres Spektrum an Sprechern repräsentieren, als dies mit voreingestellten Stimmen möglich ist.
- Übersetzen von Inhalten wie Videos und Podcasts, damit YouTuber und Unternehmen mehr Menschen auf der ganzen Welt fließend und mit ihrer eigenen Stimme erreichen können.
- Erreichen globaler Gemeinschaften durch Verbesserung der Bereitstellung wesentlicher Dienste in abgelegenen Umgebungen.
- Unterstützung nonverbaler Menschen, z. B. therapeutische Anwendungen für Personen mit Erkrankungen, die die Sprache beeinträchtigen, und Bildungsverbesserungen für Personen mit Lernbedarf.
- Patienten helfen, ihre Stimme wiederherzustellen, für diejenigen, die unter plötzlichen oder degenerativen Sprachstörungen leiden.
Reihe von Beispiel-Clips geteilt
In ihrem Blog-Post teilen sie auch eine Reihe von ausgewählten Audio-Clips, die die Fähigkeiten des Modells zeigen sollen.
Die Macher weisen darauf hin, dass sie sich darüber bewusst sind, wie groß das Missbrauchs-Potential ihrer Technologie ist:
„Gleichzeitig gehen wir bei einer umfassenderen Veröffentlichung aufgrund der Möglichkeit des Missbrauchs synthetischer Stimmen vorsichtig und fundiert vor. Wir hoffen, einen Dialog über den verantwortungsvollen Einsatz synthetischer Stimmen zu beginnen und darüber, wie sich die Gesellschaft an diese neuen Fähigkeiten anpassen kann.
Basierend auf diesen Gesprächen und den Ergebnissen dieser Tests im kleinen Maßstab werden wir eine fundiertere Entscheidung darüber treffen, ob und wie diese Technologie im großen Maßstab eingesetzt werden soll.“
So geht es mit Voice Engine weiter
OpenAI hat klare Vorstellungen zur Zukunft von Voice Engine und sieht sich auch gesellschaftlich in der Verantwortung:
Voice Engine repräsentier einen weiteren Schritt im Bestreben, die Möglichkeiten der Technik auszuloten und transparent zu machen, was mit KI erreicht werden kann. Im Rahmen unseres Engagements für KI-Sicherheit und unseren selbst auferlegten Verpflichtungen hat Open AI beschlossen, diese Technologie momentan nur in einer Vorschau und nicht für die breite Öffentlichkeit freizugeben.
„Wir hoffen, dass diese Vorschau nicht nur das Potenzial der Voice Engine aufzeigt, sondern auch die Dringlichkeit betont, die gesellschaftliche Resilienz gegenüber den Herausforderungen zu erhöhen, die durch zunehmend realistischere generative Modelle entstehen.“
Bevor man Voice Engine für alle User freischaltet, müssen laut OpenAI vier wichtige Punkte geklärt sein:
- Die Eliminierung der Sprachauthentifizierung als Sicherheitsverfahren für den Zugang zu Bankkonten und sensiblen Daten.
- Die Untersuchung von Regelungen zum Schutz der Stimmenverwendung von Individuen durch KI.
- Die Sensibilisierung der Öffentlichkeit für die Fähigkeiten und Limitationen von KI-Technologien, inklusive der Gefahr durch täuschende KI-generierte Inhalte.
- Die Beschleunigung der Forschung und Implementierung von Methoden zur Rückverfolgung der Quelle audiovisueller Inhalte, um stets klarzustellen, ob die Interaktion mit einer echten Person oder einer KI stattfindet.