499 900x600
10 Minuten Lesezeit

KI Stimme oder Premium Voice Over? Das sind die Unterschiede

Liesa

Autor Liesa Wieruch

05. August 2024

Die Künstliche Intelligenz läutet für die Videoproduktion eine neue Ära ein. Schauen wir uns an, wie KI dabei den Job von professionellen Sprecher:innen zwar ergänzen, nicht aber ersetzen kann!

Dreamteam: Videoproduktion & Technologie.

Videos sind aus dem Marktplatz Internet nicht mehr wegzudenken und nicht nur auf sozialen Netzwerken sehr beliebt. Unternehmen nutzen sie, um sich vorzustellen, Produkte in Szene zu setzen oder Content zu bestimmten Anlässen zu kommunizieren. Privatpersonen schneiden Reels aus Urlaubsschnappschüssen oder teilen die ersten Schritte des Nachwuchses.

Und die Filmproduktion hat das Internet als wertvollen Kanal für die Vermarktung und Weiterentwicklung ihrer Inhalte erkannt.

Eine Studie von Hubspot zeigt sogar, dass 54 % der befragten Konsument:innen in Zukunft noch mehr Videos sehen möchten, und das vor allem von Unternehmen.


Wir finden Videos toll – nicht nur, weil wir sie bei Mynd anbieten, sondern weil wir Ihnen damit zum Beispiel helfen können, mehr zu verkaufen. Dazu können wir (sofern gewünscht) auch Künstliche Intelligenz nutzen.

Es ist also nur logisch, dass die Videoproduktion (nicht nur) online einen großen Markt darstellt. Neben Unternehmen, die die Videoerstellung als interpersonelle Dienstleistung anbieten, schießen dank technologischem Fortschritt auch immer mehr Tools und Softwares aus dem Boden, die die Erstellung von Videos einfacher machen sollen.

Diese Entwicklungen betreffen sowohl die Konzeption als auch die Erstellung oder Nachbearbeitung von Videos, und verschiedene Tools und Programme ermöglichen ihren Einsatz in nahezu jedem denkbaren Kontext.

Künstliche Intelligenz: Einsatzgebiete in der Videoproduktion

Ob Firmen die Videoproduktion durch Dienstleister oder intern ausführen lassen: Fortschrittliche Tools oder Künstliche Intelligenzen können in nahezu jeder Phase der Videoproduktion Anwendung finden. Zu den möglichen Einsatzgebieten zählen:

#1 Videokonzeption.

ChatGPT kann nicht nur Texte schreiben, sondern auch allerhand spannende Konzepte zusammenstellen. So kann das Tool mit der richtigen Aufforderung („Prompt“) auch Ideen für Videos auflisten und dabei unterstützen, kreative Hooks und aktuelle Themen zu finden.


Von der Idee über den Text bis hin zum Musikvideo: Matt Wolfe erstellt mithilfe Künstlicher Intelligenz einen Song inklusive Videoclip. Auch die Singstimme ist künstlicher Natur, könnte klanglich aber noch ausgefeilt werden.

#2 Videoschnitt.

Software wie Adobe Premiere, Magix oder Final Cut sind in der Filmwelt und der Videoproduktion gängige Produkte. Da aber TikToks und Instagram Reels voraussetzen, dass Videos Smartphone-gerecht und kurzfristig geteilt werden können, erfreuen sich auch Tools wie CapCut oder Canva immer größerer Beliebtheit. Sie alle haben eines gemeinsam: Die Integration von Artificial Intelligence wird die technischen Möglichkeiten im Videoschnitt noch einmal deutlich verbessern.

#3 Postproduktion.

Postproduktionssoftware ermöglicht es, Aufnahmen zu importieren, Bild und Ton zu optimieren, Szenen zu schneiden und zusammenzusetzen sowie Hintergrundmusik und Spezialeffekte zu integrieren. Material kann hier jedoch auch gesichert und in verschiedenen Formaten exportiert werden. Videoproduktionsteams können hier gemeinsam an Projekten werkeln, vergangene Versionen nachvollziehen und so kundenorientiert arbeiten. Projektmanagementsoftware kann zusätzlich eingebunden werden, um Freigabeprozesse digital abzubilden.


Aus existierenden Videos neue schaffen – auch das kann AI bereits. PromptJungle demonstriert ab der Timestamp 1:36, wie das beispielsweise mit der Betaversion von Kaiber aussieht.

#4 Videoerstellung.

Natürlich darf hier auch die KI-basierte Videoerstellung nicht unerwähnt bleiben. Gerade die Quantensprünge, die OpenAI mit Sora verspricht, dürften die Videoproduktion in Gänze noch einmal kräftig durchrütteln. Auf der Basis kurzer Prompts generative, realistische Kurzvideos zu erstellen, wird für Profis und Laien zugleich ein nützliches Werkzeug werden.

Ob sich ein Unternehmen also dafür entscheidet, einen Dienstleister für die Videoproduktion zu engagieren oder selbst tätig zu werden: Technologischen Support gibt es an vielen Stellen. Bei einem dieser Produktionsschritte sollte die Nutzung von Technologie jedoch besonders sorgsam abgewogen werden – schauen wir auf die menschliche Komponente, insbesondere die der Sprecher:innen.

KI-Stimmgenerierung: Fortschritt mit Luft nach oben.

Während generative KI die Text-, Bild- und Videoerstellung nachhaltig verändert, geschieht auch in puncto Stimmen einiges: Artificial Intelligence ermöglicht es, realistisch klingende Stimmen zu generieren, die für Unternehmensvideos und andere Anwendungen verwendet werden können. Dieser Prozess wird als „Stimmenklonen“ oder „Sprachsynthese“ bezeichnet.


Beeindruckendes Voice Cloning erklärt: Greg Preece zeigt in seinem Video „Clone Your Voice For AI Voice Overs!! (ElevenLabs Tutorial)“, dass das Klonen der eigenen Stimme in weniger als fünf Minuten möglich ist.

Funktionsweise des Stimmenklonens.

Das Stimmenklonen basiert auf Deep-Learning-Modellen, die auf großen Mengen an Sprachdaten des Sprechenden trainiert werden, dessen Stimme nachgeahmt werden soll. Nach dem Training kann das Modell Sprache erzeugen, die der Originalstimme sehr ähnlich klingt. Anbieter wie resemble.ai spezialisieren sich bereits auf die Methode.

Gerade für Unternehmen und Unternehmensvideos hat das Stimmenklonen theoretisch also viele Anwendungsmöglichkeiten:

Voice Cloning: Vorteile und Herausforderungen.

Stimmenklonen ermöglicht es sicherlich, Inhalte effizienter zu erstellen und Kosten zu sparen. Allerdings gibt es auch Bedenken hinsichtlich Datenschutz, Einwilligung und möglichem Missbrauch für Desinformation (sog. Deepfakes). Die ethischen und sozialen Auswirkungen von Artificial Intelligence sind insgesamt noch wenig erforscht und sind für viele Kritiker:innen Grund genug, die Technologien erst einmal zu meiden. Eine sorgfältige Regulierung und Überwachung dieser Technologie sind langfristig unumgänglich. Davon abgesehen gelingt es KI bisher nicht oder nur schlecht, emotionale oder humorvolle Stimmfarben zu transportieren.


Was die Technologie des Voice Clonings für die Gesellschaft bedeuten könnte, analysiert BBC News eindrucksvoll in diesem Nachrichtenclip. Prädikat: wertvoll, aber in den falschen Händen durchaus beunruhigend.

Zudem gibt es bisher wenig Daten dazu, wie Verbraucher:innen auf Inhalte reagieren, die mithilfe von KI erstellen wurden – inwiefern ist ein Unterschied überhaupt spürbar? Mit der Software von ElevenLabs beispielsweise lässt sich eine Stimme innerhalb von nur fünf Minuten vollständig klonen. Können Nutzer:innen das heraushören?

Fakt ist: Die Öffentlichkeit bleibt skeptisch, was KI angeht. Wenngleich sich laut einer Stanford-Studie die Einstellung gegenüber Künstlicher Intelligenz in Sachen Medizin und Forschung zum Besseren gewendet hat, besteht weiterhin ein Zweifel, wie AI sich auf den Arbeitsmarkt und die technologische Zukunft auswirken wird. Und selbst bei fortschrittlichen generativen KIs geschehen weiterhin „unmenschliche“ Fehler – die Darstellung anatomisch korrekter Hände bleibt beispielsweise eine Herausforderung, und Fehler wie diese werden in der Online-Community gnadenlos durch den Kakao gezogen.


Warum finden wir Dinge gruselig, die menschenähnlich, aber eben doch nicht menschlich sind? The Why Files erklärt das psychologische Phänomen, das sich auch Horrorfilme gern zunutze machen.

Ob es an dem leisen Unwohlsein liegt, das diese „nicht ganz menschlichen“ Abbildungen erzeugen? Der Begriff „Uncanny Valley“ (dt. „unheimliches Tal“) beschreibt ein psychologisches Phänomen, bei dem die Sympathie für künstliche Figuren wie Roboter oder CGI-Charaktere zunächst steigt, wenn diese menschenähnlicher werden, dann aber abrupt abfällt, sobald die Ähnlichkeit zu perfekt wird und etwas „unheimlich“ oder „gruselig“ daran erscheint.

Masahiro Mori, ein japanischer Professor für Robotik, prägte den Begriff 1970 in einem Essay. Er argumentierte, dass Roboter durch die Annahme menschlicher Eigenschaften an Liebenswürdigkeit gewinnen – aber nur bis zu einem gewissen Punkt, an dem die Ähnlichkeit so groß wird, dass sie unheimlich erscheinen.


Wer dem Phänomen „Uncanny Valley“ näher auf den Grund gehen möchte, sollte sich die Film-Analyse von Screened ansehen. Doch Achtung: Der Effekt ist wirkungsvoller, als vielen lieb sein dürfte…

Dieses Phänomen lässt sich auch auf KI-generierte Inhalte übertragen. Wenn KI-Systeme realistische Bilder, Videos oder Texte erstellen, die Menschen sehr ähnlich sind, kann dies bei Betrachtern ein Gefühl der Unruhe auslösen. Und das trifft nicht nur zu, wenn eine AI-erstellte Hand zu viele Finger aufweist: Auch bei KI-generierten Stimmen kann der „Uncanny Valley“-Effekt auftreten, wenn diese fast, aber nicht ganz perfekt klingen. Aber keine Panik – statt KI den Rücken zu kehren, gibt es auch hier einen gesunden Mittelweg, den wir Ihnen im Folgenden vorstellen wollen.

Tipps für die Nutzung KI-generierter Stimmen.

Um den „Uncanny Valley“-Effekt bei der Erstellung von KI-generierten Inhalten, insbesondere bei der Verwendung von AI-Stimmen, zu vermeiden, gibt es einige Strategien:


Tipp #1: Abändern.

KI nutzen – und das deutlich. Statt eine zu perfekte Menschenähnlichkeit anzustreben, können Videoproduzierende den künstlichen Charakter betonen und Unvollkommenheiten zulassen. Ein Gleichgewicht zwischen Realismus und Stilisierung ist anzustreben – so nutzen einige Influencer und Marken auf TikTok und Instagram künstlich stilisierte Voice-Overs.


Trickfrage: Kann Ihre Zielgruppe eine AI-Stimme erkennen? Revoicer verdeutlicht, wie verwirrend die Technologie noch immer sein kann. Eine Möglichkeit, dies zu umgehen, ist die Nutzung von offensichtlich künstlichen Stimmen.

Tipp #2: Abwarten.

Die Qualität und der Realismus der generierten Inhalte werden kontinuierlich verbessert werden. Das umfasst die Verfeinerung von Gesichtsmerkmalen, Körperproportionen, Bewegungen und eben auch Stimmen. In Zukunft werden KI-generierte Inhalte beispielsweise die Probleme des „Uncanny Valley“ überwinden können, da die Technologie sich noch in einer frühen Phase befindet.

Tipp #3: Abwägen.

Wenn wir vom Voice Cloning ausgehen, ist eine Datenbank derjenigen Stimmen, die Sie für Ihre Marke bereits nutzen, sicher eine gute Investition. Auf Basis dieser lässt sich dann abwägen, in welchen Situationen die KI-Stimme genügt, und wann echte Emotionen spürbar sein müssen – oder können Sie sich ein herzergreifendes Weihnachtsvideo mit Roboterstimme vorstellen? Für sachliche Intros oder Informationsvermittlung könnte allerdings die KI-Stimme ausreichen. Vergessen Sie hierbei nicht, mit den professionellen Sprecher:innen entsprechende Nutzungsverträge abzuschließen und sie für die Verwendung ihrer Stimmen entsprechend zu entlohnen.


AI als Instrument: Musiker Ummet Ozcan nutzt Künstliche Intelligenz, um kreative Songs zu erschaffen, ohne sich dabei vollständig auf die Technologie zu verlassen. Ein solcher Mix kommt auf für Unternehmensvideos infrage.

Tipp #4: Abwinken.

Vielleicht ist die rechtliche Grauzone, die KI nach wie vor aufwirft, zu unsicher, oder Ihre Marke braucht zu jedem Zeitpunkt kreative, ausdrucksstarke Stimmen – niemand muss auf KI umsteigen. Auch wir bei mynd arbeiten am liebsten mit professionellen Sprecher:innen zusammen, die live und jedes Mal aufs Neue dem Storytelling in unseren Videos Profil verpassen. Vielleicht wird Ihre Zielgruppe es Ihnen sogar danken.

Fazit: KI-Stimmen sind da – aber Sprecher:innen bleiben.

Wie auch immer Sie sich entscheiden, – ob Sie also auf KI-basierte Stimmen setzen oder ausschließlich mit menschlichen Sprecher:innen arbeiten wollen – Künstliche Intelligenz wird die Videoproduktion bis auf Weiteres begleiten. Ein Auseinandersetzen und erste Gehversuche mit der Technologie sind daher sinnvoll.

Sehr gern begleiten wir Sie dabei!

Sie suchen einen kreativen Partner, der Sie zur Nutzung von KI in Ihren Videos berät oder diese für Sie umsetzt?

Gerne beraten wir Sie unverbindlich zu Ihren Optionen. Nehmen Sie jetzt Kontakt auf! »


Benötigen Sie Hilfe?

Attila Schunke

Sie sind sich unsicher, was genau Sie suchen oder haben Fragen zu unseren Videoprodukten? Wir unterstützen und beraten Sie sehr gerne.

Unverbindlich Kontakt aufnehmen

Wissen, das Sie weiterbringt:

Möchtest du erfolgreicher sein?

Erreiche deine Ziele per Video – lass uns reden!

David echelle portraitfoto 1

Unser Wissen macht Sie erfolgreicher.

Unser Wissen macht Sie erfolgreicher.

Alles zum Thema Video, Online Marketing und E-Learning: Erhalten Sie die neusten Artikel der Mynd-Expert:innen bequem per Mail.

Unser Wissen macht Sie erfolgreicher.

Mynd nutzt Ihre Angaben, um Ihnen unser wöchentliches Blog-Abonnement zur Verfügung zu stellen. Weitere Informationen finden Sie in unsereren Datenschutzbestimmungen.

Fast geschafft! Bitte bestätigen Sie Ihr Mynd Blog Abo. Wir haben Ihnen soeben eine E-Mail dazu gesendet.