Text-to-Speech

Stimme klonen & lokale Sprachausgabe

Anhören 0:00

Künstliche Stimmen waren bisher oft teuer, cloudgebunden oder unflexibel. Mit OmniVoice bekommt Launchpad eine lokale Text-to-Speech-Engine, die Stimmen aus wenigen Sekunden Audio klont oder per Beschreibung neu gestaltet – für Lernvideos, Vertonung und Social Media, und das ohne Cloud und ohne Konto.

Aus Text und einer kurzen Sprachprobe entsteht lokal eine geklonte, natürliche Stimme für Lernvideos, Vertonung und Social Media
Aus Text und einer kurzen Sprachprobe entsteht lokal eine geklonte, natürliche Stimme für Lernvideos, Vertonung und Social Media

Das Wichtigste in Kürze

  • OmniVoice bringt Launchpad lokale Text-to-Speech und Voice-Cloning: eigene Stimmen für Lernvideos, Vertonung und Social Media – ohne Cloud, Konto oder Abo.
  • Zero-shot: Aus 3 bis 10 Sekunden Sprachprobe wird eine Stimme geklont; alternativ entsteht per Beschreibung (Voice Design) eine ganz neue Stimme.
  • Offen (Apache 2.0) vom Next-gen-Kaldi-Team k2-fsa, über 600 Sprachen, läuft auf NVIDIA-GPU, Apple Silicon oder zur Not auf der CPU.
  • Launchpad bleibt auch bei der Sprachausgabe modell-agnostisch (u. a. OmniVoice, Kyutai, Qwen3-TTS) – und geklonte Stimmen brauchen eine klare Einwilligung.
1Text eingeben
2Stimme wählen oder klonen
3Lokal synthetisieren
4Anhören und prüfen
5Freigeben

Warum künstliche Stimmen plötzlich praktisch sind

Sprachausgabe war lange entweder roboterhaft oder teuer und an die Cloud gebunden. Moderne Text-to-Speech-Modelle klingen inzwischen natürlich, beherrschen viele Sprachen und können sogar eine bestimmte Stimme aus wenigen Sekunden Audio nachbilden.

Damit wird Vertonung vom Spezialprojekt zur Alltagsfunktion: Lernvideos, Anleitungen, Newsletter zum Anhören, Social-Media-Clips oder vorgelesene Berichte lassen sich erzeugen, ohne jedes Mal ein Studio oder einen Dienstleister zu buchen.

OmniVoice: lokal, mehrsprachig, mit Voice-Cloning

OmniVoice ist ein offenes Text-to-Speech-Modell des Next-gen-Kaldi-Teams (k2-fsa) unter Apache-2.0-Lizenz. Es unterstützt über 600 Sprachen und arbeitet zero-shot: Aus einer kurzen Sprachprobe von wenigen Sekunden klont es eine Stimme, ohne dass dafür ein eigenes Modell trainiert werden muss.

  • Voice Cloning: 3 bis 10 Sekunden Referenz-Audio genügen, um eine Stimme nachzubilden.
  • Voice Design: Eine neue Stimme allein aus einer Beschreibung erzeugen – Alter, Tonhöhe, Akzent und Stil.
  • Natürliche Details: Eingestreute Marker wie [laughter] machen die Ausgabe lebendiger.

Wichtig für uns: OmniVoice läuft lokal – auf NVIDIA-GPUs, Apple Silicon oder notfalls auf der CPU, dann langsamer. Es braucht keine Cloud, kein Konto und kein Abo.

Was ihr damit konkret macht

Der Nutzen ist greifbar. Eine Ausbilderin nimmt einmal eine Sprachprobe auf und lässt danach Lernunterlagen in ihrer eigenen Stimme vertonen. Ein Betrieb erzeugt einheitliche Ansagen, Erklärvideos oder Social-Media-Clips, ohne jedes Mal neu aufnehmen zu müssen.

Auch interne Inhalte profitieren: Berichte, Anleitungen oder Newsletter werden als Audio verfügbar, damit Mitarbeitende sie unterwegs anhören können. Aus Text wird so ohne großen Aufwand hörbare Information.

Launchpad bleibt auch bei Stimmen modell-agnostisch

Wie bei der Spracherkennung legt sich Launchpad auch bei der Sprachausgabe nicht auf ein einziges Modell fest. Neben OmniVoice stehen weitere lokale TTS-Backends bereit, etwa Kyutai oder Qwen3-TTS für deutschsprachige Stimmen. Über einen einheitlichen Befehl wird das passende Modell gewählt.

So bleibt der Betrieb frei: Was heute am besten klingt, kann morgen durch ein besseres Modell ersetzt werden, ohne dass sich der Arbeitsablauf ändert oder ein Anbieter-Lock-in entsteht.

Verantwortung: geklonte Stimmen brauchen Regeln

Eine Stimme zu klonen ist mächtig – und sensibel. Deshalb gilt: Nachgebildet werden nur Stimmen, für die eine klare Einwilligung vorliegt, idealerweise die eigene oder eine ausdrücklich freigegebene.

Geklonte Stimmen können täuschen, etwa bei Telefonbetrug. Wer Voice-Cloning produktiv nutzt, sollte Ergebnisse kennzeichnen, Sprachproben sicher verwahren und im Zweifel auf eine Freigabe bestehen. Weil OmniVoice lokal läuft, bleiben die Sprachdaten dabei im eigenen Haus.

Häufige Fragen

Was ist OmniVoice und was kann es?

OmniVoice ist ein offenes Text-to-Speech-Modell (Apache 2.0) des Next-gen-Kaldi-Teams k2-fsa. Es erzeugt natürliche Sprachausgabe in über 600 Sprachen, klont aus wenigen Sekunden Audio eine Stimme (zero-shot) und kann per Beschreibung neue Stimmen gestalten. Es läuft lokal, ohne Cloud oder Konto.

Wie viel Audio braucht das Klonen einer Stimme?

Schon 3 bis 10 Sekunden klare Sprachprobe reichen, um eine Stimme nachzubilden – ein eigenes Modell muss dafür nicht trainiert werden. Für beste Ergebnisse sollte die Probe in derselben Sprache wie die gewünschte Ausgabe aufgenommen sein.

Darf ich jede Stimme klonen?

Nein. Geklont werden sollten nur Stimmen, für die eine klare Einwilligung vorliegt – etwa die eigene oder eine ausdrücklich freigegebene. Geklonte Stimmen können missbraucht werden; Ergebnisse sollten gekennzeichnet und Sprachproben sicher verwahrt werden. Da OmniVoice lokal läuft, bleiben die Daten im eigenen Haus.

Quellen und Weiterlesen

Was wir daraus machen

NADOOIT verbindet diese Themen mit praktischen Angeboten: KI-Kompetenz-Schulung, Launchpad-Workflows, IT-Sicherheit, E-Mail-Automatisierung und technische Unterstützung beim Projektstart. Der Einstieg ist bewusst pragmatisch: vorhandenes Postfach ordnen, wiederkehrende Anfragen automatisieren und bestehende Systeme kontrolliert anbinden.

Sprachausgabe in Launchpad kennenlernen Newsletter abonnieren Weitere Artikel lesen