Speech-to-Text

Spracheingabe mit freier Modellwahl

Anhören 0:00

Sprache ist oft schneller als Tippen. Launchpad ist bei der Spracherkennung bewusst nicht auf ein Modell festgelegt: Es wechselt zwischen mehreren Speech-to-Text-Modellen und nutzt aktuell Cohere Transcribe, das die offene ASR-Rangliste anführt. So bleibt der Diktier-Workflow immer auf dem besten Stand.

Gesprochene Worte werden lokal in Text, Aufgaben, E-Mail-Entwürfe und strukturierte Office-Workflows umgewandelt
Gesprochene Worte werden lokal in Text, Aufgaben, E-Mail-Entwürfe und strukturierte Office-Workflows umgewandelt

Das Wichtigste in Kürze

  • Launchpad ist bei der Spracherkennung modell-agnostisch: Das Transkriptionsmodell lässt sich umstellen, ohne dass sich am Ablauf für die Mitarbeiter etwas ändert.
  • Aktuell nutzt Launchpad Cohere Transcribe – ein offenes Modell, das die Open ASR Leaderboard anführt (Wortfehlerrate ~5,4 %) und Whisper Large v3 sowie Qwen3-ASR übertrifft.
  • Diktieren ist nur der Anfang: Aus dem Transkript macht Launchpad Aufgaben, E-Mails, Berichte oder Codex-fähige Arbeitsaufträge.
  • Verbindliche Inhalte wie Namen, Zahlen, Fristen und Verträge brauchen eine sichtbare menschliche Prüfung, denn Spracherkennung kann sich verhören.
1Sprechen
2Transkribieren
3Strukturieren
4Nachbearbeiten
5Freigeben

Warum Sprache der beste Einstieg ist

Viele Menschen wissen fachlich genau, was sie sagen wollen, verlieren aber Zeit beim Formulieren, Kopieren und Sortieren. Spracheingabe holt dieses Wissen dort ab, wo es entsteht: im Kopf des Mitarbeiters.

Launchpad nutzt Spracheingabe nicht als Spielerei, sondern als Startpunkt für Arbeit: E-Mail-Entwurf, Aufgabe, Berichtsheft, Blogidee, Projektanforderung oder interne Nachricht.

Warum Launchpad sich nicht auf ein Modell festlegt

Spracherkennung entwickelt sich rasant: Was heute führend ist, kann in wenigen Monaten überholt sein. Launchpad ist deshalb bewusst modell-agnostisch aufgebaut – das Transkriptionsmodell lässt sich umstellen, ohne dass sich für die Mitarbeiter am Ablauf etwas ändert.

Im Hintergrund stehen mehrere Speech-to-Text-Modelle zur Wahl, von lokalen Optionen wie Whisper, Voxtral oder Kyutai bis zu aktuellen offenen Modellen. Für die umgekehrte Richtung – Sprachausgabe – kommen lokale Text-to-Speech-Modelle wie Kokoro oder Kyutai infrage. So entsteht kein Anbieter-Lock-in.

Das aktuelle Modell: Cohere Transcribe

Aktuell nutzt Launchpad Cohere Transcribe, ein offenes Spracherkennungsmodell, das die Open ASR Leaderboard von Hugging Face anführt – mit einer Wortfehlerrate von rund 5,4 Prozent vor Modellen wie OpenAI Whisper Large v3 und Qwen3-ASR. Es unterstützt 14 Sprachen, darunter Deutsch, und lässt sich auch selbst hosten.

Wichtig für den Alltag: Das Modell ist schnell und genau, erwartet aber eine vorgewählte Sprache und liefert von sich aus keine Sprecher-Trennung oder Zeitstempel. Eine vorgeschaltete Sprachaktivitätserkennung hilft, damit Stille oder Hintergrundgeräusche nicht fälschlich transkribiert werden.

Wie Launchpad daraus Arbeit macht

Nach der Transkription beginnt der eigentliche Mehrwert: Launchpad kann aus dem Text eine strukturierte Aufgabe, eine E-Mail, einen Bericht, eine Notiz oder einen Codex-fähigen Arbeitsauftrag machen.

So wird aus einer gesprochenen Beobachtung ein überprüfbarer Workflow. Der Mensch korrigiert und gibt frei, statt jedes Dokument von Null zu tippen.

Wo die Grenzen liegen

Spracherkennung kann sich verhören. Deshalb braucht jeder verbindliche Vorgang eine sichtbare Prüfung, besonders bei Namen, Zahlen, Fristen, Verträgen, Rechnungen und personenbezogenen Daten.

Gute Software macht diese Prüfung leicht, statt sie zu verstecken. Genau dort liegt der Unterschied zwischen Diktat als Komfortfunktion und Spracheingabe als Prozesswerkzeug.

Häufige Fragen

Welches Speech-to-Text-Modell nutzt Launchpad?

Launchpad ist modell-agnostisch und kann zwischen mehreren Modellen wechseln, etwa Whisper, Voxtral oder Kyutai. Aktuell ist Cohere Transcribe als Transkriptionsmodell konfiguriert – ein offenes Modell, das die Open ASR Leaderboard anführt und 14 Sprachen inklusive Deutsch unterstützt.

Warum legt sich Launchpad nicht auf ein Modell fest?

Weil sich Spracherkennung schnell weiterentwickelt. Ein modell-agnostischer Aufbau erlaubt es, jederzeit auf das jeweils beste oder am besten passende Modell zu wechseln, ohne dass sich für die Nutzer der Ablauf ändert oder ein Anbieter-Lock-in entsteht.

Kann man der Spracherkennung blind vertrauen?

Nein. Spracherkennung kann sich verhören, gerade bei Namen, Zahlen, Fristen und Fachbegriffen. Deshalb gehört bei verbindlichen Vorgängen wie Verträgen, Rechnungen oder personenbezogenen Daten eine sichtbare Prüfung und Freigabe durch einen Menschen in den Ablauf.

Quellen und Weiterlesen

Was wir daraus machen

NADOOIT verbindet diese Themen mit praktischen Angeboten: KI-Kompetenz-Schulung, Launchpad-Workflows, IT-Sicherheit, E-Mail-Automatisierung und technische Unterstützung beim Projektstart. Der Einstieg ist bewusst pragmatisch: vorhandenes Postfach ordnen, wiederkehrende Anfragen automatisieren und bestehende Systeme kontrolliert anbinden.

Spracheingabe in Launchpad kennenlernen Newsletter abonnieren Weitere Artikel lesen