Automatische Untertitel erstellen – Video transkribieren online (KI)
Automatische Untertitel per KI
Video-Transkription per Whisper AI oder kostenloser Web Speech API – kein Account erforderlich. SRT/VTT herunterladen oder direkt ins Video einbrennen. Deutsch, Englisch & 99 weitere Sprachen.
Video automatisch transkribieren: Whisper vs. Web Speech API – kostenloser Vergleich
Unser Tool bietet zwei Methoden für automatische Untertitel: die hochgenaue OpenAI Whisper API (99+ Sprachen, 95–99 % Genauigkeit) und die vollständig kostenlose Web Speech API des Browsers, die ohne Registrierung oder API-Key funktioniert. Im Gegensatz zu Tools wie HappyScribe, Descript oder Otter.ai fallen bei uns keine monatlichen Abo-Gebühren an. Das fertige Ergebnis lässt sich als SRT-Datei exportieren und z.B. mit unserem Untertitel-Einbrennen-Tool nachbearbeiten – oder direkt in einem Schritt ins Video einbrennen.
Wichtig: Wenn du keinen API-Key hast, klicke einfach auf „Transkription starten" – das Tool wechselt automatisch zur Web Speech API. Für Dateien über 25 MB empfehlen wir, zuerst mit unserem MP4-zu-MP3-Konverter die Audiospur zu extrahieren – das reduziert die Dateigröße um bis zu 90 % ohne Qualitätsverlust für die Spracherkennung.
| Tool | Genauigkeit | Sprachen | Kosten | Datenschutz |
|---|---|---|---|---|
| Werkix (Whisper API) | 95–99 % | 99+ | Kostenlos (eigener Key) | Kein Werkix-Upload |
| Werkix (Web Speech API) | 80–90 % | 30–70 | Komplett kostenlos | Google-Server (Chrome) |
| HappyScribe | ~95 % | 119 | Ab 17 €/Monat | Cloud-Upload |
| YouTube Auto-Untertitel | ~85 % | ~20 | Kostenlos | Nur auf YouTube |
| Descript | ~95 % | ~23 | Ab $24/Monat | Cloud-Upload |
| Subtitle Edit (lokal) | ~85 % | ~30 | Kostenlos | Vollständig lokal |
OpenAI Whisper: Warum es das beste kostenlose Transkriptionsmodell ist
OpenAI Whisper wurde auf über 680.000 Stunden mehrsprachiger Audiodaten trainiert – mehr als jedes andere öffentlich verfügbare Modell. Es erkennt Dialekte, technisches Fachvokabular und auch Sprecher mit starkem Akzent deutlich besser als ältere Spracherkennungssysteme wie Google Cloud Speech oder Microsoft Azure STT. Die Transkriptionsgenauigkeit liegt bei guter Audioqualität bei 95–99 %. Neue OpenAI-Accounts erhalten $5 kostenlose Credits – bei $0.006 pro Minute sind das über 800 Minuten Transkription, also genug für mehrere Stunden Videomaterial.
Der wichtigste Unterschied zu Tools wie HappyScribe oder Descript: Bei Werkix geht deine Audiodatei direkt von deinem Browser an die OpenAI API – ohne Umweg über unsere Server. Das bedeutet mehr Datenschutz und keine Datenspeicherung bei uns. Nach der Transkription kannst du die Untertitel im integrierten Editor direkt im Browser korrigieren.
Web Speech API: Vollständig kostenlos – kein Account, kein Key
Die Web Speech API ist direkt in Chrome und Edge integriert und erfordert weder einen Account noch einen API-Key. Einfach Video laden, „Transkription starten" klicken – fertig. Die Genauigkeit ist mit 80–90 % etwas niedriger als Whisper, reicht aber für viele Anwendungsfälle aus. Wichtig: Die Web Speech API sendet Audio-Daten zur Verarbeitung an Google-Server (nur bei Chrome/Edge) – für vertrauliche Inhalte empfehlen wir die Whisper API.
Wann automatische Untertitel besonders sinnvoll sind
Barrierefreiheit: Hörgeschädigte Zuschauer sind auf Untertitel angewiesen. Laut WHO leben weltweit über 1,5 Milliarden Menschen mit eingeschränktem Hörvermögen. Automatische Untertitel machen Inhalte sofort zugänglich. SEO für Videos: YouTube-Algorithmen indexieren Untertitel als Textinhalt – ein Video mit korrekten Untertiteln rankt in der YouTube-Suche nachweislich besser als eines ohne. Stummschalter: 85 % der Facebook-Videos werden ohne Ton angesehen. Eingebrannte Untertitel erreichen diese Nutzer. Für Videos ohne eingebrannte Untertitel empfiehlt sich unser Untertitel-Einbrennen-Tool, das SRT-Dateien aus beliebigen Quellen verarbeitet.
SRT vs. VTT: Welches Format soll ich wählen?
Beide Formate sind weit verbreitet, haben aber unterschiedliche Stärken. SRT (SubRip Subtitle) ist das universellste Format – es wird von YouTube, Vimeo, VLC, Adobe Premiere, DaVinci Resolve und fast jeder anderen Software unterstützt. VTT (WebVTT) ist der Standard für HTML5-Videos im Browser und unterstützt zusätzlich CSS-Styling und Kapitelbeschriftungen. Für YouTube-Uploads empfehlen wir SRT. Für eigene Websites empfehlen wir VTT. Beide Formate sind in unserem Tool verfügbar und können nach dem Download mit kostenloser Software wie Subtitle Edit (Windows) oder Aegisub (Windows/Mac/Linux) weiterbearbeitet werden.
Wenn dein Video nach dem Hinzufügen von Untertiteln zu groß für den Upload ist, kannst du es anschließend mit unserem Video-Kompressor auf die gewünschte Dateigröße bringen, ohne Qualitätsverluste an den Untertiteln.
Große Dateien: Audio extrahieren für schnellere Transkription
Die Whisper API hat ein Limit von 25 MB pro Datei. Ein 10-minütiges Full-HD-Video ist schnell 500 MB groß – viel zu groß für direkten Upload. Die Lösung: Extrahiere zuerst die Audiospur mit unserem MP4-zu-MP3-Konverter. Eine 10-minütige MP3-Datei bei 128 kbps ist nur ca. 9 MB – deutlich unter dem Limit. Die Spracherkennungsqualität bleibt identisch, da Whisper nur die Audiospur benötigt. Bei sehr langen Videos (über 1 Stunde) empfiehlt es sich zudem, das Video zuerst mit unserem Video-Schneidewerkzeug in Segmente aufzuteilen.
Transkriptionsqualität verbessern: Praktische Tipps
Die Hauptursache für schlechte Transkriptionsergebnisse ist mangelnde Audioqualität. Klare Sprache ohne Hintergrundgeräusche liefert auch mit günstigen Mikrofonen exzellente Ergebnisse. Konkrete Verbesserungsmaßnahmen: Verwende ein externes Mikrofon statt des eingebauten Laptop-Mikrofons. Nimm in einem schallgedämmten Raum auf oder nutze eine Decke als improvisierten Schallschutz. Halte Mikrofon und Mund 10–15 cm voneinander entfernt. Meide Hintergrundmusik, die Sprache überlagert – auch wenn sie leise ist, erhöht sie die Fehlerrate deutlich. Nach der Transkription empfehlen wir immer ein kurzes Korrekturlesen, besonders bei Eigennamen, Fachbegriffen und Abkürzungen.
Datenschutz: Was passiert mit meinen Audiodaten?
Bei der Whisper API: Deine Audiodatei wird direkt von deinem Browser an api.openai.com gesendet – Werkix.de erhält keine Kopie. OpenAI speichert Audiodaten standardmäßig nicht dauerhaft und verarbeitet sie gemäß seiner DSGVO-konformen Datenschutzrichtlinie. Bei der Web Speech API (Chrome/Edge): Audio wird an Google-Server gesendet und verarbeitet – Google Chrome ist dabei der Verarbeitungsverantwortliche. Für maximale Privatsphäre und vollständig lokale Verarbeitung empfehlen wir selbst gehostete Whisper-Instanzen über Python (pip install openai-whisper).