Automatische Untertitel erstellen – Video transkribieren online (KI)

← Alle Video-Tools
🤖
KI-Spracherkennung

Automatische Untertitel per KI

Video-Transkription per Whisper AI oder kostenloser Web Speech API – kein Account erforderlich. SRT/VTT herunterladen oder direkt ins Video einbrennen. Deutsch, Englisch & 99 weitere Sprachen.

✓ Kostenlos 🤖 Whisper AI 📄 SRT · VTT Export DE · EN · FR · ES · 99+

Video automatisch transkribieren: Whisper vs. Web Speech API – kostenloser Vergleich

Unser Tool bietet zwei Methoden für automatische Untertitel: die hochgenaue OpenAI Whisper API (99+ Sprachen, 95–99 % Genauigkeit) und die vollständig kostenlose Web Speech API des Browsers, die ohne Registrierung oder API-Key funktioniert. Im Gegensatz zu Tools wie HappyScribe, Descript oder Otter.ai fallen bei uns keine monatlichen Abo-Gebühren an. Das fertige Ergebnis lässt sich als SRT-Datei exportieren und z.B. mit unserem Untertitel-Einbrennen-Tool nachbearbeiten – oder direkt in einem Schritt ins Video einbrennen.

Wichtig: Wenn du keinen API-Key hast, klicke einfach auf „Transkription starten" – das Tool wechselt automatisch zur Web Speech API. Für Dateien über 25 MB empfehlen wir, zuerst mit unserem MP4-zu-MP3-Konverter die Audiospur zu extrahieren – das reduziert die Dateigröße um bis zu 90 % ohne Qualitätsverlust für die Spracherkennung.

Tool Genauigkeit Sprachen Kosten Datenschutz
Werkix (Whisper API) 95–99 % 99+ Kostenlos (eigener Key) Kein Werkix-Upload
Werkix (Web Speech API) 80–90 % 30–70 Komplett kostenlos Google-Server (Chrome)
HappyScribe ~95 % 119 Ab 17 €/Monat Cloud-Upload
YouTube Auto-Untertitel ~85 % ~20 Kostenlos Nur auf YouTube
Descript ~95 % ~23 Ab $24/Monat Cloud-Upload
Subtitle Edit (lokal) ~85 % ~30 Kostenlos Vollständig lokal
🤖
KI-Transkription
Video laden → Sprache wählen → Transkription starten → SRT oder einbrennen
⚠️
🔑 Whisper API-Key (optional – für beste Ergebnisse)
Für hochgenaue Transkription: OpenAI API-Key eingeben (wird nur lokal in deinem Browser gespeichert, nie an unsere Server gesendet). Neue Accounts erhalten kostenlose Credits (~800 Min. Transkription). Ohne Key: kostenlose Web Speech API wird automatisch verwendet.
🎬
Video oder Audio laden
MP4, WebM, MOV, AVI, MP3, WAV · Whisper max. 25 MB · Web Speech API: unbegrenzt
🎬 Datei auswählen
🎬
KI analysiert Sprache…
Audio wird verarbeitet
So funktioniert es
1
🎬
Datei laden
Video oder Audio-Datei direkt im Browser auswählen. Whisper max. 25 MB – größere Dateien als MP3 exportieren.
2
🌍
Sprache wählen
Videosprache auswählen – Deutsch, Englisch oder eine von 99+ weiteren Sprachen.
3
🤖
KI transkribiert
Whisper AI oder Web Speech API erkennt gesprochene Inhalte und erzeugt zeitgesteuerte Untertitel.
4
📄
SRT laden / einbrennen
Untertitel als SRT/VTT herunterladen oder direkt ins Video einbrennen – in einem Schritt.
Automatische Untertitel – vollständiger Guide

OpenAI Whisper: Warum es das beste kostenlose Transkriptionsmodell ist

OpenAI Whisper wurde auf über 680.000 Stunden mehrsprachiger Audiodaten trainiert – mehr als jedes andere öffentlich verfügbare Modell. Es erkennt Dialekte, technisches Fachvokabular und auch Sprecher mit starkem Akzent deutlich besser als ältere Spracherkennungssysteme wie Google Cloud Speech oder Microsoft Azure STT. Die Transkriptionsgenauigkeit liegt bei guter Audioqualität bei 95–99 %. Neue OpenAI-Accounts erhalten $5 kostenlose Credits – bei $0.006 pro Minute sind das über 800 Minuten Transkription, also genug für mehrere Stunden Videomaterial.

Der wichtigste Unterschied zu Tools wie HappyScribe oder Descript: Bei Werkix geht deine Audiodatei direkt von deinem Browser an die OpenAI API – ohne Umweg über unsere Server. Das bedeutet mehr Datenschutz und keine Datenspeicherung bei uns. Nach der Transkription kannst du die Untertitel im integrierten Editor direkt im Browser korrigieren.

Web Speech API: Vollständig kostenlos – kein Account, kein Key

Die Web Speech API ist direkt in Chrome und Edge integriert und erfordert weder einen Account noch einen API-Key. Einfach Video laden, „Transkription starten" klicken – fertig. Die Genauigkeit ist mit 80–90 % etwas niedriger als Whisper, reicht aber für viele Anwendungsfälle aus. Wichtig: Die Web Speech API sendet Audio-Daten zur Verarbeitung an Google-Server (nur bei Chrome/Edge) – für vertrauliche Inhalte empfehlen wir die Whisper API.

Wann automatische Untertitel besonders sinnvoll sind

Barrierefreiheit: Hörgeschädigte Zuschauer sind auf Untertitel angewiesen. Laut WHO leben weltweit über 1,5 Milliarden Menschen mit eingeschränktem Hörvermögen. Automatische Untertitel machen Inhalte sofort zugänglich. SEO für Videos: YouTube-Algorithmen indexieren Untertitel als Textinhalt – ein Video mit korrekten Untertiteln rankt in der YouTube-Suche nachweislich besser als eines ohne. Stummschalter: 85 % der Facebook-Videos werden ohne Ton angesehen. Eingebrannte Untertitel erreichen diese Nutzer. Für Videos ohne eingebrannte Untertitel empfiehlt sich unser Untertitel-Einbrennen-Tool, das SRT-Dateien aus beliebigen Quellen verarbeitet.

SRT vs. VTT: Welches Format soll ich wählen?

Beide Formate sind weit verbreitet, haben aber unterschiedliche Stärken. SRT (SubRip Subtitle) ist das universellste Format – es wird von YouTube, Vimeo, VLC, Adobe Premiere, DaVinci Resolve und fast jeder anderen Software unterstützt. VTT (WebVTT) ist der Standard für HTML5-Videos im Browser und unterstützt zusätzlich CSS-Styling und Kapitelbeschriftungen. Für YouTube-Uploads empfehlen wir SRT. Für eigene Websites empfehlen wir VTT. Beide Formate sind in unserem Tool verfügbar und können nach dem Download mit kostenloser Software wie Subtitle Edit (Windows) oder Aegisub (Windows/Mac/Linux) weiterbearbeitet werden.

Wenn dein Video nach dem Hinzufügen von Untertiteln zu groß für den Upload ist, kannst du es anschließend mit unserem Video-Kompressor auf die gewünschte Dateigröße bringen, ohne Qualitätsverluste an den Untertiteln.

Große Dateien: Audio extrahieren für schnellere Transkription

Die Whisper API hat ein Limit von 25 MB pro Datei. Ein 10-minütiges Full-HD-Video ist schnell 500 MB groß – viel zu groß für direkten Upload. Die Lösung: Extrahiere zuerst die Audiospur mit unserem MP4-zu-MP3-Konverter. Eine 10-minütige MP3-Datei bei 128 kbps ist nur ca. 9 MB – deutlich unter dem Limit. Die Spracherkennungsqualität bleibt identisch, da Whisper nur die Audiospur benötigt. Bei sehr langen Videos (über 1 Stunde) empfiehlt es sich zudem, das Video zuerst mit unserem Video-Schneidewerkzeug in Segmente aufzuteilen.

Transkriptionsqualität verbessern: Praktische Tipps

Die Hauptursache für schlechte Transkriptionsergebnisse ist mangelnde Audioqualität. Klare Sprache ohne Hintergrundgeräusche liefert auch mit günstigen Mikrofonen exzellente Ergebnisse. Konkrete Verbesserungsmaßnahmen: Verwende ein externes Mikrofon statt des eingebauten Laptop-Mikrofons. Nimm in einem schallgedämmten Raum auf oder nutze eine Decke als improvisierten Schallschutz. Halte Mikrofon und Mund 10–15 cm voneinander entfernt. Meide Hintergrundmusik, die Sprache überlagert – auch wenn sie leise ist, erhöht sie die Fehlerrate deutlich. Nach der Transkription empfehlen wir immer ein kurzes Korrekturlesen, besonders bei Eigennamen, Fachbegriffen und Abkürzungen.

Datenschutz: Was passiert mit meinen Audiodaten?

Bei der Whisper API: Deine Audiodatei wird direkt von deinem Browser an api.openai.com gesendet – Werkix.de erhält keine Kopie. OpenAI speichert Audiodaten standardmäßig nicht dauerhaft und verarbeitet sie gemäß seiner DSGVO-konformen Datenschutzrichtlinie. Bei der Web Speech API (Chrome/Edge): Audio wird an Google-Server gesendet und verarbeitet – Google Chrome ist dabei der Verarbeitungsverantwortliche. Für maximale Privatsphäre und vollständig lokale Verarbeitung empfehlen wir selbst gehostete Whisper-Instanzen über Python (pip install openai-whisper).

Profi-Tipps für bessere Auto-Untertitel
🎙️
Audioqualität ist entscheidend
Whisper ist präzise, aber kein Wunder-Tool. Je klarer die Sprache, desto höher die Genauigkeit. Hintergrundmusik und Rauschen reduzieren die Erkennungsrate deutlich – auch wenn sie leise klingen.
✏️
Immer kurz korrekturlesen
Eigennamen, Fachbegriffe und Abkürzungen werden oft falsch erkannt. Lies die Transkription kurz durch und korrigiere Fehler direkt im Editor. Danach als SRT exportieren und bei Bedarf mit unserem Untertitel-Tool einbrennen.
📦
Zu große Dateien? Audio zuerst extrahieren
Videos über 25 MB mit unserem MP4-zu-MP3-Konverter in Audio umwandeln. Eine 500 MB Video-Datei wird zu einer ~9 MB MP3 – gut unter dem Whisper-Limit, volle Transkriptionsqualität.
🌍
Richtige Sprache angeben
Bei gemischten Videos (z.B. Deutsch mit englischen Fachbegriffen) die Hauptsprache wählen. Whisper erkennt auch Code-Switching, aber eine korrekte Sprachangabe erhöht die Genauigkeit nochmals.
Häufige Fragen (FAQ)
Wie genau sind die automatischen Untertitel?
Mit Whisper erreichen wir bei guter Audioqualität und klarer Sprache eine Genauigkeit von 95–99 %. Dialekte, starke Akzente oder schlechte Audioqualität können die Genauigkeit auf 80–90 % reduzieren. Die Ergebnisse sind im integrierten Editor direkt bearbeitbar – klicke einfach auf den Text.
Brauche ich einen API-Key für automatische Untertitel?
Nein. Ohne API-Key verwendet das Tool automatisch die kostenlose Web Speech API deines Browsers – keine Registrierung, kein Account nötig. Für die beste Genauigkeit empfehlen wir die Whisper API: neue OpenAI-Accounts erhalten kostenlose Credits, die für über 800 Minuten Transkription reichen.
Wie groß darf die Videodatei sein?
Die Whisper API akzeptiert Dateien bis 25 MB. Für größere Videos empfehlen wir, zuerst die Audiospur mit unserem MP4-zu-MP3-Tool zu extrahieren. Eine 1-stündige Aufnahme als MP3 bei 64 kbps ist ca. 29 MB – nah am Limit, aber machbar. Die Web Speech API hat keine Größenbeschränkung.
Kostet die Whisper API wirklich Geld?
Neue OpenAI-Accounts erhalten $5 kostenlose Credits. Die Whisper API kostet $0.006 pro Minute Audio – damit kannst du über 800 Minuten transkribieren. Ohne Guthaben nutze einfach unsere kostenlose Web Speech API-Alternative (kein Key eingeben).
Welche Sprachen werden unterstützt?
Whisper unterstützt über 99 Sprachen: Deutsch, Englisch, Französisch, Spanisch, Italienisch, Portugiesisch, Niederländisch, Polnisch, Türkisch, Arabisch, Chinesisch, Japanisch und viele mehr. Die Web Speech API unterstützt je nach Browser 30–70 Sprachen.
Noch keine Kommentare