⚡ Alle Tools 📬 Updates
🔍
KI Tool-Finder
Powered by Claude AI
⚡ Werkix.de — Kostenlose Online-Tools direkt im Browser · Kein Download · Keine Registrierung

Alle Artikel

← Alle Video-Tools
🤖
KI-Tool

Auto-Untertitel per KI

Spracherkennung generiert automatisch Untertitel für dein Video – Deutsch & Englisch, direkt im Browser. Untertitel als SRT herunterladen oder sofort ins Video einbrennen.

✓ Kostenlos 🤖 KI-Spracherkennung 📄 SRT-Export DE · EN · FR · ES
🤖
KI-Transkription
Video laden → Sprache wählen → Transkription starten → SRT oder einbrennen
⚠️
🔑 OpenAI Whisper API – Einmalig einrichten
Dieses Tool nutzt die OpenAI Whisper API für hochgenaue Spracherkennung in Deutsch, Englisch und 99 weiteren Sprachen. Der API-Key wird nur lokal in deinem Browser gespeichert und nie an unsere Server übermittelt. Einen kostenlosen API-Key bekommst du auf platform.openai.com (kostenlose Credits für neue Accounts).
🎬
Video oder Audio laden
MP4, WebM, MOV, AVI, MP3, WAV · Max. 25 MB (Whisper API)
🎬 Datei auswählen
🎬
KI analysiert Sprache…
Audio wird verarbeitet
So funktioniert es
1
🎬
Datei laden
Video oder Audio-Datei direkt im Browser auswählen. Max. 25 MB für Whisper API.
2
🌍
Sprache wählen
Videosprache auswählen für bessere Transkriptions-Genauigkeit.
3
🤖
KI transkribiert
Whisper AI oder Web Speech API erkennt gesprochene Inhalte automatisch.
4
📄
SRT laden / einbrennen
Fertige Untertitel als SRT/VTT herunterladen oder direkt ins Video einbrennen.
Automatische Untertitel per KI – Der vollständige Guide

Was sind automatische Untertitel und wie funktionieren sie?

Automatische Untertitel werden durch KI-Spracherkennung (Speech-to-Text) generiert. Eine Künstliche Intelligenz analysiert die Audiospur eines Videos, erkennt gesprochene Wörter und wandelt sie in zeitgesteuerten Text um – vollautomatisch, ohne manuelle Eingabe. Das Ergebnis ist eine SRT-Untertiteldatei, die du direkt verwenden, bearbeiten oder in das Video einbrennen kannst. Was früher Stunden manueller Transkriptionsarbeit erforderte, dauert mit modernen KI-Modellen wie OpenAI Whisper nur noch Sekunden bis Minuten.

OpenAI Whisper: Das beste kostenlose Transkriptions-Modell

OpenAI Whisper ist das derzeit genaueste öffentlich verfügbare Spracherkennungsmodell. Es wurde auf über 680.000 Stunden mehrsprachiger Audiodaten trainiert und unterstützt über 99 Sprachen – darunter Deutsch, Englisch, Französisch, Spanisch und viele mehr. Whisper erkennt auch Dialekte, Akzente und Fachvokabular zuverlässig. Die Transkriptionsgenauigkeit liegt je nach Audioqualität bei 95–99 %. Neue OpenAI-Accounts erhalten kostenlose Credits, die für viele Stunden Transkription ausreichen. Die API ist datenschutzkonform nach DSGVO nutzbar.

Web Speech API: Kostenlose Alternative ohne API-Key

Für Nutzer ohne OpenAI-Account bietet unser Tool die Web Speech API des Browsers als kostenlose Alternative. Diese ist direkt in modernen Browsern integriert (Chrome, Edge) und benötigt keinen externen Dienst. Die Genauigkeit ist etwas geringer als bei Whisper, aber für einfache Transkriptionen gut geeignet. Hinweis: Die Web Speech API sendet Audio-Daten zur Verarbeitung an die Server des Browser-Herstellers (Google bei Chrome). Für vertrauliche Inhalte empfehlen wir Whisper.

Anwendungsfälle: Für wen sind Auto-Untertitel nützlich?

YouTuber und Podcaster sparen massiv Zeit: Anstatt Videos manuell zu transkribieren, haben sie in Minuten fertige Untertitel für ihre Videos. Das verbessert die Barrierefreiheit und steigert die Reichweite. Unternehmen nutzen automatische Transkription für Meeting-Aufzeichnungen, Webinar-Videos und Produktdemos. Journalisten transkribieren Interviews automatisch und sparen Stunden manueller Arbeit. Bildungseinrichtungen machen Vorlesungen und Lehrvideos barrierefrei zugänglich. Privatpersonen erstellen Untertitel für Reisevideos oder Familienaufnahmen.

Transkriptions-Genauigkeit verbessern: So geht's

Die Qualität der automatischen Untertitel hängt stark von der Audioqualität ab. Klare Sprache ohne Hintergrundgeräusche liefert die besten Ergebnisse. Tipps für bessere Transkription: Verwende ein externes Mikrofon statt des eingebauten Laptop-Mikrofons. Nimm in einer ruhigen Umgebung auf. Sprich deutlich und in moderatem Tempo. Vermeide Musik im Hintergrund, die Sprache überlagert. Wenn das Video mehrere Sprecher hat, wähle in Whisper den Parameter diarize (Sprecher-Trennung) für bessere Ergebnisse.

SRT-Datei bearbeiten nach der Transkription

Automatisch generierte Untertitel sind selten zu 100 % perfekt – insbesondere bei Fachbegriffen, Eigennamen oder undeutlicher Aussprache. Nach der Transkription solltest du die Untertitel kurz korrekturlesen. In unserem Tool kannst du jeden Untertitel direkt im Browser bearbeiten – klicke einfach auf den Text. Für umfangreichere Korrekturen empfehlen wir den Export als SRT und Bearbeitung in Subtitle Edit (Windows, kostenlos) oder Aegisub (Windows/Mac/Linux, kostenlos). Beide Tools zeigen Zeitcodes und Text übersichtlich an und ermöglichen schnelles Korrigieren.

Von der Transkription zur fertigen Untertiteldatei: Das SRT-Format

Unser Tool exportiert die Transkription als standardisierte SRT-Datei (SubRip Subtitle). Dieses Format ist mit nahezu jeder Video-Software kompatibel: YouTube, Vimeo, VLC, Adobe Premiere, DaVinci Resolve – alle unterstützen SRT. Die exportierte SRT kannst du auch direkt in unser Untertitel-Einbrennen-Tool laden, um Hardsubs zu erstellen. Alternativ kannst du mit dem „Ins Video einbrennen"-Button Transkription und Einbrennen in einem Schritt erledigen.

Datenschutz und Sicherheit bei der KI-Transkription

Bei der Nutzung der Whisper API wird deine Audio-Datei direkt von deinem Browser an die OpenAI API gesendet – ohne Umweg über unsere Server. Werkix.de erhält keine Kopie deiner Audiodaten. OpenAI verarbeitet Audio-Daten gemäß seiner Datenschutzrichtlinie und speichert sie je nach API-Einstellungen nicht dauerhaft. Bei der Web Speech API werden Audiodaten an Google-Server gesendet (nur bei Chrome/Chromium). Für maximale Privatsphäre und lokal auf dem eigenen Server verarbeitete Transkription empfehlen wir selbst gehostete Whisper-Instanzen.

Profi-Tipps für bessere Auto-Untertitel
🎙️
Audioqualität ist entscheidend
Whisper ist gut, aber kein Wunder-Tool. Je klarer die Sprache im Video, desto höher die Transkriptions-Genauigkeit. Hintergrundmusik und Rauschen reduzieren das Ergebnis deutlich.
✏️
Immer korrekturlesen
Besonders Eigennamen, Fachbegriffe und Abkürzungen werden oft falsch erkannt. Lies die Transkription kurz durch und korrigiere Fehler direkt im Editor, bevor du die SRT exportierst.
🌍
Richtige Sprache wählen
Wähle immer die Sprache die im Video gesprochen wird. Bei gemischten Videos (z. B. Deutsch mit englischen Fachbegriffen) wähle die Hauptsprache für die beste Erkennung.
Audio extrahieren für schnellere Verarbeitung
Große Videodateien (über 25 MB) extrahiere zuerst die Audiospur als MP3 mit unserem MP4-zu-MP3-Tool. Audiodateien sind kleiner und werden schneller verarbeitet.
Häufige Fragen (FAQ)
Wie genau sind die automatischen Untertitel?
Mit Whisper erreichen wir bei guter Audioqualität und klarer Sprache eine Genauigkeit von 95–99 %. Dialekte, starke Akzente oder schlechte Audioqualität können die Genauigkeit auf 80–90 % reduzieren. Die Ergebnisse sind editierbar und können im integrierten Editor korrigiert werden.
Wie groß darf die Videodatei sein?
Die Whisper API akzeptiert Dateien bis 25 MB. Für größere Videos empfehlen wir, zuerst mit unserem MP4-zu-MP3-Tool die Audiospur zu extrahieren. Eine 1-stündige Aufnahme als MP3 bei 128 kbps ist ca. 58 MB – komprimiere sie auf 64 kbps (ca. 29 MB) für bessere API-Kompatibilität. Die Web Speech API hat keine Größenbeschränkung, verarbeitet aber nur Echtzeit-Audio.
Kostet die Whisper API wirklich Geld?
Neue OpenAI-Accounts erhalten kostenlose Credits (aktuell $5). Die Whisper API kostet $0.006 pro Minute Audio. Damit kannst du mit dem kostenlosen Guthaben über 800 Minuten Audio transkribieren. Ohne Guthaben kannst du unsere kostenlose Web Speech API-Alternative nutzen – einfach keinen API-Key eingeben.
Welche Sprachen werden unterstützt?
Whisper unterstützt über 99 Sprachen, darunter Deutsch, Englisch, Französisch, Spanisch, Italienisch, Portugiesisch, Niederländisch, Polnisch, Türkisch, Arabisch, Chinesisch, Japanisch und viele mehr. Die Web Speech API unterstützt je nach Browser zwischen 30–70 Sprachen.