Technik

Wie Videoschnitt funktioniert: Keyframes & Container

GOP, I-, P- und B-Frames, Demuxing und PTS verständlich erklärt. Warum man nur an Keyframes verlustfrei schneidet und wann Re-Encoding wirklich nötig ist.

Lesezeit 9 Min. Aktualisiert 08.06.2026 4 Quellen Eike-Christian Ramcke Eike-Christian Ramcke
Inhalt

Wer ein Video schneidet, glaubt oft, er bewege einfach einen Marker und schneide an dieser Stelle durch wie bei einem Stück Film. Tatsächlich ist moderne Videokompression so aufgebaut, dass die wenigsten Bilder überhaupt vollständig vorliegen. Ein Schnitt an der falschen Stelle zwingt die Software, das halbe Video neu zu berechnen, mit allen Qualitätsfolgen. Dieser Artikel erklärt die Mechanik dahinter: wie Frames gespeichert werden, warum Keyframes die einzigen sauberen Schnittpunkte sind, was Container von Codecs unterscheidet, und wann Re-Encoding unvermeidbar wird. Es geht rein um die Technik, nicht um rechtliche Fragen.

Warum nicht jedes Bild vollständig gespeichert wird

Ein unkomprimiertes Video wäre riesig. Bei 1080p mit 30 Bildern pro Sekunde fallen pro Sekunde rund 180 Megabyte an Rohdaten an, wenn jedes Pixel jedes Frames einzeln gespeichert würde. Das ist für Speicherung und Übertragung untragbar. Codecs wie H.264, H.265 oder AV1 lösen das mit einem simplen Trick: Sie speichern nur dann ein vollständiges Bild, wenn es nötig ist, und ansonsten lediglich die Unterschiede zum Nachbarbild.

Zwischen zwei aufeinanderfolgenden Frames ändert sich meist nur ein kleiner Teil des Bildes. Bei einer sprechenden Person bewegen sich Mund und Augen, der Hintergrund bleibt statisch. Statt den unveränderten Hintergrund 30-mal pro Sekunde neu zu speichern, merkt sich der Codec einmal das volle Bild und danach nur noch die Bewegung. Genau dieses Prinzip macht Videokompression so effizient und Videoschnitt gleichzeitig so kompliziert.

~180 MB/s

Rohdaten 1080p30 unkomprimiert

0,5 bis 8 MB/s

Typische H.264-Bitrate

Quelle: MDN Video codecs

1 bis 4s

Übliche GOP-Länge

Quelle: FFmpeg Wiki

I-, P- und B-Frames: die drei Bildtypen

Innerhalb eines komprimierten Videos gibt es drei Arten von Frames, und ihr Zusammenspiel ist der Kern des Ganzen.

Der I-Frame (Intra-coded Frame), umgangssprachlich Keyframe genannt, ist ein vollständiges Bild. Er enthält alle Informationen, um das Frame allein zu rekonstruieren, ohne Bezug auf andere Bilder. Das macht ihn groß, aber auch zum einzigen Punkt, an dem die Dekodierung ohne Vorwissen starten kann.

Der P-Frame (Predicted Frame) speichert nur die Veränderung gegenüber einem vorhergehenden I- oder P-Frame. Er ist deutlich kleiner, lässt sich aber nicht ohne sein Referenzbild dekodieren.

Der B-Frame (Bidirectional Frame) ist die sparsamste Variante. Er bezieht sich sowohl auf ein vorheriges als auch auf ein nachfolgendes Bild und interpoliert dazwischen. B-Frames erreichen die höchste Kompression, hängen aber von zwei Referenzen gleichzeitig ab.

Frame-TypVoller NameReferenzRelative GrößeEigenständig dekodierbar
I-FrameIntra-codedkeinegroßja
P-FramePredictedvorheriges Bildmittelnein
B-FrameBidirectionalvorher und nachherkleinnein

Die Group of Pictures (GOP)

Die Frames sind nicht zufällig angeordnet, sondern in Blöcken organisiert, den Groups of Pictures. Eine GOP beginnt immer mit einem I-Frame und enthält danach eine Folge von P- und B-Frames, bis der nächste I-Frame eine neue GOP eröffnet. Eine typische Struktur sieht so aus: I, B, B, P, B, B, P, B, B, P und dann wieder von vorne mit dem nächsten I.

Die GOP-Länge bestimmt, wie oft ein vollständiges Bild gespeichert wird. Kurze GOPs mit häufigen Keyframes erlauben präziseres Schneiden und schnelleres Spulen, kosten aber mehr Speicher. Lange GOPs komprimieren stärker, machen Schnitte aber gröber, weil zwischen zwei Keyframes mehrere Sekunden liegen können.

Eine GOP ist eine in sich geschlossene Kette. Schneidet man mittendrin, reißt man einem P- oder B-Frame sein Referenzbild weg.

— Grundregel der Schnitttechnik

Warum verlustfrei nur am Keyframe geht

Jetzt fügt sich alles zusammen. Wenn du ein Video an einer beliebigen Stelle aufschneiden und der neue Clip dort beginnen soll, muss das erste Bild des neuen Clips eigenständig dekodierbar sein. Andernfalls fehlt dem Player das Referenzbild, das im weggeschnittenen Teil lag. Das einzige Frame, das diese Bedingung erfüllt, ist ein I-Frame.

Setzt du deinen Schnittpunkt exakt auf einen Keyframe, kann die Software den gewünschten Abschnitt herauskopieren, ohne ein einziges Bild neu zu berechnen. Man nennt das Stream Copy oder verlustfreien Schnitt. Die Bilddaten bleiben Bit für Bit identisch zum Original, es ändert sich nur, welche Frames im Container landen.

Setzt du den Schnittpunkt dagegen mitten in eine GOP, hast du zwei Möglichkeiten. Entweder die Software verschiebt den Schnitt heimlich zum nächstgelegenen Keyframe, dann ist dein Schnitt nicht ganz so präzise, wie du dachtest. Oder sie rechnet den Anfang der GOP neu durch, bis zu deinem gewünschten Frame, und kombiniert das mit dem kopierten Rest. Das erzwingt teilweises Re-Encoding mit erneutem Qualitätsverlust.

Container, Codec, Demuxing und Remuxing

Bisher ging es um die Bilddaten selbst. Die liegen aber nie nackt herum, sondern stecken in einem Container. Hier lohnt eine klare Trennung der Begriffe.

Der Codec ist das Verfahren, das die Pixel komprimiert, etwa H.264, H.265, VP9 oder AV1. Der Container ist das Dateiformat, das die kodierten Spuren bündelt, etwa MP4, MKV, MOV oder WebM. In einem Container liegen typischerweise eine Videospur, eine oder mehrere Audiospuren, manchmal Untertitel und vor allem die Zeitstempel, die alles synchron halten.

Das Auseinandernehmen eines Containers in seine einzelnen Spuren heißt Demuxing. Das Wiederzusammensetzen, etwa nach dem Schnitt, heißt Remuxing (Muxing). Beim verlustfreien Schnitt passiert genau das: Der Container wird demuxt, der gewünschte Frame-Bereich der Videospur wird kopiert, die passenden Audiosamples werden mitgenommen, und alles wird in einen neuen Container remuxt. Der Codec wird dabei nicht angefasst.

VorgangWas passiertQualitätsverlustGeschwindigkeit
Remux / Stream CopySpuren neu verpacken, Codec bleibtkeinersehr schnell
Re-EncodingVollständig dekodieren und neu komprimierenjalangsam
Relativer Rechenaufwand Schnitt-Verfahren Remux (Stream Copy) 5 rel. Re-Encoding (CPU) 60 rel. Re-Encoding (Software-x265) 100 rel.
Stream Copy verpackt nur neu und ist um ein Vielfaches schneller. Re-Encoding muss jedes Bild dekodieren und neu komprimieren, besonders aufwendige Codecs wie x265 kosten am meisten Zeit.

Zeitstempel: PTS und DTS

Ein Detail, das beim Schneiden oft Probleme macht, sind die Zeitstempel. Jedes Frame trägt zwei davon. Der PTS (Presentation Time Stamp) gibt an, wann ein Bild angezeigt werden soll. Der DTS (Decoding Time Stamp) gibt an, wann es dekodiert werden muss. Diese beiden weichen voneinander ab, sobald B-Frames im Spiel sind, weil ein B-Frame zwar später angezeigt wird, aber vorher dekodiert werden muss, da nachfolgende Bilder darauf aufbauen.

Beim Schneiden müssen diese Zeitstempel sauber neu gesetzt werden, sonst beginnt der Clip mit einem Versatz, der Ton läuft asynchron, oder der Player zeigt am Anfang ein Standbild. Gute Schnitt-Software normalisiert die PTS-Werte des neuen Clips so, dass das erste Frame bei Null beginnt.

Was das für deinen Schnitt praktisch bedeutet

Aus all dem ergeben sich ein paar handfeste Konsequenzen. Erstens: Reines Kürzen am Anfang oder Ende eines Videos ist die schonendste Operation, weil sie sich auf Keyframe-Grenzen einrasten lässt und damit als Stream Copy laufen kann. Zweitens: Frame-genaue Präzision an beliebigen Stellen kostet immer Re-Encoding und damit Qualität, das ist keine Schwäche einer Software, sondern eine Eigenschaft der Kompression selbst. Drittens: Wer das Seitenverhältnis oder die Auflösung ändert, kommt grundsätzlich nicht um eine Neukodierung herum, weil sich die Bildgeometrie und damit jedes Pixel ändert.

Wenn du verstanden hast, dass ein Video aus selbstständigen Keyframes und davon abhängigen Zwischenbildern besteht, wird auch klar, warum manche Schnitte sofort fertig sind und andere minutenlang rechnen. Die schnellen Schnitte fassen nur den Container an, die langsamen müssen jedes Bild durch den Codec schicken. Mit diesem Wissen triffst du bewusstere Entscheidungen darüber, wo du den Marker setzt und welchen Kompromiss zwischen Präzision und Qualität du eingehst.

Häufige Fragen

Was ist ein Keyframe in einem Video?

Ein Keyframe, technisch I-Frame genannt, ist ein vollständig gespeichertes Einzelbild, das ohne Bezug auf andere Bilder dekodiert werden kann. Alle Frames dazwischen speichern nur die Veränderung zum vorherigen Bild und brauchen den Keyframe als Anker.

Warum kann man nur an Keyframes verlustfrei schneiden?

Weil P- und B-Frames inhaltlich auf andere Bilder verweisen. Schneidet man mitten in eine Group of Pictures, fehlt dem ersten Frame des neuen Clips sein Referenzbild. Nur ein Schnitt direkt an einem Keyframe liefert einen sauberen, selbstständig dekodierbaren Startpunkt.

Was bedeutet Re-Encoding und wann ist es nötig?

Re-Encoding heißt, das Video wird vollständig dekodiert und neu komprimiert. Das ist nötig, wenn man frame-genau an einer Stelle schneiden will, die kein Keyframe ist, oder wenn sich Auflösung, Codec oder Seitenverhältnis ändern. Dabei entsteht ein erneuter Qualitätsverlust.

Was ist der Unterschied zwischen Container und Codec?

Der Codec, etwa H.264 oder AV1, legt fest, wie die Bilddaten komprimiert werden. Der Container, etwa MP4 oder MKV, ist die Hülle, die kodierte Video-, Audio- und Untertitelspuren samt Zeitstempeln zusammenhält. Beim verlustfreien Schnitt bleibt der Codec unangetastet, nur der Container wird neu zusammengesetzt.

Quellen

Eike-Christian Ramcke

Über die Autorenschaft

Eike-Christian Ramcke

Geschäftsführer AKARA Solutions GmbH

Themengebiet: Redaktionelle Aufsicht, Videoschnitt-Technik, Metadaten, Urheber- und Datenschutzrecht

Mehr über Eike-Christian Ramcke →

Verwandte Artikel

Video jetzt zuschneiden

Video hochladen, Anfang und Ende setzen, sofort herunterladen, ohne Anmeldung.

Zum Tool
Anzeige
Anzeige
Anzeige
Anzeige