Proč nám vadí prokládání u videa?
Prokládání nám komplikuje život v tom, že na PC nemá opodstatnění, ale kvůli televiznímu přenosu se stále ještě používá a je velmi obtížný vzájemný převod. Tento text berte jako první dodatek k seriálu o prodeji videí ve fotobankách.
Obsah seriálu videa pro fotobanky
Televizní vysílání vycházelo ze zkušenosti s klasickým filmem, který používá rychlost 24 fps, což je minimum pro neblikající obraz. U televizního vysílání se tedy zvolila rychlost 25 fps s představou, že se bude využívat kmitočet elektrické sítě 50 Hz (v Americe 60 Hz kvůli jejich kmitočtu sítě). Takový obraz ovšem blikal, protože jednak televizní obrazovky měly krátkou dobu dosvitu a jednak oko takovou frekvenci ještě vnímá - i u běžného filmu se každý obrázek promítá 2x a tím je dosaženo zdánlivé snímkové frekvence 48 fps. Zvýšením televizní snímkové frekvence by značně narostly požadavky na přenášenou šířku pásma. Řešení se nalezlo v rozdělení snímku na půlsnímky, kdy se v jednom půlsnímku přenášely jen sudé linky a v druhém půlsnímku jen liché linky. Opticky se takový obraz jevil jako 50 fps, tedy neblikal, ale šířka přenášeného pásma přitom zůstala zachovaná. Přenášená rychlost 50 fps půlsnímků byla základem evropské normy PAL. Americká norma NTSC používala 60 fps, ale po příchodu barevné televize byla kvůli interferenci s barvonosnou půlsnímková frekvence snížena na 59,94 fps, tedy 29,97 neprokládaných snímků.
S dnešními obrazovkami (bez doby dosvitu) a digitálním zpracováním obrazu už nenastává problém s blikáním obrazu a tak prokládaný obraz už nemá opodstatnění. Naopak přináší dost komplikací, protože se takový obraz hodně těžko zpracovává. Např. nedá se měnit rozměr obrazu při přehrávání, protože je potřeba obraz interpolovat mezi sousedními linkami.
Problém vzniká u televizního přenosu tehdy, když se obraz natáčí/vysílá televizní (a ne filmovou) kamerou. Snímací paprsek v kameře pracuje stejně jako paprsek v obrazovce - snímá scénu po půlsnímcích (stejným způsobem se i zaznamenává, např. na VHS kazetu). Sudé a liché linky obsahují obraz časově posunutý o 1/50s. Když se takový obraz přehrává na klasické vakuové obrazovce s krátkým dosvitem, tak se linky ve vykreslování střídají. Zatímco se jeden pár linek vykresluje, druhému páru linek klesá jas (doba dosvitu). Takový obraz pak působí plynule a přirozeně.
Ovšem moderní obrazovky (LED, LCD) už nemají dobu dosvitu, zobrazují po celou dobu. Obraz by už stačilo vykreslovat jen 25x za sekundu, což je mnohem praktičtější i pro zpracování obrazu. Převod z prokládaného obrazu na neprokládaný je ovšem dost náročný a neexistuje 100% metoda, vždy dochází ke ztrátě kvality obrazu.
Pokud se linky z půlsnímků jen prostě sloučí do jednoho snímku, obsahují obraz časově posunutý a tak na hranách pohybujících se objektů jsou patrné výrazné zuby. Pokud se použije jen jedna půlka snímků, obraz sice není zubatý, ale má poloviční rozlišení. Přijatelná kvalita by byla zdvojnásobit počet snímků a aktualizovat jednou sudé a podruhé liché linky. Což znamená zdvojnásobení fps a zdvojnásobení velikosti dat a stejně tam zuby jsou stále ještě patrné, i když ne už tak výrazné. Jiná metoda se snaží simulovat dosvit paprsku, kdy požívá obraz z předchozího půlsnímku, ale s klesající vahou. Nejpoužívanější je "chytrý" deinterlace, který se snaží rozpoznávat pohyblivé a statické části obrazu. Pokud se část obrazu mění, použije linky jen z jednoho půlsnímku a tím se neobjeví zuby. Rozlišení té části obrazu se sice sníží, ale u pohyblivého obrazu to není tak patrné. Ve statických částech obrazu pak použije plné rozlišení z obou půlsnímků. Ne vždy se to ale daří správně rozpoznávat a tak výsledek není vždy 100%, vždy to znamená zhoršení kvality.
Záleží tedy na tom, jakým způsobem se záznam obrazu pořídí. Pokud je to televizní záznam (sportovní záznam, televizní novela, osobní kamera s AVCHD formátem), je obraz prokládaný, na klasickém televizoru plynulý, ale při digitálním zpracování zubatý nebo nekvalitní. Pokud se nahrává klasickou filmovou kamerou, obraz se nahrává po políčkách bez prokládání obrazu - když se takový obraz vysílá televizně, snímají se oba půlsnímky z jednoho filmového políčka. Vznikne sice prokládaný obraz, ale převod do neprokládaného obrazu je snadný, stačí jen sloučit sudé a liché linky do jednoho snímku a obraz není zubatý (protože linky nejsou časově posunuté). Proto mívají konverzní programy možnost volby, zda při konverzi použije deinterlace s jednoduchým sloučením linek (původním zdrojem je neprokládaný obraz a tehdy nevznikají zuby) nebo chytrý deinterlace detekující pohyb (zdrojem je televizní kamera s prokládáním, odstraňuje zuby, ale snižuje kvalitu).
Když natáčí filmové společnosti film, používají běžně klasickou rychlost 24 fps (v NTSC normě 23,976 fps, opět korekce kvůli interferencím s barvonosnou), takže při TV vysílání (nebo obraz z DVD přehrávače) jde takový obraz sloučit do progresivního (neprokládaného) módu bez vzniku zubů. Ovšem společnosti se obávají, že tím dochází ke ztrátě plynulosti obrazu a proto se někdy filmy pořizují s dvojnásobnou rychlostí 48 fps. Jde-li takový film do kina, použije se jen polovina snímků s 24 fps (přesněji, sloučí se 2 sousední snímky pro dosažení dojmu plynulosti pohybujících se objektů). Jde-li film do televizního vysílání nebo na DVD nosiče, snímá se obraz prokládaně, každý půlsnímek z jiného políčka. Při sloučení obrazu z DVD nebo TV do progresivního obrazu tím vzniká problém se zuby (což společnosti trochu i vítají, protože to zhoršuje kvalitu pirátských převodů do AVI).
Jsou i pokusy distribuovat film v původní rychlosti 48 fps (film Hobbit). Komplikace je v tom, že takový obraz je už příliš ostrý při pohybu, protože používá příliš krátký čas závěrky (pro kina se slučují 2 snímky a tím se dosáhne jakoby prodloužení času závěrky). Když se přehrává např. na LCD monitoru, který mívá interní snímkování typicky 60 fps (tato rychlost nezávisí na nastavení fps grafické karty, je to interní záležitost monitorů, která se nedá ovlivňovat), jsou některé snímky filmu vidět po dobu 2 snímků monitoru, jiné po dobu 1 snímku (obraz se neinterpoluje na jinou fps). V každém případě je vždy na obrazovce vidět vždy 1 snímek z původního 48 fps. Když se pohybuje objekt, oko zaznamenává jednotlivé fáze pohybu. Ale ty fáze nemají mezi sebou spojitý časový interval, mění se rozdílně (interference mezi 60 a 48 fps, jednou se snímek filmu zobrazí po dobu 1 snímku monitoru, jindy 2 snímky monitoru). Hrany jsou při pohybu příliš ostré. Výsledkem je, že oko takový pohyb vnímá jako nepřirozený a trhavý ("digitální"), nepůsobí plynule. Naproti tomu když se promítá film s 24 fps (nebo sloučené dvojice snímků z 48 fps), je použitý delší čas závěrky, dochází k rozmáznutí pohybujících se objektů (motion blur), oko si lépe interpretuje informaci o pohybu, dokáže si dráhu pohybu interpolovat a pohyb vypadá mnohem přirozeněji. V tomto případě tedy snaha o zvýšení kvality s 48 fps vede naopak ke zhoršení dojmu.
Když se film s 24 fps vysílá v televizi s PAL normou 25 fps, nekonvertuje se fps, ale prostě se rychlost filmu zvýší o 4,1% na 25 fps. To lze pozorovat, pokud se porovná záznam filmu z TV s filmem z DVD - z televize jede rychleji. Když ale divák nemá srovnání, tak si rozdílné rychlosti ani nevšimne. Jiný případ je vysílání filmu v americké televizi NTSC. Snímky z 24 fps se převádějí na 30 fps metodou "3:2 pulldown", kdy se sousední snímky mezi sebou kombinují. A protože kvůli interferenci s barvonosnou se vysílá v rychlosti 29,97 fps (59,94 fps v půlsnímcích), vysílá se film výsledně v rychlosti 29,97/1,25 = 23,976 fps (tedy nepatrně nižší než původních 24 fps).
Naštěstí se od prokládaného snímkování dnes už postupně upouští i u televizního vysílání. U HDTV vysílání se sice stále ještě používá prokládání (1080i, ale rozlišení 720p se vysílá neprokládaně), u UHDTV se již používá jen neprokládané snímkování (2160p).
Metody deinterlace podrobněji
Původní scéna v časech 0 sec a 1/50 sec.
Půlsnímky snímající scénu v rozdílném čase. První snímá jen sudé linky (top field) a druhý jen liché linky (bottom field).
Weaving: Jednoduchým sloučením půlsnímků se u pohybujících objektů objeví zuby. Tento typ sloučení se označuje jako vypnutý deinterlace (disabled, weave, weaving, no deinterlacing). Je vhodný v případech, kdy původním zdrojem bylo neprokládané video a zpětným sloučením půlsnímků tedy nehrozí vznik zubů.
- nebo -
Discard: Nejjednodušší metoda spočívá ve vypuštění jednoho z půlsnímků. Použijí se jen buď sudé linky (top field) nebo liché linky (bottom field). Výsledný obraz má vertikálně poloviční rozlišení a tedy sníženou kvalitu. Jiný název metody je Single field. Obvykle lze volit, který půlsnímek se použije.
Linear: Podobně jako předešlá metoda Discard, ale s tím rozdílem, že chybějící linky půlsnímku se neduplikují, ale interpolují ze sousedních linek. Tedy - chybějící linka 2 se získá jako střední hodnota sousedních linek 1 a 3. Výsledný obraz má jemnější hrany, není tak hrbolatý jako Discard. Často je označením Linear myšlena níže uvedená metoda Linear Bob a u metody Discard se automaticky předpokládá, že chybějící linky jsou interpolovány, jak je popsáno u této metody.
Mean: Použijí se oba půlsnímky a ty se spolu prolnou. Snímek tak obsahuje jakoby více obrazové informace, ovšem stále ještě je vertikální rozlišení poloviční a v obraze jsou patrné duchy za pohybujícími se objekty.
Blend: Použijí se oba půlsnímky podobně jako u předešlé metody Mean, ovšem lichý půlsnímek se posune o jednu linku, na přesnější pozici kterou má mít, a tím je dosaženo vyššího vertikálního rozlišení. Tedy - první linka se použije ze složeného obrazu nezměněná. Druhá linka se získá prolnutím linek 1 a 2, třetí linka prolnutím linek 2 a 3 atd. Oproti metodě Mean se jemnost obrazu zvýší (projeví se hlavně ve zlepšení statických částí obrazu), ovšem stále přetrvává problém s duchy za pohybujícími se objekty.
Bob: Metoda Bob patří do kategorie Doubler, tedy metody zvyšující frekvenci snímků. Oba půlsnímky se převedou na plné snímky (zdvojením linek) a následují za sebou jako plné snímky. Z původní půlsnímkové frekvence 50 fps vznikne snímková frekvence 50 fps, namísto převodu na 25 fps jako u předešlých metod. Navíc se lichý snímek o linku posune (podobně jako u metody Blend), čímž dojde k částečnému zvýšení vertikálního rozlišení. Nevznikají zde duchy jako u metody Blend, ovšem velikost přenášených dat se zdvojnásobí a kvůli střídání přenášeného obrazu vzniká jev blikání statických částí obrazu, projevující se typicky nejvíc na vodorovných hranách a linkách.
Linear Bob: Vylepšením metody Bob se namísto jednoduchých Discard snímků přenášejí snímky Linear, tedy chybějící linky jsou interpolovány ze sousedních linek. Zvýší se tak jemnost hran a problém s problikáváním vodorovných hran a linek se trochu vylepší. Zůstává nevýhoda většího objemu dat. Tato metoda se často označuje jen jako Linear.
Selective Blending, X, Yadif: Dokonalejší metody se snaží detekovat změny v obraze a tomu přizpůsobovat použitou metodu. Obraz vzniká kombinací předešlých technik. Selective Blending (nebo též Smart Blending, Motion Adaptive Blending) používá u statické části obrazu metodu Weaving a u měnících se částí obrazu metodu Blending. Tím se dosáhne u statických částí obrazu plného rozlišení a u pohybujících se částí nevznikají zuby. U pohybujících se částí obrazu není snížení rozlišení tak znatelné a tak nevadí, ovšem může vadit vznik duchů. Metoda X rozděluje obraz do bloků 8x8 pixelů. Neměnné bloky interpoluje metodou Weaving, u proměnlivých bloků ponechává sudé linky a dopočítává chybějící linky se zohledněním směru hran. Metoda Yadif (Yet Another DeInterlacing Filter) interpoluje chybějící linky komplikovanějším algoritmem. Ve verzi Yadif 2 navíc zdvojuje snímky, jako u metody Bob.
Autor: PandaWild