Цифровой видеоархив
для дома
Рано
или поздно счастливый обладатель видеокамеры сталкивается с проблемой сохранения
отснятых фильмов. Очевидное ее решение - хранить фильмы на видеокассетах - самое
простое, но не всегда самое эффективное. Во-первых, магнитный слой пленки со
временем осыпается, и в результате дорогой вам фильм о первых шагах ребенка
может не дожить до свадьбы последнего. Во-вторых, стоимость кассет, особенно
формата mini-DV, для российского кошелька весьма чувствительна, и их число хотелось
бы ограничить потребностями собственно исходной съемки (три-пять штук). В-третьих,
не так уж они малы, и для хранения большого количества кассет определенное место
все равно понадобится.
Наконец, последний аргумент связан с компьютерным
монтажом. Дело в том, что мало кого устраивает отснятый "сырой" видеоматериал
- обычно требуется его постобработка: "обрезка" лишних фрагментов,
перестановка и гладкая склейка удачных сюжетов и построение эффектных переходов
между ними, наложение титров, включение заставок и т. д. Все эти операции вполне
по силам современному домашнему компьютеру. Достаточно установить в него соответствующую
плату и программу цифрового видеомонтажа, например, из комплекта miroVideo Studio
10plus и AverMedia MV-300. А поскольку процессу обработки предшествовали преобразование
исходного видео в цифровой сигнал и его запись на жесткий диск компьютера и
так как ваше видео приобрело компьютерный цифровой вид, то разумно и хранить
его в том же виде, особенно если в будущем при создании новых фильмов вы предполагаете
еще не раз воспользоваться снятыми материалами. Одним словом, возникает задача
архивирования видео в цифровом виде на компактных, долговечных и недорогих носителях.
Конечно, хотелось бы при этом иметь качество
видео как можно выше, но это желание вступает в противоречие с требованием минимизации
затрат. Кроме того, само понятие качества и тем более его оценка весьма субъективны.
В поисках разумного компромисса будем опираться на классификацию качества видео,
обеспечиваемого потребительскими камерами различных форматов записи на магнитную
ленту. Весьма условно здесь можно выделить три уровня: стандартное видео (VHS,
C-VHS, Video8), супервидео (SVHS, C-SVHS, Hi8) и цифровое видео (DV, mini-DV,
Digital8). Для простоты в дальнейшем будем обозначать их как Video, S-Video
и DV. Количественно они обычно характеризуются горизонтальным разрешением (числом
различаемых в строке элементов - телевизионных линий). Считается, что Video
обеспечивает разрешение до 280 линий, S-Video - до 400, а DV - не менее 500
линий. Важно отметить, что телевизионный кадр (здесь и далее PAL-стандарта)
содержит 576 активных строк (всего их 625, но часть из них - служебные), причем
согласно рекомендации ITU-R BT.601 Международного профессионального телевизионного
сообщества (ITU - International Telecommunications Union) каждая строка содержит
720 независимых отсчетов. Следовательно, телевизионный кадр представляет собой
матрицу 720 х 576, а предельно достижимое разрешение ограничено 700 линиями.
Форматы представления данных телевизионного сигнала |
4:4:4 |
YUV |
YUV |
YUV |
YUV |
YUV |
YUV |
YUV |
YUV |
YUV |
YUV |
YUV |
YUV |
YUV |
YUV |
YUV |
YUV |
|
4:2:2 |
YU |
YV |
YU |
YV |
YU |
YV |
YU |
YV |
YU |
YV |
YU |
YV |
YU |
YV |
YU |
YV |
|
4:2:0 |
YU |
YV |
YU |
YV |
Y |
Y |
Y |
Y |
YU |
YV |
YU |
YV |
Y |
Y |
Y |
Y |
|
Известно, что телевизионный сигнал представляет
собой совокупность сигнала яркости - Y и двух цветоразностных сигналов - U и
V. Вариации их значений допускают 256 градаций (от 0 до 255 для Y, и от -128
до 127 для U/V), что в двоичном исчислении соответствует 8 битам, или 1 байту.
Теоретически каждый элемент кадра имеет собственные значения YUV, т. е. требует
3 байтов. Такое представление, когда и яркость, и сигналы цветности имеют равное
число независимых значений, обычно обозначают как 4:4:4. Однако было установлено,
что зрительная система человека менее чувствительна к цветовым пространственным
изменениям, чем к яркостным. И без видимой потери качества число цветовых отсчетов
в каждой строке можно уменьшить вдвое. Именно такое представление, обозначаемое
как 4:2:2, было принято в профессиональном телевидении. При этом матрицы U и
V уменьшаются до 360 х 576, а для передачи полного значения телевизионного сигнала
в каждом отсчете кадра достаточно 2 байтов (чередуя через отсчет независимые
значения U и V). Но для целей потребительского видео было признано допустимым
уменьшить вдвое и вертикальное цветовое разрешение, т.е. перейти к представлению
4:2:0. Это уменьшает цветовые матрицы до 360 х 288, а приведенное число байтов
на отсчет - до 1,5. Именно такое представление было заложено в DV-формат цифровых
камер.
Таким образом, принимая во внимание телевизионную
кадровую частоту в 25 Гц, приходим к выводу, что одна секунда цифрового видео
в представлении 4:2:2 требует 20 736 000 байтов (25 x 2 x x 720 x 576), т. е.
поток данных составляет 21 Мбайт/c (MBps - MegaByte Per Second), но представление
4:2:0 сокращает поток на 25% - до 16 Мбайт/c. Запись подобных потоков технически
осуществима, но она сложная, дорогостоящая и неэффективная с точки зрения последующей
обработки. На практике требуется значительное уменьшение потоков, т. е. мы вынуждены
применять различные виды компрессии. Известно множество алгоритмов, осуществляющих
компрессию без потери информации, но даже самые эффективные из них на типичных
изображениях не обеспечивают более чем двукратного сжатия.
Среди алгоритмов с потерей данных одним
из наиболее известных является M-JPEG (Motion-JPEG). Он пришел из цифровой фотографии,
где под именем JPEG был разработан для эффективного сжатия отдельных кадров
(JPEG - аббревиатура названия утвердившего его международного объединения Joint
Photographic Experts Group). Motion всего лишь отражает его применение к последовательности
кадров, хотя при этом каждый из них обрабатывается совершенно независимо. В
этом алгоритме кадр разбивается на блоки размером 16 х х 16, каждый из которых
дискретным косинусным преобразованием (ДКП) переводится в частотную область.
В результате распределение сигналов яркости и цветности (используется представление
4:2:2) переходит в соответствующие частотные коэффициенты, которые затем подвергаются
квантованию (округлению значений с задаваемым интервалом). Само по себе ДКП
не приводит к потере данных, но вот квантование коэффициентов вызывает огрубление
изображения. Операция квантования выполняется с переменным интервалом - наиболее
точно передается низкочастотная информация, поскольку соответствующие искажения
изображения зрительно наиболее заметны. В то же время многие высокочастотные
коэффициенты, ответственные за "тонкие" детали изображения, после
нее принимают нулевые значения. Таким образом, JPEG-компрессия приводит к снижению
эффективного разрешения и возможному появлению незначительных ложных деталей
(в частности, на границе блоков), но обеспечивает значительное сжатие потока
данных. Компромисс очевиден: чем больше сжатие, тем ниже качество. Установлено,
что уровню Video соответствует M-JPEG-поток около 2 Мбайт/с, S-Video - 4 Мбайт/с,
а DV - 3,1 Мбайт/с.
На первый взгляд, здесь кроется парадокс:
S-Video-сигнал с меньшим, чем у DV, разрешением, тем не менее, требует большего
потока. Объяснение простое: на самом деле DV-кодировка несколько отличается
от M-JPEG. Так, DV использует представление 4:2:0, что по сравнению с 4:2:2
экономичнее на 25%. Ну а главное, алгоритм DV-преобразования, применяет более
гибкую схему компрессии, основанную на адаптивном подборе таблиц квантования.
Коэффициент компрессии для различных блоков меняется по изображению: для малоинформативных
блоков (например, на краях изображения) он увеличивается, а для блоков с большим
количеством мелких деталей уменьшается относительно среднего по изображению
уровня. В результате при том же качестве достигается сокращение объема данных
примерно на 15%.
Характерной чертой DV-сигнала является постоянный,
заданный стандартом, поток видеоданных - 25 Мбит/c (Mbps - Megabit Per Second),
т. е. фиксированный коэффициент компрессии - около 5:1.
Дальнейшее снижение объема данных может
быть достигнуто переходом к алгоритму MPEG-компрессии (MPEG - Motion Pictures
Experts Group). Он принципиально ориентирован на обработку последовательностей
кадров и использует высокую избыточность информации в изображениях, разделенных
малым временным интервалом. Действительно, между смежными изображениями обычно
меняется только малая часть сцены, например происходит плавное смещение небольшого
объекта на фоне фиксированного заднего плана. В этом случае полную информацию
о сцене нужно сохранять только выборочно - для опорных изображений; для остальных
достаточно передавать лишь разностную информацию: о положении объекта, направлении
и величине смещения, новых элементах фона (открывающихся за объектом по мере
его движения). Причем эти разности можно формировать на основе сравнения не
только с предыдущими изображениями, но и с последующими (поскольку именно в
них по мере движения объекта открывается часть фона, ранее скрытая за объектом).
Таким образом, в MPEG-кодировке принципиально формируются три типа кадров: I
(Intra) - выполняющие роль опорных и сохраняющие полный объем информации о структуре
изображения; P (Predictive) - несущие информацию об изменениях в структуре изображения
по сравнению с предыдущим кадром (типов I или P); B (Bi-directional) - сохраняющие
только самую существенную часть информации об отличиях от предыдущего и последующего
изображений (только I или P). Принципиальная схема последующей компрессии I-кадров,
так же как и разностных P- и B-кадров, аналогична M-JPEG, но, как и у DV, с
адаптивной подстройкой таблиц квантования. В частности, это позволяет охарактеризовать
DV-сигнал как частный случай MPEG-последовательности из I-кадров с заданным
фиксированным потоком (коэффициентом компрессии).
Последовательности I-, P-, B-кадров объединяются
в фиксированные по длине и структуре группы кадров - GOP (Group of Pictures).
Каждая GOP обязательно начинается с I и с определенной периодичностью содержит
P-кадры. Ее структуру описывают как M/N, где M - общее число кадров в группе,
а N - интервал между P-кадрами. Так, типичная для Video-CD и DVD IPB группа
15/3 имеет вид IBBPBBPBBPBBPBB. Здесь каждый B-кадр восстанавливается по окружающим
его P-кадрам (в начале и конце группы - по I и Р), а в свою очередь каждый Р-кадр
- по предыдущему Р- (или I-) кадру. Но I-кадры самодостаточны и могут быть восстановлены
независимо от других, они являются опорными для всех P- и тем более B-кадров
группы. Соответственно у I наименьшая степень компрессии, у В - наибольшая.
Установлено, что по размеру типичный Р-кадр составляет 1/3 от I, а B - 1/8.
В результате MPEG-последовательность IPPP (GOP 4/1) обеспечивает двукратное
уменьшение требуемого потока данных (при том же качестве) по сравнению с последовательностью
только из I-кадров, а использование GOP 15/3 позволяет достичь четырехкратного
сжатия.
Резюмируя, приходим к оценочной таблице
(см. табл. 1). В нее для справки включены значения потоков видеоданных, характеризующих
качество фильмов, записанных на Video-CD- и DVD-Video-диски. Обсуждение этих
форматов записи выходит за рамки настоящего материала, мы планируем рассмотреть
их в следующем номере журнала. Завершая рассказ о MPEG, необходимо подчеркнуть,
что этот алгоритм допускает вариацию и многих других параметров кодирования,
в частности пространственного разрешения. С этой точки зрения различают MPEG-1,
ограничивающий кадр размером 352 х 288, и MPEG-2, допускающий различные уровни
разрешения (в том числе и 352 х 288), но в качестве основного использующий 720
х 576. Строго говоря, MPEG-1 является ограниченной версией MPEG-2. Впрочем,
заданное разрешение Video в 280 строк и подразумевает использование данного
ограничения. Важно также подчеркнуть, что по мере перехода к более глубоким
схемам компрессии: от M-JPEG и MPEG 422 I-only к MPEG 420 IPB существенно усложняется
процесс редактирования результирующих последовательностей. В настоящее время
считается, что без дополнительных потерь качества полноценный монтаж с точностью
до кадравозможен только до уровня MPEG IPPP 422, а далее допустимы лишь простейшие
операции (обрезка/склейка, да и то с точностью до группы).
Из вышеизложенного следует, что для архивирования
видео целесообразно прибегать к MPEG-компрессии цифровых данных (420 IBP 15/3),
причем для записей фильмов уровня VHS/Video8 достаточен MPEG-1 с потоком в 2-3
Мбит/с, а для SVHS/Hi8 и DV необходим MPEG-2 с потоком не менее 5 Мбит/с. С
практической точки зрения возможны программная и аппаратная реализации MPEG-компрессии.
Наиболее известной и условно доступной программой является XingMPEG Encoder
(www.xingtech.com). Она позволяет получать
MPEG-1-последовательности из AVI-файлов (например, M-JPEG-потоков, захваченных
одной из плат нелинейного монтажа). Но данный процесс в силу сложности алгоритма
компрессии требует значительных вычислительных ресурсов. Так, на Pentium II
350 МГц перекодировка каждой минуты видео при заданном потоке в 3 Мбит/с требует
около 15 мин счета. Надо признать, что при этом обеспечивается высокое качество
результирующего видео. Аппаратные кодеры обеспечивают получение MPEG-фильмов
в реальном времени: на их вход подается аналоговый видеосигнал, а на жесткий
диск записывается готовый MPEG-файл. Сегодня доступно большое количество различных
устройств, обеспечивающих MPEG-1-компрессию. Они могут быть выполнены как внешние
блоки, соединяемые с компьютером по LPT-порту (AverMedia MPEGWizard, Pinnacle
Systems STUDIO MP10, Videonics Python), так и внутренние платы (VITEC Multimedia
RT6, Darim MPEGator, Data Translation Broadway). Что касается устройств MPEG-2-компрессии,
то их выбор пока весьма ограничен. Из реально доступных стоит отметить miroVideo
DC1000 (подробнее см. "Цифровое видео", №3'99). Хотя на этапе исходной
оцифровки она ограничена не самым эффективным по степени сжатия видом компрессии
422 IP (зато обеспечивающим сложный монтаж видео с точностью до кадра), но допускает
программно-аппаратное преобразование результирующей последовательности до MPEG-2
420 IPB 15/3. Последняя, в частности, является основой для подготовки DVD-Video,
например, с помощью Minerva DVD Authoring software (дополняет DC1000 до комплекта
miroVideo DVD1000). В табл. 2 для справки приведены краткие характеристики некоторых
из этих устройств.
Пришло время разобраться с тем, на каких
компактных носителях размещать цифровой видеоархив. Как следует из табл. 1,
один час видео даже при самом эффективном способе сжатия и качестве Video соответствует
объему данных в 1 Гбайт, при качестве S-Video - 2 Гбайт и для DV - около 3 Гбайт.
При таких значениях выбор, собственно говоря, не велик - это один из вариантов
записываемых компакт-дисков. Точнее, это могут быть CD-R емкостью 650 Мбайт,
DVD-RAM на 2,6 Гбайт, DVD-RW на 3,0 Гбайт или DVD-R на 3,9 Гбайт. Кроме того,
в скором времени ожидается появление DVD-R на 4,7 Гбайт, позволяющего писать
диски, стопроцентно совместимые с DVD-Video. К сожалению, стоимость соответствующих
устройств записи растет существенно быстрее (почти экспоненциально) доступного
объема. Если CD-R сегодня можно приобрести всего за $250-300, а стоимость чистого
диска к нему составляет менее $2, то цена наиболее перспективного DVD-R превышает
$6 тыс., что явно не подходит для домашнего использования. Справедливости ради
стоит подчеркнуть, что в силу общих тенденций развития компьютерных технологий
можно ожидать революционного снижения цен уже в ближайшие год-два. Ведь цена
первых устройств CD-R также сначала измерялась тысячами. Нельзя не предупредить
о несовместимости разных форматов DVD. Но, к счастью, все они на уровне чтения
поддерживают CD-R, а также диски DVD-ROM и DVD-Video.
Таким образом, в настоящих условиях наиболее
разумное решение задачи архивирования может быть основано на использовании:
MPEG-1-кодера и CD-R-устройства записи - для сохранения фильмов с качеством
Video;
MPEG-2-кодера и CD-R или DVD-RAM - для сохранения фильмов с качеством S-Video;
MPEG-2-кодера и DVD-RAM (в качестве временного решения) с переходом в последующем
на DVD-R - для сохранения фильмов с качеством DV.