Способы Сжатия Видеоинформации Реферат

>>> ПОДРОБНЕЕ ЖМИТЕ ЗДЕСЬ <<<

Способы Сжатия Видеоинформации Реферат
Понравился сайт? Поделись им с друзьями:
Нужна помощь с учебой? Наши эксперты готовы помочь!
Нажимая на кнопку, вы соглашаетесь с политикой обработки персональных данных
4.2.1. Общие положения. В разделе «Аудиомагнитофоны» и в предыдущем параграфе достаточно внимания уделялось различным методам сжатия аудио и видеоинформации. Без сжатия информации невозможно было бы говорить о создании стандарта D-VHS и DVD-дисков. Если о DVD-дисках мы более подробно поговорим в разделе «Проигрыватели компакт-дисков», то в настоящем разделе остановимся на стандартах сжатия MPEG, тем более, что изначально они предназначались для сжатия видеоинформации.
Телевизионный кадр содержит 576 активных строк (всего их - 625, но часть из них служебные). Согласно стандарту ITU-R BT.601 международного телекоммуникационного сообщества (ITU — International Telecommunications Union) каждая строка содержит 720 независимых отсчетов. Таким образом, телевизионный кадр представляет собой матрицу из 720´576 точек, а предельно достижимое разрешение ограничено 700 линиями. В оцифрованном телевизионном сигнале каждый кадр представляет собой точечный рисунок, где точка образована отсчетом в горизонтальной строке. Таких «рисунков» должно проходить 25 за секунду (если строго - 50 полукадров-полей, состоящих из четных и нечетных строк соответственно). Тогда информационный объем одной минуты цифрового видеосигнала с разрешением, соответствующим вещательному, и при глубине цвета 24 бита (True Color) составит 720 ´ 576 точек ´ 24 бита цветности ´ 25 кадров/с ´ 60 с – 1866 Мб... То есть без малого 2 гигабайта; при этом скорость цифрового видеопотока будет равна 250 Мбит/с. Даже если поступиться качеством и рассматривать вдвое худшее разрешение по обеим осям (360´288, что примерно соответствует качеству хорошей VHS-записи), объем минуты видеопрограммы займет 467 Мб, а соответствующая скорость цифрового потока составит более 60 Мбит/с. Надо учесть, что мы принимали в расчет только видео, а ведь каждый фильм имеет и звуковое сопровождение. Получается, что все равно такой сигнал останется слишком громоздким для прямого использования даже в современных коммуникациях или на современных носителях.
В конце 80-х - начале 90-х годов единственным цифровым носителем, пригодным для массового тиражирования, был компакт-диск емкостью 650 Мб, а скорость цифрового потока при его воспроизведении составляла порядка 150 кб/с (1,2 Мбит/с); пропускная способность коммуникационных сетей не превышала 3 Мбит/с.
4.2.2. Принципы сжатия видеоинформации. Руководствуясь подобными ориентирами, группа специалистов международной организации по стандартизации (ISO) в 1988 г. приступила к разработке стандартов кодирования и сжатия видео- и аудиоинформации. Официальное наименование этой группе было дано ISO/IECJTC1 SC29WG11. Впоследствии она стала известна как «Экспертная группа по кинематографии» (Moving Picture Expert Group), а аббревиатура MPEG, образованная от английского варианта обиходного названия этой группы, давно уже используется как обозначение разработанных ею норм и стандартов.
В основу правил сжатия видеоданных была заложена идея поиска и устранения избыточной информации, не влияющей на конечное восприятие качества изображения. В первую очередь, был учтен «человеческий фактор» - психофизиологическая модель восприятия человеком видеоизображений (HVS - Human Visual Sense); в частности, тот факт, что градации яркости воспринимаются зрительным аппаратом человека значительно тоньше, чем градации цвета. Это означает, что цветовую информацию можно загрубить по сравнению с яркостной, при этом в субъективном восприятии качество изображения не ухудшится. То есть первоочередным направлением в построении алгоритмов всех стандартов MPEG становится отыскание и устранение информации, избыточной с точки зрения субъективного восприятия.
Как известно, компонентный телевизионный сигнал для переноса через эфир из исходного RGB преобразуется в совокупность сигнала яркости Y и двух цветоразностных сигналов, назовем их условно U (синий) и V (красный). При преобразовании в цифровую форму диапазон изменения их значений допускает 256 градаций (от 0 до 255 для Y , и от -128 до 127 для U и V ), что в двоичном исчислении описывается восьмиразрядным «словом». Теоретически каждый элемент кадра имеет собственные значения Y , U и V , т.e. требует для описания 3 байт. Такое представление, когда как яркость, так и сигналы цветности имеют равное число независимых значений, условно обозначают как 4:4:4
Однако, как уже отмечено выше, зрительная система человека менее чувствительна к цветовым изменениям, чем к яркостным. И без видимой потери качества число цветовых отсчетов в каждой строке можно уменьшить вдвое. Именно такое представление, обозначаемое как 4:2:2, было принято в профессиональном цифровом телевидении (форматы Betacam SX, Digital Betacam и DVCPro5O). При этом U - и V -матрицы уменьшаются до 360´576, а для передачи полного значения телевизионного сигнала в каждом отсчете кадра достаточно 2 байт (чередуя через отсчет независимые значения U и V ). Для целей полупрофессионального и потребительского видео уменьшили вдвое и вертикальное цветовое разрешение, т.е. перешли к представлению 4:2:0. Это уменьшает цветовые матрицы до 360´288 отсчетов, а приведенное число байт на отсчет - до 1,5. Последний вариант, в частности, использован в форматах DV и DVCam.
Собственно, пониженную чувствительность человеческого глаза к градациям цветности по сравнению с градациями яркости уже давно используют в привычном аналоговом телевидении - цветоразностные компоненты передаются с уменьшенным вдвое разрешением. Да и в декодерах цветности телевизионных приемников также производится «удвоение рядов» - в PAL усреднение сигналов двух строк, а в SECAM повторение строк.
Следующим шагом по устранению избыточности стало отыскание информации, повторяющейся хотя бы в течение какого-то отрезка времени, и принятие мер к избежанию дублирования этой информации. В подавляющем большинстве фрагментов фон изображения остается довольно долго неизменным, а действие происходит в основном на переднем плане. То есть большинство кадров в последовательности несет, как правило, довольно много повторяющейся информации. Меняющаяся от кадра к кадру часть видеоинформации обусловлена движением любых объектов. Отсюда и основная идея схемы сжатия — предсказывать движение от кадра к кадру и передавать по возможности только часть информации, связанную с этим движением. В соответствии с этой идеей определены три типа кадров в последовательности: Intra (исходные), Predicted (предсказуемые) и Bi-directional Interpolated (двунаправленной интерполяции) - см. схему рис. 2.10.
Кадр разбивается на блоки 8´8 пикселей (размер квадрата регламентирован однозначно). Над каждым блоком производится дискретно-косинусное преобразование Фурье с последующим квантованием (преобразованием данных из непрерывной формы в дискретную) полученных коэффициентов (амплитуд гармоник). Обычно пиксели в блоке и сами блоки изображения каким-то образом связаны между собой - например, однотонный фон, равномерный градиент освещения, повторяющийся узор и т.д. (принято говорить, что они пространственно коррелированы), так что основная информационная нагрузка ложится на гармоники низших порядков.
В процессе квантования учитывается, что человек более чувствителен к дискретизации низких частот, нежели высоких (вновь «человеческий фактор»). Так как в процессе квантования многие коэффициенты Фурье (высших порядков) приобретают нулевые значения, при кодировании (можно назвать это упаковкой) применяется специальный алгоритм зигзаг (Zigzag) для получения длинных последовательностей нулей. Количество предсказуемых ( Р ) кадров задано стандартом еще жестче - каждый третий кадр в последовательности должен быть Р -типа. Обработка Р -кадров производится с использованием предсказания движения по предшествующим исходным или предсказуемым кадрам.
Кадр разбивается на макроблоки 16´16 пикселей, каждому макроблоку ставится в соответствие наиболее сходный участок изображения из опорного кадра, сдвинутый на вектор перемещения. Следовательно, информация о конкретном блоке Р -кадра состоит из вектора смещения (вектора движения) блока относительно опорного и разницы между блоками, которая затем и кодируется. Этот процесс и называется анализом и компенсацией движения. Благодаря этому допустимая степень сжатия для Р -кадров получается в 3 раза выше, чем для I .
В зависимости от характера видеоизображения, кадры двунаправленной интерполяции ( В -типа) кодируются одним из четырёх способов: предсказание вперёд, обратное предсказание с компенсацией движения (используется, если в кодируемом кадре появляются новые объекты изображения), двунаправленное предсказание с компенсацией движения, внутрикадровое предсказание (при резкой смене сюжета или при высокой скорости перемещения элементов изображения). В двунаправленных кадрах достигается наиболее глубокое сжатие видеоданных. Но зато прежде, чем декодировать кадр В -типа, требуется декодировать как минимум два I - или Р -кадра. Если бы коэффициенты Фурье передавались точно, восстановленное изображение полностью совпадало бы с исходным. Однако ошибки восстановления коэффициентов, обусловленные квантованием, приводят к искажениям изображения. Чем грубее производится квантование, тем меньший объем занимают коэффициенты и тем сильнее сжатие сигнала, но и тем больше вероятность визуальных искажений в восстановленном изображении.
Итак, кадры разбиты на блоки (или макроблоки), блоки, в свою очередь, представлены числовыми матрицами. Теперь упакованные матрицы блоков с характеристиками квантования, векторами движения и т.д. объединяются в слои, слои в кадры, а кадры в группы (см. схему рис. 2.11).
Так формируется видеопоток (Video Stream), который затем «вливается» в общий системный MPEG-поток (System Stream). В этот системный поток, кроме видео, входят поток аудио и служебная информация, которая, в первую очередь, обеспечивает при декодировании синхронизацию видео и звука (Timing Information).
Фактически а системный поток встраивается таймер, работающий на частоте 90 кГц. Метка, по которой происходит перевод временного счетчика в декодере SCR (System Clock Reference), и метка начала воспроизведения PDS (Presentation Data Stamp) вставляются в картинку или в звуковой кадр, чтобы объяснить декодеру, когда их воспроизводить. Размер PDS составляет 33 бита, что обеспечивает возможность представления любого временного цикла длительностью до 24 часов.
Давно известный формат цифровой видеозаписи DV (в том числе и MiniDV), в сущности, представляет собой как бы предельный случай MPEG-компрессии - это поток, состоящий только из I -кадров (его еще иногда называют M-JPEG - Motion JPEG). То есть оцифрованные кадры подвергаются только внутрикадровой JPEG компрессии, без использования межкадрового сжатия. Цифровой потоr DV-видео при формате представления 4:2:0 может достигать 25 Мбит/с.
4.2.3. Стандарты MPEG. Проследим наиболее важные этапы становления стандартов MPEG.
MPEG1 . Первый стандарт появился в 1992 г. и был рассчитан на передачу видео по низкоскоростным сетям или для записи на компакт-диски (Video-CD). Максимально возможная скорость цифрового потока была изначально ограничена порогом в 150 кб/с (односкоростной CD-ROM или стандартный аудиопроигрыватель компакт-дисков). Чтобы уложиться в заданные рамки, конечно, пришлось поступиться качеством. В MPEG1 разрешающая способность картинки снижена, по сравнению с разверткой вещательного телевидения, в два раза по обеим осям: 288 активных строк в телевизионном кадре и 360 отсчетов в активной части строки. В принципе, это разрешение близко по уровню к формату аналоговой VHS-видеозаписи. Но нельзя забывать о JPEG-компрессии. Уменьшение числа отсчетов означает тем самым увеличение блоков и макроблоков внутри каждого кадра. То есть снижение разрешения автоматически делает внутрикадровую компрессию более грубой и как следствие - более заметной потребителю. Однотонные поверхности оказываются как бы составленными из рассыпающихся квадратиков; особенно назойливо квадратики «вылезают» на динамичных сценах. По этим причинам, а также по причине прогресса цифровых технологий стандарт MPEG1 не успел получить большого распространения. От него нам остались в основном стандарты сжатия звука, существующие сегодня самостоятельно (о них мы говорили в разделе «Аудиомагнитофоны»).
MPEG2. Новый стандарт MPEG2, работа над которым, собственно, началась сразу по выходе MPEG1 и завершилась в 1995 г. «Второй» MPEG не принес революционных изменений, это - вполне эволюционная доработка старого стандарта под новые возможности техники и новые требования заказчиков - крупнейших компаний масс-медиа. MPEG2 предназначался для обработки видеоизображения, соизмеримого по качеству с телевизионным вещательным, при пропускной способности каналов передачи данных от 3 до 15 Мбит/с. Сейчас стандарт MPEG2 ассоциируется, в первую очередь, с DVD-дисками. Но в 1992 году, когда стартовали работы над этим стандартом, еще не существовало широкодоступных носителей, на которые можно было бы записать видеоинформацию, сжатую по алгоритмам MPEG2. Самое главное - компьютерная техника того времени не могла обеспечить и нужную полосу пропускания. Зато спутниковое телевидение с новейшим по тем временам оборудованием уже тогда готово было предоставить канал передачи с необходимыми характеристиками. В октябре 1995 года через телевизионный спутник «Pan Am Sat» было реализовано первое 20-канальное цифровое ТВ-вещание, использовавшее стандарт MPEG2. Спутник осуществлял трансляцию на территории Скандинавии, Бенилюкса, Ближнего Востока и Северной Африки.
С появлением же в середине 90-х гг. цифрового многоцелевого диска DVD (Digital Versatile Disk, Digital Video Disk), обладающего в простейшей — односторонней и однослойной - версии емкостью 4,7 Гб (почти в 8 раз больше CD), он, естественно, становится практически безальтернативным массовым носителем для распространения качественной кинопродукции, сжатой по стандарту MPEG2. Это обусловило массовое производство бюджетных DVD-проигрывателей и, конечно, появление недорогих аппаратных кодеров/декодеров. На стандарте MPEG2 сейчас построены все системы цифрового спутникового телевидения, в частности, система «НТВ+». На нем же основываются эфирные системы цифрового телевещания DVB, получающие все более широкое распространение в ряде стран Западной Европы и в США. В профессиональной студийной аппаратуре для реализации цифрового нелинейного монтажа используется версия EDITABLE MPEG, в которой все кадры ключевые, а скорость потока в формате 4:2:2 достигает 50 Мбит/с.
Как мы отмечали, революционных изменений в новом стандарте нет, но усовершенствования коснулись практически всех этапов «упаковки»; более того, появились операции, ранее не применявшиеся. К примеру, после разбивки видеопотока на кадры и группы кадров кодер анализирует содержимое очередного кадра на предмет повторяющихся, избыточных данных. Составляется список оригинальных участков и таблица повторяющихся участков. Оригиналы сохраняются, копии удаляются, а таблица повторяющихся участков используется при декодировании сжатого видеопотока. Значительное повышение плотности упаковки было также достигнуто благодаря применению во внутрикадровом сжатии нелинейного преобразования Фурье взамен линейного. Оптимизации подвергся алгоритм предсказания движения, а также введены несколько новых, ранее не используемых алгоритмов компрессии видеоданных. Они в совокупности позволяют кодировать разные слои кадра в зависимости от важности с разной интенсивностью цифрового потока. Стандарт MPEG2 предоставляет программистам и продвинутым пользователям возможность в процессе кодирования задавать точность частотных коэффициентов матрицы квантования, что непосредственно влияет на качество получаемого в результате сжатия изображения (и на размер тоже). Точность квантования может варьироваться в диапазоне 8-11 бит на одно значение элемента. Для сравнения: в MPEG1 предусматривалось только одно фиксированное значение - 8 бит на элемент. То есть в рамках стандарта MPEG2 имеется возможность гибкой настройки качества изображения в зависимости от пропускной способности сети или емкости носителя (вот почему на первых DVD можно было видеть разное по качеству изображение). Эта гибкость, в частности, и сделала MPEG2 основой для приема/передачи цифрового телевидения по различным цифровым сетям.
В результате для фильмов, созданных в стандартах PAL и SECAM, поддерживается разрешение 720´576 при 25 кадрах в секунду при качестве, практически не уступающем вещательному. Собственно, MPEG-фильм нельзя отнести к какой-либо системе цветного телевидения, так как кадры в MPEG являются просто картинками и не имеют прямого отношения к исходной для фильма системе телевидения; речь может идти о соответствии размера и частоты следования кадров. В части аудио в MPEG2, по сравнению с MPEG1, добавлена поддержка многоканального звука (Dolby Digital 5.1, DTS и т.п.)
MPEG3. Прежде всего не следует смешивать его с широкоизвестным форматом компрессии звука МРЗ, о котором мы говорили в разделе «Аудиомагнитофоны». Стандарт MPEG3 первоначально разрабатывался для использования в системах телевидения высокой четкости (High-Definition Television, HDTV) со скоростью потока данных 20-40 Мбит/с. Но еще в процессе разработки стало очевидно, что параметры, требуемые для передачи HDTV, вполне обеспечиваются использованием стандарта MPEG2 при увеличенной скорости цифрового потока. Другими словами, острой нужды в существовании отдельного стандарта для HDTV нет. Таким образом, MPEG3, еще не родившись, стал фактически составной частью стандарта MPEG2 и отдельно теперь даже не упоминается.
MPEG4. В новом стандарте MPEG4, появившемся в самом конце 1999 г., предложен более широкий взгляд на медиа-реальность. Стандарт задает принципы работы с контентом (цифровым представлением медиа-данных) для трех областей: собственно интерактивного мультимедиа (включая продукты, распространяемые на оптических дисках и через Интернет), графических приложений (синтетического контента) и цифрового телевидения (DTV). Фактически данный стандарт задает правила организации среды, причем среды объектно-ориентированной. Он имеет дело не просто с потоками и массивами медиа-данных, а с медиа-объектами (ключевое понятие стандарта). В MPEG4 определен двоичный язык описания объектов, классов и сцен BIFS, который разработчики характеризуют как «расширение C++». Помимо работы с аудио- и видеоданными, стандарт позволяет работать с естественными и синтезированными компьютером 2D- и 3D-oбъектами, производить привязку их взаимного расположения и синхронизацию друг относительно друга, а также указывать их интерактивное взаимодействие с пользователем.
Картинка разделяется на составные элементы - медиа-объекты, описывается структура этих объектов и их взаимосвязи, чтобы затем собрать их в единую видеозвуковую сцену. Результирующая сцена составляется из медиа-объектов, объединенных в иерархическую структуру:
а) неподвижные картинки (например, фон);
б) видеообъекты (например, говорящий человек);
в) аудиообъекты (голос, связанный с этим человеком);
г) текст, связанный с данной сценой;
д) синтетические объекты, которых не было изначально в описываемой сцене, но которые туда добавляются при демонстрации конечному пользователю (например, синтезируется говорящая голова);
е) текст (например, связанный с головой), из которого в конце синтезируется голос.
Такой способ представления данных позволяет изменять результирующую сцену, обеспечивая высокий уровень интерактивности для конечного пользователя и предоставляя ему целый ряд возможностей, например: перемещать и помещать объекты в любое место сцены, трансформировать объекты, изменять их форму и геометрические размеры, собирать из отдельных объектов составной объект и проводить над ним какие-либо операции, менять текстуру и цвет объекта, манипулировать им (заставить, к примеру, стол передвигаться в пространстве), менять точку наблюдения за всей сценой.
Особое внимание уделим сжатию видеоматериалов, поскольку именно эта область интересует нас в этом разделе. Алгоритм компрессии видео, в принципе, работает по той же схеме, что и в предыдущих стандартах, но есть несколько радикальных нововведений. В отличие от прежних стандартов, которые делили кадр на квадратные блоки вне зависимости от содержимого, новый кодер оперирует целыми объектами произвольной формы. К примеру, человек, двигающийся по комнате, будет воспринят как отдельный объект, перемещающийся относительно другого неподвижного объекта - заднего плана. Также применен «интеллектуальный» способ расстановки ключевых кадров. Ключевые кадры не расставляются с заданной регулярностью, а выделяются кодером только в те моменты, в которые происходит смена сюжета. Естественно, разветвленные алгоритмы поиска и обработки объектов сложной формы, углубленного анализа последовательностей кадров требуют существенно больших вычислительных ресурсов для качественного восстановления (декомпрессии) изображения из этого формата, нежели в случае MPEG1 и MPEG2. К счастью, производительность современных процессоров позволяет обойти это препятствие. В результате усовершенствований эффективность компрессии видео в MPEG4 возросла настолько, что позволяет размещать полнометражный фильм длительностью полтора-два часа с весьма приличным качеством всего на одном стандартном компакт-диске (650 Мб). Впрочем, не стоит питать иллюзий по поводу рекламируемого «DVD-качества» МРЕС4-продукции. Следует помнить, что сколь бы совершенным ни был кодер, всегда существует ограничение на минимальный размер (поток) сжатого видео. Поэтому фильмы в MPEG4, размещенные даже на двух компакт-дисках, все-таки не дотягивают до качества DVD-видео в стандарте MPEG2.
ЛАЗЕРНЫЕ ПРОИГРЫВАТЕЛИ КОМПАКТ-ДИСКОВ
В 1983 г. на мировом рынке БРЭА появились новые изделия - цифровые звуковые проигрыватели. Из трех известных систем воспроизведения цифровых звукозаписей, а именно: с использованием лазера, емкостного датчика и пьезоэлектрического звукоснимателя - наибольшее развитие и применение получила система с лазерным звукоснимателем и оптической цифровой пластинкой.
Цифровые лазерные звуковые проигрыватели являются принципиально новым видом БРЭА. Наряду с высоким уровнем технических характеристик, такие проигрыватели обладают, по сравнению с обычными аналоговыми электропроигрывателями, целым рядом потребительских возможностей, таких, как дистанционное инфракрасное управление, быстрый поиск нужного фрагмента записи, программируемый режим выбора музыкальных программ, наличие таймеров и т.д.
Оптические цифровые пластинки, несмотря на малый диаметр - всего 12 см - дают возможность воспроизводить звуковые программы длительностью более 1 часа. Поскольку плотность и объем записанной информации на цифровой пластинке намного выше, чем на грампластинке, ее называют компакт-диском (КД) – от англ. Compact Disk (CD).
ОСНОВНЫЕ ПРИНЦИПЫ УСТРОЙСТВА И РАБОТЫ ПРОИГРЫВАТЕЛЕЙ
КОМПАКТ- ДИСКОВ

Сжатие видеоинформации — Студопедия
Методы сжатия видеоданных. — МегаЛекции
Про сжатие видео — Введение / Хабр
Сжатие видеосигналов
Реферат Сжатие видео
Сочинение Пример О Конфликте В Семье
Роль Судьи В Футболе Реферат
Реферат Про Айтматова
Реферат Планета Марс И Солнце 5 Класс
Сочинение Почему Дубровский

Способы Сжатия Видеоинформации Реферат

Report Page