Сжатие без потерь

Толкование Перевод

Сжатие без потерь: У этого термина существуют и другие значения, см. Сжатие.

Сжатие данных без потерь (англ. Lossless data compression) — метод сжатия данных: видео, аудио, графики, документов представленных в цифровом виде, при использовании которого закодированные данные могут быть восстановлены с точностью до бита. При этом оригинальные данные полностью восстанавливаются из сжатого состояния. Этот тип сжатия принципиально отличается от сжатия данных с потерями. Для каждого из типов цифровой информации, как правило, существуют свои оптимальные алгоритмы сжатия без потерь.

Сжатие данных без потерь используется во многих приложениях. Например, оно используется во всех файловых архиваторах. Оно также используется как компонент в сжатии с потерями.

Сжатие без потерь используется, когда важна идентичность сжатых данных оригиналу. Обычный пример — исполняемые файлы и исходный код. Некоторые графические файловые форматы, такие как PNG, используют только сжатие без потерь; тогда как другие (TIFF, MNG) или GIF могут использовать сжатие как с потерями, так и без.

Содержание

1 Сжатие и комбинаторика

2 Техника сжатия без потерь

3 Методы сжатия без потерь

3.1 Многоцелевые

3.2 Сжатие аудио

3.3 Сжатие графики

3.4 Сжатие видео

3.5 Сжатие текстов

4 Примеры алгоритмов

5 Примеры форматов и их реализаций

6 См. также

7 Примечания

8 Ссылки

Сжатие и комбинаторика

Легко доказывается теорема.

Для любого N > 0 нет алгоритма сжатия без потерь, который:

Любой файл длиной не более N байт или оставляет той же длины, или уменьшает.

Существует файл длиной не более N, который уменьшается хотя бы на один байт.

Доказательство. Не ограничивая общности, можно предположить, что уменьшился файл A длины ровно N. Обозначим алфавит как $\Sigma$ . Рассмотрим множество $\Sigma^0 \cup \Sigma^1 \cup \ldots \cup \Sigma^{N-1} \cup \{ A \}$ . В этом множестве $256^0 + 256^1 + \ldots + 256^{N-1} + 1$ исходных файлов, в то время как сжатых не более чем $256^0 + 256^1 + \ldots + 256^{N-1}$ . Поэтому функция декомпрессии неоднозначна, противоречие. Теорема доказана.

Впрочем, данная теорема нисколько не бросает тень на сжатие без потерь. Дело в том, что любой алгоритм сжатия можно модифицировать так, чтобы он увеличивал размер не более чем на 1 бит: если алгоритм уменьшил файл, пишем «1», потом сжатую последовательность, если увеличил — пишем «0», затем исходную. Пример того, как это реализуется на псевдо-C++, показан ниже:

bin_data_t __compess(bin_data_t input) // bin_data_t - тип данных, означающий произвольную последовательность бит переменной длины { bin_data_t output = arch(input); // функция bin_data_t arch(bin_data_t input) реализует некий алгоритм сжатия данных if (output.size()<input.size()) // если алгоритм уменьшил размер данных, функция bin_data_t::size() возвращает размер данных { output.add_begin(1); // функция bin_data_t::add_begin(bool __bit__) добавляет бит, равный __bit__ в начало последовательности return output; // возвращаем сжатую последовательность с добавленной «1» } else // иначе (если алгоритм увеличил или не изменил размер данных) { input.add_begin(0); // добавляем «0» к исходной последовательности return input; // возвращаем исходный файл с добавленным «0» } }

Так что несжимаемые фрагменты не приведут к бесконтрольному «раздуванию» архива. «Реальных» же файлов длины N намного меньше, чем $256^{N}$ (говорят, что данные имеют низкую информационную энтропию) — например, маловероятно, чтобы буквосочетание «щы» встретилось в осмысленном тексте, а в оцифрованном звуке уровень не может за один сэмпл прыгнуть от 0 до 100 %. К тому же за счёт специализации алгоритмов на некоторый тип данных (текст, графику, звук и т. д.) удаётся добиться высокой степени сжатия: так, применяющиеся в архиваторах универсальные алгоритмы сжимают звук примерно на треть (в 1,5 раза), в то время как FLAC — в 2,5 раза. Большинство специализированных алгоритмов малопригодны для файлов «чужих» типов: например, звуковые данные плохо сжимаются алгоритмом, рассчитанным на тексты.

Техника сжатия без потерь

В общих чертах смысл сжатия без потерь таков. В исходных данных находят какую-либо закономерность и с учётом этой закономерности генерируют вторую последовательность, которая полностью описывает исходную. Например, для кодирования двоичных последовательностей, в которых много нулей и мало единиц, мы можем использовать такую замену:

00 → 0 01 → 10 10 → 110 11 → 111

В таком случае шестнадцать битов

00 01 00 00 11 10 00 00

будут преобразованы в тринадцать битов

0 10 0 0 111 110 0 0

Такая подстановка является префиксным кодом, то есть обладает такой особенностью: если мы запишем сжатую строку без пробелов, мы всё равно сможем расставить в ней пробелы — а значит, восстановить исходную последовательность. Наиболее известным префиксным кодом является код Хаффмана.

Большинство алгоритмов сжатия без потерь работают в две стадии: на первой генерируется статистическая модель для входящих данных, вторая отображает входящие данные в битовом представлении, используя модель для получения «вероятностных» (то есть часто встречаемых) данных, которые используются чаще, чем «невероятностные».

Статистические модели алгоритмов для текста (или текстовых бинарных данных, таких как исполняемые файлы) включают:

Преобразование Барроуза — Уилера (блочно-сортирующая пре-обработка, которая делает сжатие более эффективным)

LZ77 и LZ78 (используется DEFLATE)

LZW

Алгоритмы кодирования через генерирование битовых последовательностей:

Алгоритм Хаффмана (также используется DEFLATE)

Арифметическое кодирование

Методы сжатия без потерь

Полный список смотрите в Категория:Сжатие данных

Многоцелевые

Кодирование длин серий — простая схема, дающая хорошее сжатие данных, которые содержат много повторяющихся значений

LZW — используется в gif и во многих других.

Deflate — используется в gzip, усовершенствованной версии zip и как часть процесса сжатия PNG.

LZMA — используется в 7-zip.

Сжатие аудио

Apple Lossless — ALAC (Apple Lossless Audio Codec)

Audio Lossless Coding — также известен как MPEG-4 ALS

Direct Stream Transfer — DST

Dolby TrueHD

DTS-HD Master Audio

Free Lossless Audio Codec — FLAC

Meridian Lossless Packing — MLP

Monkey's Audio — Monkey’s Audio APE

OptimFROG

RealPlayer — RealAudio Lossless

Shorten — SHN

TAK — (T)om’s verlustfreier (A)udio (K)ompressor (нем.)

TTA — True Audio Lossless

WavPack — WavPack lossless

WMA Lossless — Windows Media Lossless

Сжатие графики

ABO — Adaptive Binary Optimization

BTPC

CALIC

CREW

CTW

DPCM

GIF — (без потерь только для изображений содержащих не более 256 цветов)

JBIG2 — (с потерями или без Ч/Б изображений)

Lossless JPEG — (расширение стандарта сжатия JPEG, обеспечивающее сжатие без потерь)

JPEG-LS — (стандарт сжатия без потерь/почти без потерь)

JPEG 2000 — (в режиме сжатия без потерь)

LOCO-I

MRP

PGF — Progressive Graphics File (сжатие с/без потерь)

PNG — Portable Network Graphics

PWC

TIFF — (исключая режимы сжатия с потерями^[1])

TMW

HD Photo — (включая метод сжатия без потерь)

Сжатие видео

Animation codec

CamStudio Video Codec

CorePNG

FFV1

Huffyuv

Lagarith

LCL

MSU Lossless Video Codec

Qbit Lossless Codec

SheerVideo

TSCC — TechSmith Screen Capture Codec

WMC — Wavelet Media Codec

Motion JPEG 2000

Сжатие текстов

PPM — архиватор HA (автор Harry Hirvola), использующий алгоритм PPM, известен высокой степенью сжатия на текстовых файлах; по этому параметру он превосходил первые версии появившегося несколько лет спустя RAR. Поэтому популярные в конце 90-х годов компакт-диски наподобие «Библиотека в кармане» использовали именно HA.

Примеры алгоритмов

Семейство алгоритмов Лемпеля-Зива

RLE (Run-length encoding — Кодирование длин серий)

Примеры форматов и их реализаций

универсальные — Zip, 7-Zip, RAR, GZip, PAQ и др.

звук — FLAC (Free Lossless Audio Codec), Monkey's Audio (APE), TTA (True Audio), TTE, LA (LosslessAudio), RealAudio Lossless, WavPack и др.

изображения — BMP, PNG

видео — Huffyuv.

См. также

Сжатие данных с потерями

Сжатие звука без потерь

Примечания

↑ Спецификация TIFF v6

Ссылки

Lossless кодирование видео в Linux

Краткое сравнение распространенных lossless кодеков

Методы сжатия

Теория

Информация Собственная · Взаимная · Энтропия · Условная энтропия · Сложность · Избыточность

Единицы измерения Бит · Нат · Ниббл · Хартли · Формула Хартли

Без потерь

Энтропийное сжатие Алгоритм Хаффмана · Адаптивный алгоритм Хаффмана · Алгоритм Шеннона — Фано · Арифметическое кодирование (Интервальное) · Коды Голомба · Дельта · Универсальный код (Элиаса · Фибоначчи)

Словарные методы RLE · Deflate · LZ (LZ77/LZ78 · LZSS · LZW · LZWL · LZO · LZMA · LZX · LZRW · LZJB · LZT)

Прочее RLE · CTW · BWT · MTF · PPM · DMC

Аудио

Теория Свёртка · PCM · Алиасинг · Дискретизация · Теорема Котельникова

Методы LPC (LAR · LSP) · WLPC · CELP · ACELP · A-закон · μ-закон · MDCT · Преобразование Фурье · Психоакустическая модель

Прочее Компрессор аудиосигнала · Сжатие речи · Полосное кодирование

Изображения

Термины Цветовое пространство · Пиксель · Субдискретизация насыщенности · Артефакты сжатия

Методы RLE · DPCM · Фрактальный · Вейвлетный · EZW · SPIHT · LP · ДКП · ПКЛ

Прочее Битрейт · Test images · PSNR · Квантование

Видео

Термины Характеристики видео · Кадр · Типы кадров · Качество видео

Методы Компенсация движения · ДКП · Квантование · Вейвлетный

Прочее Видеокодек · Rate distortion theory (CBR · ABR · VBR)

Категории:
Сжатие данных
Алгоритмы сжатия без потерь

Игры ⚽ Нужно сделать НИР?

Полезное

Смотреть что такое "Сжатие без потерь" в других словарях:

сжатие без потерь — Метод обратимого сжатия, при котором обеспечивается декомпрессия и точное восстановление исходного сигнала теоретически без снижения качества или потери какой либо части информации. В основе большинства современных методов сжатия информации без… … Справочник технического переводчика
Сжатие без потерь (математика) — Звук является простой волной, а цифровой сигнал является представлением этой волны. Это достигается запоминанием амплитуды аналогового сигнала множество раз в течение одной секунды. Например, в обыкновенном CD сигнал запоминается 44100 раз за… … Википедия
Сжатие звука без потерь — В Википедии … Википедия
Сжатие видео — (англ. Video compression) уменьшение количества данных, используемых для представления видеопотока. Сжатие видео позволяет эффективно уменьшать поток, необходимый для передачи видео по каналам радиовещания, уменьшать пространство,… … Википедия
Сжатие изображений — Сжатие изображений применение алгоритмов сжатия данных к изображениям, хранящимся в цифровом виде. В результате сжатия уменьшается размер изображения, из за чего уменьшается время передачи изображения по сети и экономится пространство для… … Википедия
Сжатие информации — Сжатие информации, компрессия, Шаблон:Англ. data compression алгоритмическое преобразование данных (кодирование), при котором за счет уменьшения их избыточности уменьшается их обьём. Содержание 1 Принципы сжатия информации … Википедия
адаптивное сжатие информации без потерь — — [Л.Г.Суменко. Англо русский словарь по информационным технологиям. М.: ГП ЦНИИС, 2003.] Тематики информационные технологии в целом EN adaptive lossless data compressionALDC … Справочник технического переводчика
Сжатие аудиоданных — В Википедии … Википедия
Сжатие данных — Возможно, эта статья содержит оригинальное исследование. Добавьте ссылки на источники, в противном случае она может быть выставлена на удаление. Дополнительные сведения могут быть на странице обсуждения. (26 мая 2012) … Википедия
Сжатие данных с потерями — У этого термина существуют и другие значения, см. Сжатие. Сжатие данных с потерями метод сжатия (компрессии) данных, при использовании которого распакованные данные отличаются от исходных, но степень отличия не является существенной с точки … Википедия

Словари и энциклопедии на Академике

Сжатие без потерь

Содержание

Сжатие и комбинаторика

Техника сжатия без потерь

Методы сжатия без потерь

Многоцелевые

Сжатие аудио

Сжатие графики

Сжатие видео

Сжатие текстов

Примеры алгоритмов

Примеры форматов и их реализаций

См. также

Примечания

Ссылки

Полезное

Смотреть что такое "Сжатие без потерь" в других словарях:

Поделиться ссылкой на выделенное

Словари и энциклопедии на Академике

Википедия

Сжатие без потерь

Содержание

Сжатие и комбинаторика

Техника сжатия без потерь

Методы сжатия без потерь

Многоцелевые

Сжатие аудио

Сжатие графики

Сжатие видео

Сжатие текстов

Примеры алгоритмов

Примеры форматов и их реализаций

См. также

Примечания

Ссылки

Полезное

Смотреть что такое "Сжатие без потерь" в других словарях:

Поделиться ссылкой на выделенное

Прямая ссылка: