Методы сжатия информации

Методы сжатия информации

Сжатие данных — процедура перекодирования данных, производимая с целью уменьшения их объёма. Применяется для более рационального использования устройств хранения и передачи данных.

Сжатие бывает без потерь (когда возможно восстановление исходных данных без искажений) или с потерями (восстановление возможно с искажениями, несущественными с точки зрения дальнейшего использования восстановленных данных). Сжатие без потерь обычно используется при обработке компьютерных программ и данных, реже — для сокращения объёма звуковой, фото- и видеоинформации. Сжатие с потерями применяется для сокращения объёма звуковой, фото- и видеоинформации, оно значительно эффективнее сжатия без потерь.

Сжатие основано на устранении избыточности информации, содержащейся в исходных данных. Примером избыточности является повторение в тексте фрагментов (например, слов естественного или машинного языка). Подобная избыточность обычно устраняется заменой повторяющейся последовательности более коротким значением (кодом). Другой вид избыточности связан с тем, что некоторые значения в сжимаемых данных встречаются чаще других, при этом возможно заменять часто встречающиеся данные более короткими кодами, а редкие — более длинными (вероятностное сжатие). Сжатие данных, не обладающих свойством избыточности (например, случайный сигнал или шум), невозможно без потерь. Также, обычно невозможно сжатие зашифрованной информации.

Содержание

Алгоритмы сжатия текстов/файлов неизвестного формата

Имеется 2 основных подхода к сжатию файлов неизвестного формата.

  • На каждом шаге алгоритма сжатия либо следующий символ помещается как есть (со специальным флагом помечающим, что он не сжат), либо указываются границы слова из предыдущего куска, которое совпадает со следующими символами файла. Разархивирование сжатых таким образом файлов выполняется очень быстро, поэтому эти алгоритмы используются для создания самораспаковывающихся программ.
  • Для каждой последовательности в каждый момент времени собирается статистика её встречаемости в файле. На основе этой статистики вычисляется вероятность значений для очередного символа. После этого можно применять ту или иную разновидность статистического кодирования, например, арифметическое кодирование или кодирование Хаффмана для замены часто встречающихся последовательностей на более короткие, а редко встречающихся — на более длинные.

Библиография

  • Д. Ватолин, А. Ратушняк, М. Смирнов, В. Юкин. Методы сжатия данных. Устройство архиваторов, сжатие изображений и видео. — Диалог-МИФИ, 2002. — С. 384. — ISBN 5-86404-170-X 3000 экз.
  • Д. Сэломон. Сжатие данных, изображения и звука. — М.: Техносфера, 2004. — С. 368. — ISBN 5-94836-027-X 3000 экз.

См. также

Ссылки


Wikimedia Foundation. 2010.

Игры ⚽ Поможем написать реферат

Полезное


Смотреть что такое "Методы сжатия информации" в других словарях:

  • МЕТОДЫ КЛАССИФИКАЦИИ — совокупность методов статистич. многомерного анализа. В зависимости от того, в какой области научн. знаний М.к. возникли и получили свое развитие, они наз. методами многомерной классификации, таксономии, кластерного анализа, группировки,… …   Российская социологическая энциклопедия

  • МЕТОДЫ КЛАССИФИКАЦИИ — – составная часть методов многомерного анализа. М. к. заключаются в разбиении совокупности объектов на отдельные классы так, что объекты, отнесенные к одному классу, считаются похожими, однотипными, близкими, а отнесенные к разным классам –… …   Энциклопедический словарь по психологии и педагогике

  • ИНФОРМАЦИИ ТЕОРИЯ — раздел математики, исследующий процессы хранения, преобразования и передачи информации. В основе его лежит определенный способ измерения количества информации. Возникшая из задач теории связи, теория информации иногда рассматривается как… …   Энциклопедия Кольера

  • Сжатие информации — Сжатие информации, компрессия, Шаблон:Англ. data compression  алгоритмическое преобразование данных (кодирование), при котором за счет уменьшения их избыточности уменьшается их обьём. Содержание 1 Принципы сжатия информации …   Википедия

  • Избыточность информации — В этой статье не хватает ссылок на источники информации. Информация должна быть проверяема, иначе она может быть поставлена под сомнение и удалена. Вы можете …   Википедия

  • Алгоритм сжатия PPM — У этого термина существуют и другие значения, см. Ppm. PPM (англ. Prediction by Partial Matching  предсказание по частичному совпадению)  адаптивный статистический алгоритм сжатия данных без потерь, основанный на контекстном… …   Википедия

  • Нат (единица измерения информации) — Нат больше бита, но немного меньше трита. Жёлтая кривая  график логарифма. Нат  одна из единиц измерения информации. Определяется через натуральный логарифм, в отличие от других единиц, где основание логарифма является целым числом. Применяется в …   Википедия

  • Нат (Единица измерения информации) — Нат больше бита, но немного меньше трита. Жёлтая кривая  график логарифма. Нат  одна из единиц измерения информации. Определяется через натуральный логарифм, в отличие от других единиц, где основание логарифма является целым числом. Применяется в …   Википедия

  • Нат (теория информации) — У этого термина существуют и другие значения, см. Нат. Единицы измерения информации бит, нат, трит и бан (децит) Нат  одна из единиц измерения информации. Определяется через натуральный …   Википедия

  • Кодирование звуковой информации — Эту статью следует викифицировать. Пожалуйста, оформите её согласно правилам оформления статей. В основе кодирования звука с использованием ПК лежит процесс преобразования колебаний воздуха в колебания электрическог …   Википедия


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»