Архивирование веб-сайтов

Архивирование веб-сайтов

Архивирование веб-сайтов — сохранение текущей версии сайта в архиве.

Сайты в Интернет могут исчезнуть по ряду разных причин. Материалы сайтов изменяются с течением времени — текст может быть переписан или удалён. В связи с этим актуальна проблема сохранения версии сайта. Существует несколько сервисов, ведущих архивацию на постоянной основе.

Содержание

Архив Интернета

В 1996 году была основанна некоммерческая организация «Архив Интернета» (англ. Internet Archive). Архив собирает копии веб-страниц, графические материалы, видео-, аудиозаписи и программное обеспечение. Архив обеспечивает долгосрочное архивирование собранного материала и бесплатный доступ к своим базам данных для широкой публики. Размер Архива — 2 петабайта[1]. Он содержит 85 миллиардов веб-страниц.[2] Сервер Архива расположен в Сан-Франциско, зеркала — в Новой Александрийской библиотеке и Амстердаме. С 2007 г. Архив имеет юридический статус библиотеки. Основной веб-сервис архива — The Wayback Machine. Содержание веб-страниц фиксируется с временны́м промежутком c помощью бота. Таким образом, можно посмотреть, как выглядела та или иная страница раньше, даже если она больше не существует.

WebCite

«WebCite» — интернет-сервис, который выполняет архивирование веб-страниц по запросу. Впоследствии на заархивированную страницу можно сослаться через url. Пользователи имеют возможность получить архивную страницу в любой момент и без ограничений, и при этом неважен статус и состояние оригинальной веб-страницы, с которой была сделана архивная копия. В отличие от Архива Интернета, WebCite не использует веб-краулеров для автоматической архивации всех подряд веб-страниц. WebCite архивирует страницы только по прямому запросу пользователя. WebCite архивирует весь контент на странице — HTML, PDF, таблицы стилей, JavaScript и изображения. WebCite также архивирует метаданные о архивируемых ресурсах, такие как время доступа, MIME-тип и длину контента. Эти метаданные полезны для установления аутентичности и происхождения архивированных данных. Пилотный выпуск сервиса был выпущен в 1998 году, возрождён в 2003.

Peeep.us

Сервис Peeep.us позволяет сохранить копию страницы по запросу пользования, в том числе и из авторизованной зоны, которая потом доступна по сокращённому URL. Реализован на Google App Engine.

Сервис peeep.us, в отличие от ряда других аналогичных сервисов, получает данные на клиентской стороне — то есть, не обращается напрямую к сайту, а сохраняет то содержимое сайта, которое видно пользователю. Это может использоваться для того, чтобы можно было поделиться с другими людьми содержимым закрытого для посторонних ресурса. Таким образом, peeep.us не подтверждает, что по указанному адресу в указанный момент времени действительно было доступно заархивированное содержимое. Он подтверждает лишь то, что у инициировавшего архивацию по указанному адресу в указанный момент времени подгружалось заархивированное содержимое[3]. Таким образом, Peeep.us нельзя использовать для доказательства того, что когда-то на сайте была какая-то информация, которую потом намеренно удалили (и вообще для каких-либо доказательств)[4].

Archive.is

Сервис archive.is позволяет сохранить по запросу пользователя не только основной html-текст веб-страницы, но также и все изображения, стили, фреймы и используемые шрифты. Кроме того, archive.is умеет сохранять страницы с Web2.0-сайтов, например с twitter.com.

Mirrorrr

Сервис mirrorrr.appspot.com реализован на Google App Engine.

Hiyo.jp

Японский сервис hiyo.jp одновременно предоставляет короткую и длинную ссылки на архивированный материал.

Веб-гётаку

Японский сервис megalodon.jp действует с 2006 года. Следует указаниям robots.txt.

Поисковые системы

Поисковики собирают страницы интернета для выполнения своего основного предназначения, и многие из них заодно дают доступ к сохранённым копиям, представляя собой поверхностный во временном смысле архив.

Оффлайн-браузеры

Для частного архива можно использовать один из оффлайн-браузеров, которые специально спроектированы на преимущественную работу в оффлайн-режиме — создании локальных копий веб-страниц и сайтов.

Примечания

Ссылки


Wikimedia Foundation. 2010.

Игры ⚽ Нужно сделать НИР?

Полезное


Смотреть что такое "Архивирование веб-сайтов" в других словарях:

  • Хаббл (телескоп) — У этого термина существуют и другие значения, см. Хаббл. Космический телескоп «Хаббл» Вид «Хаббла» с борта космического корабля «Атлантис» STS 125 Организация …   Википедия

  • КТХ — Космический телескоп «Хаббл» Вид «Хаббла» с борта космического корабля «Атлантис» STS 125 Организация: НАСА/ЕКА Волновой диапазон: видимый, ультрафиолетовый, инфракрасный NSSDC ID …   Википедия

  • Космический телескоп «Хаббл» — Вид «Хаббла» с борта космического корабля «Атлантис» STS 125 Организация: НАСА/ЕКА Волновой диапазон: видимый, ультрафиолетовый, инфракрасный NSSDC ID …   Википедия

  • Космический телескоп Хаббла — Космический телескоп «Хаббл» Вид «Хаббла» с борта космического корабля «Атлантис» STS 125 Организация: НАСА/ЕКА Волновой диапазон: видимый, ультрафиолетовый, инфракрасный NSSDC ID …   Википедия

  • Космический телескоп имени Хаббла — Космический телескоп «Хаббл» Вид «Хаббла» с борта космического корабля «Атлантис» STS 125 Организация: НАСА/ЕКА Волновой диапазон: видимый, ультрафиолетовый, инфракрасный NSSDC ID …   Википедия

  • Орбитальный телекоп им. Хаббла — Космический телескоп «Хаббл» Вид «Хаббла» с борта космического корабля «Атлантис» STS 125 Организация: НАСА/ЕКА Волновой диапазон: видимый, ультрафиолетовый, инфракрасный NSSDC ID …   Википедия

  • Хаббл (космический телескоп) — Космический телескоп «Хаббл» Вид «Хаббла» с борта космического корабля «Атлантис» STS 125 Организация: НАСА/ЕКА Волновой диапазон: видимый, ультрафиолетовый, инфракрасный NSSDC ID …   Википедия

  • Pricer.kz — Эта статья или раздел носит ярко выраженный рекламный характер. Это не соответствует правилам Википедии. Вы можете помочь проекту, исправив текст согласно стилистическим рекомендациям Википедии …   Википедия

  • Blogger — URL …   Википедия


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»