Самозанятый:
Ефремов Сергей Владимирович
ИНН 732611515654

Парсер сайтов из веб архива

Артикул: 564889
( 0 )
Нет на складе
Есть в наличии
0,00 руб
5 000,00 руб
+
Способы доставки
  • Скачивание файла по ссылке после оплаты
  • Передача файла с программой в формате zip-архива
  • Инструкция по настройке в наличии
Способы оплаты
  • Карта Сбербанк
  • Карта Халва
  • Юмани
Описание

Archive-Master v 0.0.1 — это мощная утилита для создания офлайн-копий сайтов из веб-архива. Программа позволяет извлекать сохранённые версии страниц за определённый период времени и автоматически восстанавливать структуру сайта на локальном компьютере. Это удобный инструмент для анализа, резервного копирования, SEO-исследований и работы с историческими версиями веб-ресурсов.

Главное преимущество программы — автоматизация сложного процесса парсинга. Пользователю достаточно указать домен и диапазон дат, после чего скрипт самостоятельно найдёт доступные снимки страниц в Web Archive и начнёт их загрузку. В результате вы получаете полностью рабочую офлайн-версию сайта с сохранёнными страницами, изображениями, стилями и скриптами.

Работа программы начинается с простой авторизации: ввод пароля ограничивает доступ к инструменту. Далее пользователь вводит домен без протокола, а также даты «от» и «до» в формате ГГГГММДД. Эти параметры используются для поиска нужных снимков сайта в архиве.

После этого создаётся структура папок на компьютере — основная директория OFFLINE_SITE и подпапка assets для хранения всех вспомогательных файлов (картинок, CSS, JS). Программа начинает обход сайта с главной страницы, добавляя найденные ссылки в очередь обработки.

Для каждой страницы выполняется несколько этапов:

  • Сначала происходит запрос к API Web Archive, чтобы получить актуальный snapshot страницы за выбранный период.
  • Затем скачивается HTML-код страницы из архива.
  • С помощью BeautifulSoup происходит очистка HTML от лишних элементов (например, iframe и скриптов).
  • Далее программа автоматически скачивает все ресурсы страницы: изображения, стили и JavaScript-файлы, сохраняя их локально.
  • Все ссылки внутри HTML переписываются таким образом, чтобы сайт корректно работал офлайн без доступа к интернету.

Каждая страница сохраняется в отдельный HTML-файл, а структура ссылок адаптируется под локальное использование. При этом программа отслеживает уже обработанные страницы, чтобы избежать повторной загрузки и зацикливания.

Встроенный механизм повторных запросов (retry) делает загрузку стабильной даже при временных сбоях сети или ограничениях со стороны сервера. Небольшие задержки между запросами помогают избежать блокировок.

В итоге пользователь получает полноценную офлайн-копию сайта, которую можно открыть в браузере без подключения к интернету. ArchiveMaster отлично подходит для веб-мастеров, SEO-специалистов, разработчиков и всех, кому важно сохранить или проанализировать структуру сайта в прошлом.

Это простой, но эффективный инструмент, который превращает архив интернета в удобный источник данных для работы и исследований.

Отзывы
Пока нет комментариев
Написать отзыв
Имя*
Email
Введите комментарий*