Парсер сайтов из веб архива
- Скачивание файла по ссылке после оплаты
- Передача файла с программой в формате zip-архива
- Инструкция по настройке в наличии
- Карта Сбербанк
- Карта Халва
- Юмани
Archive-Master v 0.0.1 — это мощная утилита для создания офлайн-копий сайтов из веб-архива. Программа позволяет извлекать сохранённые версии страниц за определённый период времени и автоматически восстанавливать структуру сайта на локальном компьютере. Это удобный инструмент для анализа, резервного копирования, SEO-исследований и работы с историческими версиями веб-ресурсов.
Главное преимущество программы — автоматизация сложного процесса парсинга. Пользователю достаточно указать домен и диапазон дат, после чего скрипт самостоятельно найдёт доступные снимки страниц в Web Archive и начнёт их загрузку. В результате вы получаете полностью рабочую офлайн-версию сайта с сохранёнными страницами, изображениями, стилями и скриптами.
Работа программы начинается с простой авторизации: ввод пароля ограничивает доступ к инструменту. Далее пользователь вводит домен без протокола, а также даты «от» и «до» в формате ГГГГММДД. Эти параметры используются для поиска нужных снимков сайта в архиве.
После этого создаётся структура папок на компьютере — основная директория OFFLINE_SITE и подпапка assets для хранения всех вспомогательных файлов (картинок, CSS, JS). Программа начинает обход сайта с главной страницы, добавляя найденные ссылки в очередь обработки.
Для каждой страницы выполняется несколько этапов:
- Сначала происходит запрос к API Web Archive, чтобы получить актуальный snapshot страницы за выбранный период.
- Затем скачивается HTML-код страницы из архива.
- С помощью BeautifulSoup происходит очистка HTML от лишних элементов (например, iframe и скриптов).
- Далее программа автоматически скачивает все ресурсы страницы: изображения, стили и JavaScript-файлы, сохраняя их локально.
- Все ссылки внутри HTML переписываются таким образом, чтобы сайт корректно работал офлайн без доступа к интернету.
Каждая страница сохраняется в отдельный HTML-файл, а структура ссылок адаптируется под локальное использование. При этом программа отслеживает уже обработанные страницы, чтобы избежать повторной загрузки и зацикливания.
Встроенный механизм повторных запросов (retry) делает загрузку стабильной даже при временных сбоях сети или ограничениях со стороны сервера. Небольшие задержки между запросами помогают избежать блокировок.
В итоге пользователь получает полноценную офлайн-копию сайта, которую можно открыть в браузере без подключения к интернету. ArchiveMaster отлично подходит для веб-мастеров, SEO-специалистов, разработчиков и всех, кому важно сохранить или проанализировать структуру сайта в прошлом.
Это простой, но эффективный инструмент, который превращает архив интернета в удобный источник данных для работы и исследований.