Зміст статті

Веб-архів (або web archive) – це сервіс, який дозволяє зберігати і відтворювати різні версії веб-сторінок за різні періоди часу. Одним з найбільш відомих і широко використовуваних веб-архівів є Web Archive та його інструмент Wayback Machine. Цей архів ставить перед собою мету збереження історії Інтернету, забезпечуючи доступ до старих версій веб-сайтів, які могли бути змінені або видалені.
Історія створення Web Archive та Wayback Machine
Internet Archive був створений у 1996 році Брюстером Кейлом, американським бібліотекарем та підприємцем. Мета цього проєкту – створити цифрову бібліотеку, яка буде зберігати всі знання людства у вільному доступі. Сервіс, запущений у 2001 році, став одним з ключових інструментів Internet Archive, який надає можливість переглядати архівовані копії веб-сторінок.
Як працює веб-архів?
Веб-архів працює шляхом регулярного збереження копій веб-сторінок з різних сайтів. Ці копії зберігаються у форматі, який дозволяє користувачам відтворювати їх у майбутньому. Процес збереження веб-сторінок може бути автоматичним або ініційованим користувачами.
Основні етапи роботи веб-архіву:
- Збирання контенту. Wayback Machine регулярно сканує Інтернет і зберігає копії доступних веб-сторінок. Цей процес називається «краулінг» (crawling) і включає збереження HTML-коду сторінки, зображень, стилів та інших ресурсів, необхідних для її відтворення. Крім автоматичного краулінгу, користувачі також можуть вручну додавати сторінки до архіву, використовуючи інструмент «Save Page Now».
- Збереження та індексація. Після того, як сторінка була зібрана, вона зберігається на серверах Internet Archive. Сторінка отримує унікальну URL-адресу у форматі web.archive.org, де користувачі можуть переглядати збережені копії веб-сторінок за конкретні дати.
- Відтворення сторінок. Коли користувач вводить URL у пошуковий рядок Wayback Machine, архів показує доступні версії цієї сторінки. Користувачі можуть вибирати конкретну дату і переглядати, як виглядала сторінка на той момент. Відтворення відбувається максимально наближено до оригінального вигляду, з урахуванням збережених стилів, зображень та інших ресурсів.
Практичне використання веб-архіву
Одним із ключових аспектів використання веб-архіву є можливість оцінити зміни в дизайні, структурі та контенті сайту, що допомагає зрозуміти його еволюцію. Це корисно як для аналізу конкурентів, так і для оптимізації власних ресурсів. Дослідження попередніх версій ресурсів дає змогу виявити ефективні стратегії, які використовувалися раніше.
Відновлення втраченого контенту через веб-архів
Іншою важливою функцією web archive є можливість відновлення втраченого контенту. У ситуаціях, коли сайт був зламаний, або його сторінки було випадково видалено, веб-архів стає джерелом для відновлення необхідної інформації. Це особливо корисно для блогів, інтернет-магазинів або інформаційних ресурсів, де старий контент може бути все ще актуальним для аудиторії. З допомогою веб-архіву можна знайти та відновити статті, опис товарів чи інші цінні матеріали.
Аналіз історії домену (history) перед купівлею
Перед купівлею нового домену важливо провести детальний аналіз його history. Використовуючи web archive, можна дізнатися, як використовувався домен у минулому: яку тематику він мав, чи не був пов’язаний із сумнівними практиками або спамом. Такий аналіз допомагає уникнути ризиків, пов’язаних із придбанням домену, що може мати негативну репутацію або історію, яка вплине на його SEO-показники.
Щоб почати працювати з інструментом спершу потрібно перейти за посиланням – https://web.archive.org/. Це головна сторінка веб-архіву.
Щоб переглянути архівні дані певного сайту, його url-адресу потрібно ввести у пошуковий рядок.
Що можна побачити на зображенні:
- Адресу веб-сайту. На екрані введено адресу «https://wedex.com.ua/» в пошуковий рядок Wayback Machine.
- Кількість збережених версій. На майданчику збережено 158 версій між 4 лютого 2018 року і 11 липня 2024 року.
- Графік архівації. Верхня частина зображення показує графік, де відображені роки з 2001 по 2024 рік. На цьому графіку можна побачити кількість збережених версій за кожен рік. Найбільше активних збережень було в період з 2021 по 2024 роки.
- Календар. Нижче наведений календар на 2024 рік, де можна побачити, на які конкретні дати зберігалися версії сайту. Наприклад, він зберігався 11 липня 2024 року, 30 квітня 2024 року і в інші дати.
Напевно, ви задаєтеся питанням: що це за кольорові круги на цифрах, та чому у них різні розміри?
Ці «круги» іншим словом можна назвати «маркери». Вони позначені одним із чотирьох кольорів:
- синій колір вказує на те, що вебкраулер отримав відповідь з кодом 200 OK, тобто ресурс працював стабільно;
- зелений колір свідчить про код 3xx — під час створення копії на сайті був налаштований редирект;
- помаранчевий і червоний кольори сигналізують про те, що вебресурс був недоступний, і вебкраулер отримав код помилки 4xx або 5xx.
Розмір кола залежить від кількості запитів робота веб-архіву до сторінки в цей день. Чим більше коло, тим більше копій було створено вебкраулером.
Нехай, ви хочете глянути архів веб-сторінки за 23 квітня 2024 року. Просто наведіть мишкою на це число і виберіть зі списку потрібну версію.
Крім посилання, у пошуковому рядку можна писати ключове слово – тоді ви зможете отримати список сайтів, які просуваються по ньому.
Як ще можна працювати з веб-архівом
Цей сервіс має ще декілька додаткових функції. Щоб отримати до них доступ – просто натисніть на те, що вам потрібно.
Collections (Колекції):
- ця вкладка надає доступ до різних тематичних колекцій, які зібрані в Internet Archive. Вони можуть включати архіви певних веб-сайтів, тематичні збори матеріалів, документи, мультимедіа та інші типи цифрового контенту.
Changes (Зміни):
- вкладка «Зміни» показує, які зміни були зафіксовані на порталі протягом часу. Тут можна побачити порівняння різних версій веб-сторінок і зрозуміти, які саме елементи на сторінці змінювалися. Щоб побачити порівняння потрібно обрати знімки сайту за потрібний вам період і натиснути на кнопку «Compare».
Summary (Зведення):
- ця вкладка надає загальний огляд історії архівування майданчика. Тут можна знайти загальні статистичні дані, такі як кількість збережених копій сторінки, активність веб-краулера на сайті та інші важливі відомості.
Site Map (Карта сайту):
- ця вкладка надає структуровану карту збереженого ресурсу. Вона дозволяє побачити, як організовані сторінки на сайті та швидко перейти до потрібного розділу чи сторінки.
URLs (URL-адреси):
- вкладка «URL-адреси» показує список усіх збережених URL-адрес на порталі, які були заархівованими. Це дозволяє переглянути конкретні сторінки або ресурси, які були збережені в архіві.
Як зберегти поточну версію сайту у веб-архіві?
Зберігання поточної версії сайту у web archive є досить простим процесом. Для цього необхідно перейти на сторінку Internet Wayback Machine і ввести URL веб-сайту, який потрібно зберегти. Після цього натисніть кнопку «Save Page Now», і ваш майданчик буде доданий до archive org web. Це дозволить зберегти його актуальну версію для майбутнього використання, що може бути корисним для відстеження змін або збереження важливого контенту.
Як заборонити додавання сайту до веб-архіву?
Якщо ви:
- турбуєтесь про те, що старі версії ваших веб-сторінок можуть містити конфіденційну інформацію, яка не повинна бути доступною широкому загалу;
- не бажаєте, щоб хтось використовував ваш контент у своїх цілях;
- хочете видалити особисту інформацію з відкритого доступу – обов’язково потрібно заборонити додавання веб ресурсу.
Існує 2 способи як це зробити.
Перший – звернутися до його служби підтримки. Якщо ви звернетеся до служби підтримки, вся наявна інформація про ваш сайт буде видалена з інтернет-архіву, а вебкраулери не будуть сканувати його у майбутньому.
Для того, щоб запросити повне видалення вашого майданчику з веб-архіву, надішліть лист на адресу info@archive.org, вказавши у повідомленні доменне ім’я вашого сайту.
Другий – додати запис у файл robots.txt. Тільки із цим способом є один нюанс – файл robots.txt дозволяє лише приховати контент від вебкраулерів. Це означає, що роботи не будуть сканувати ваш сайт і ,відповідно, інформація не потрапить у архів, але матеріал, який існував до заборони, збережеться, і користувачі зможуть подивитися, як ресурс виглядав раніше.
Нижче показаний приклад запиту для файлу robots.txt:
User-agent: ia_archiver
Disallow: /
User-agent: ia_archiver-web.archive.org
Disallow: /
Важливо, аби файл був у кореневому каталозі вашого домену!
Як відновити сайт із веб-архіву?
Відновлення сайту з web archive може бути корисним, якщо ваш веб-портал був видалений або втратив частину контенту. Для цього достатньо знайти відповідну версію сайту у Internet Wayback Machine та скопіювати потрібний контент або структуру вручну. Хоча це не є повним відновленням, оскільки відсутні серверні скрипти та бази даних, ви зможете відновити статичний контент та деякі важливі елементи дизайну ресурсу. Також можна скопіювати контент за допомогою скрипта або звернутися до відповідних служб.
- Ручне копіювання
Цей спосіб потребує багато часу, тому що веб-архів немає функції резервної копії всього сайту. Доведеться вручну копіювати кожну сторінку сайту і зберігати в текстові редактори. Проте завдяки цьому способу можна зберегти структуру заголовків, зображення та навіть базовий стиль сторінки. Копіювати контент можна за допомогою команди Ctrl+C, Ctrl+V або натиснути кнопку F12 та копіювати програмний код.
- Копіювання за допомогою скриптів
Існують різноманітні скрипти на Python, які автоматизують процес завантаження вмісту з Wayback Machine. Одині із популярних скриптів – це wayback-machine-downloader, Wayback Machine Scraper, Wayback Scraper. Щоб використати їх, потрібно спершу встановити необхідні інструменти, такі як Python, та виконати інсталяцію скрипту через пакетний менеджер (наприклад, pip). У файлі README за посиланнями є покрокова інструкція інсталяції та наступних кроків. Це дуже допоможе оптимізувати час і роботу.
- Використання сторонніх служб
Ця послуга вже буде платною, тому що доведеться звернутися до організацій чи спеціалізованих сайтів. Найпопулярнішими службами є Archivarix, Wayback Machine Downloader.
Підведемо підсумки
Web archive є незамінним інструментом для збереження та перегляду історичних версій веб-сайтів. За допомогою Internet Wayback Machine можна легко перевірити, як змінювався майданчик протягом часу, зберігати його поточну версію або навіть відновлювати втрачені дані. Водночас, якщо є необхідність захистити свій сайт від архівації, існують методи для заборони додавання його до web archive. Оволодіння цими навичками допоможе ефективно керувати своїм ресурсом і забезпечувати збереження важливої цифрової історії.





