Strony www

Agencja SEO i SEM > Blog > Archive.org Wayback Machine – internetowa podróż w czasie

Archive.org Wayback Machine – internetowa podróż w czasie

3 marca 2020

Archive.org Wayback Machine – internetowa podróż w czasie

Czy można przenieść się w czasie? W internecie jest to możliwe dzięki Wayback Machine. Sprawdźmy, jak działa i w czym może pomóc to ogromne cyfrowe archiwum.

Internet Archive – multimedialne archiwum

Powstałe w 1996 roku Internet Archive to organizacja non profit, której głównym celem jest gromadzenie materiałów multimedialnych. Do zbiorów fundacji Internet Archive należy biblioteka książek i filmów, zapisy nagrań telewizyjnych i różne wersje wszelakich oprogramowań. Zgromadzone zasoby są bezpłatnie udostępniane w celach edukacyjnych. Z materiałów mogą korzystać przede wszystkim historycy i badacze naukowi. Według informacji podanych na stronie serwisu archive.org archiwum zawiera:

411 miliardów stron internetowych,
23 miliony książek,
9,3 miliona nagrań,
5,5 miliona materiałów video (w tym także programów telewizyjnych),
3,4 miliona grafik,
523 tysiące wersji różnego oprogramowania.

fundacja Internet Archive

Źródło: archive.org

Część archiwum jest dostępna dla każdego z nas. Mowa tutaj o wspomnianym we wstępie Wayback Machine, czyli pewnego rodzaju wehikule czasu w świecie stron internetowych.

Czym jest Wayback Machine?

Wayback Machine to archiwum cyfrowe, gromadzące kopie (snapshots) stron internetowych z różnych dni i godzin. Zasoby są pozyskiwane metodą crawlingu. Podobnie jak w procesie indeksowania stron w Google, za przeskanowanie i pobranie danych odpowiedzialne są roboty sieciowe. W archiwum znajdziemy kopie witryn z wielu przedziałów czasowych. Po wpisaniu w wyszukiwarkę archive.org danego adresu strony www otrzymujemy oś czasu – z podziałem na lata, miesiące, dni, a nawet godziny, jeśli roboty skanowały daną stronę więcej niż raz dziennie. Częstotliwość wykonywania snapshotów różni się pomiędzy poszczególnymi serwisami. Wynika to m.in. z faktu, że cały proces polega na analizie ogromnej liczby danych i kilka crawlów odbywa się jednocześnie, a pełna analiza może trwać nawet kilkanaście dni.

czym jest Wayback Machine

Źródło: archive.org

Powyższy zrzut ekranu pokazuje widok osi czasu wraz ze snapshotami (wykonanymi kopiami strony). Niebieskie oznaczenia to dni, w których zostały wykonane, natomiast na zielono odnotowano przekierowania 301. Mogą pojawić się także oznaczenia czerwone – najczęściej informujące o błędzie serwera lub pomarańczowe, gdy podjęto próbę archiwizacji nieistniejącej już podstrony (np. 404). Należy także pamiętać, że poniższy kalendarz nie oznacza, ile razy dana strona była aktualizowana, ale ile razy została przeskanowana przez Wayback Machine.

Czy można zapisać cały internet?

Jak mówi współzałożyciel Internet Archive Brewster Kahle, główną ideą, która towarzyszy działalności organizacji jest fakt, że społeczeństwa od wieków przywiązują szczególną wagę do zachowania śladów swojego dziedzictwa kulturowego. Dzięki takim „pocztówkom” z przeszłości możemy uczyć się na błędach, a także czerpać inspiracje dla aktualnych spraw. Zasoby zamieszczane w sieci charakteryzują się dużą ulotnością. Dotyczy to zwłaszcza linków i treści. Z powodu obszerności zbiorów, Internet Archive i Wayback Machine są często porównywane do Biblioteki Aleksandryjskiej, która była największym zbiorem tekstów starożytnego świata.

Czy można zatem zachować wszystko, co jest zamieszczane w internecie? Jeśli chodzi o Wayback Machine mamy pewne ograniczenia związane ze skanowaniem stron. Podobnie jak w przypadku robotów wyszukiwarek internetowych, barierę stanowią wszelkie blokady i dyrektywy umieszczane w pliku robots.txt, a także tagi meta robots dodawane w kodzie źródłowym serwisu. Przeszkodę stanowią również adresy, w których konieczne jest logowanie, hasło itd. Archiwum Wayback Machine gromadzi tylko to, co jest dostępne publicznie.

jak działa Wayback Machine

Źródło: archive.org

Wayback Machine na co dzień

Cyfrowe archiwum archive.org można wykorzystywać na wiele sposobów. Przede wszystkim, pokazuje nam historyczny zarys tego, jak wyglądał i zmieniał się dany serwis przez lata. Może to być pomocne przy analizie, jak rozwój witryny wpłynął na rozwój biznesu, a także jak rozwój firmy przyczyniał się do zmian na stronie internetowej. Dzięki takiemu archiwum mamy możliwość poznania historii Klienta. Przeglądanie poszczególnych kopii strony pozwoli zobaczyć, jak zmieniał się serwis i jak wyglądała poprzednia oferta. Stanowi to atut zwłaszcza wtedy, gdy współpraca dopiero się rozpoczyna. Przy budowaniu nowej relacji z klientem może okazać się to bardzo pomocne. W sytuacjach spornych, kiedy doszło do zmian na stronie, zrzuty na archive.org można wykorzystać jako dowód wykonania takich modyfikacji. Wszakże archiwum Wayback Machine to przede wszystkim aspekty techniczne, które możemy wykorzystać w procesie przebudowy serwisu i jego pozycjonowania.

Archive.org a SEO

Jeśli chodzi o pozycjonowanie stron internetowych, Wayback Machine możemy wykorzystać przynajmniej na kilka sposobów. Poniżej przykładowe elementy, których analizę ułatwia archive.org.

Sprawdzenie historii domeny

Przechwycenie domeny z historią, a do tego z rozbudowanym profilem linkowym o dobrej jakości, to często wymarzony start, jeśli budujemy nowy serwis i rozpoczynamy przygodę z jego pozycjonowaniem. O ile profil linkowy sprawdzimy za pomocą takich narzędzi jak Ahrefs czy Majestic, o tyle nie pokażą one tego, co znajdowało się wcześniej na wykupionej domenie. Dzięki Wayback Machine i dostępnym zrzutom możemy sprawdzić, jakie treści znajdowały się na podstronach, a także jak wyglądała struktura danego serwisu. W przypadku działalności o tym samym profilu, co dawna zawartość domeny, możemy także pokusić się o analizę, czy posiadała ona elementy warte odtworzenia na naszej stronie.

Spadki ruchu

Jeśli w innym narzędziu (jak np. Semstorm czy Google Analytics), zauważymy zmniejszenie ruchu, warto z pomocą Wayback Machine przeanalizować snapshoty z okresu poprzedzającego spadek. Być może znajdziemy coś, co zostało zmienione lub zniknęło z serwisu. Dzięki kopiom wykonywanym przez serwis sprawdzimy, czy strona nie została zainfekowana przez wirusy.

Problemy z indeksowaniem

W przypadku problemów z indeksowaniem możemy postąpić analogicznie do punktu pierwszego, ponieważ Wayback Machine wśród zaindeksowanych zbiorów będzie miał także plik robots.txt. Dzięki temu sprawdzimy, czy nie doszło do zmian w jego obrębie, które przyczyniły się do problemów z indeksowaniem i kiedy takowe się zaczęły.

Przekierowania i niedziałające linki

Wayback Machine pozwala także na wychwycenie starych linków, dzięki którym będziemy mogli doprecyzować mapę przekierowań w trakcie przebudowy serwisu. Jeżeli zostały wykonane odpowiednie snapshoty, możemy także przejrzeć stare przekierowania, które były wprowadzane w serwisie. Ich analiza pozwoli na wyciągnięcie wniosków na temat ich wpływu na kondycję serwisu.

Poprawna implementacja kodu Google Analytics

Ponieważ Wayback Machine archiwizuje także kod źródłowy stron, możemy prześledzić jego strukturę. Okazuje się to przydatne zwłaszcza w kontekście wdrożenia kodu Google Analytics. Sprawdzimy, czy został wdrożony poprawnie i czy pojawiał się na każdej podstronie serwisu. Jest to istotne zwłaszcza wtedy, kiedy trafimy na niejasności względem statystyk ruchu serwisu.

Analiza contentu

Zdarza się też tak, że przy wprowadzaniu zmian czy większej przebudowie serwisu nieumyślnie usuniemy wartościowy content. Dzięki kopiom wykonanym przez Wayback Machine odzyskamy treści i wdrożymy je ponownie. Ponadto, badając daną podstronę na przestrzeni czasu, możemy wyciągnąć wnioski, jakiego rodzaju content wpływał na wyniki, które osiągała witryna. Dzisiaj wartościowe treści to jeden z ważniejszych elementów, jeśli chodzi o zaistnienie w wyszukiwarce Google, dlatego warto to mieć na uwadze i monitorować, które najlepiej się sprawdzają.

Analiza struktury serwisu

Na archive.org jest także dostępny moduł Site Map, dzięki któremu zobaczymy, jak rozwijała się struktura serwisu i jak wyglądają jego zagłębienia. Jest to pomocne zwłaszcza w sytuacji, kiedy chcemy przeanalizować, których stron brakuje w nawigacji i zaplanować ewentualne zmiany.

analiza struktury serwisu za pomocą Wayback Machine

Źródło: archive.org

Archive.org – wartość historyczna i technologiczna

Dzięki kopiom strony internetowej i zapisowi dnia i godziny, otrzymujemy uporządkowaną historię zmian w serwisach internetowych. To duża wartość z punktu widzenia zachowywania cyfrowych nośników pamięci, a także pomoc w realizacji serwisów internetowych i promowania ich wśród użytkowników. Wayback Machine nie da oczywiście pełnego obrazu na temat strony www. Nieobsługiwane już technologie czy rzadka częstotliwość crawlowania mogą zaburzyć wygląd stron, ale sama analiza już stanowi pewnego rodzaju punkt zaczepienia podczas dalszych dociekań. Dodatkowo wsparcie w postaci innych narzędzi analitycznych pozwoli lepiej zrozumieć specyfikę danego serwisu i wyciągać trafniejsze wnioski na temat jego kondycji.

Archive.org to także wspaniała lekcja historii przemian samego internetu i technologii używanych na stronach www. Przeglądanie poszczególnych snapshotów uświadamia nam, jak wiele zmian zaszło w sieci i jak szybkie było ich tempo. Na koniec ciekawostka – pierwszy zrzut strony tense.pl (pierwszej wersji serwisu Grupy TENSE) wykonany 12 kwietnia 2009 roku. A także snapshoty pierwszych wersji popularnych serwisów internetowych.

Grupa TENSE

dawny wygląd stron w wayback machine

Źródło: archive.org

Allegro – widok z 11.05.2000 r.

dawna wersja serwisu Allegro

Źródło: archive.org

Filmweb – widok z 29.04.1999 r.

dawna wersja serwisu filmweb

Źródło: archive.org

Google – widok z 11.11.1998 r.

stara wersja Google

Źródło: archive.org

Wirtualna Polska – widok z 1.12.1998 r.

dawna wersja serwisu wirtualnapolska

Źródło: archive.org

YouTube – widok z 7.05.2005

dawna wersja serwisu YouTube

Źródło: archive.org

"*" oznacza pola wymagane

Wypełnij formularz. Przygotujemy dla Ciebie bezpłatną wycenę!

*pole wymagane

Imię*

Nazwisko*

Nazwa firmy*

Email*

Numer telefonu*

Adres strony www

agree*

Akceptuję Zasady Korzystania z Serwisu www.grupatense.pl i wyrażam zgodę na przetwarzanie przez Semergy sp. z o.o. sp. k., Artefakt sp. z o.o. sp. k., Semahead sp. z o.o. sp. k., Grupa Tense Polska sp. z o.o. sp. k., Widzialni.pl sp. z o.o. sp. k, WeNet Group S.A. i WeNet Sp. z o.o. udostępnionych przeze mnie danych osobowych na warunkach opisanych w Zasadach. Oświadczam, że

są mi znane cele przetwarzania danych osobowych oraz moje uprawnienia. Ponadto, wyrażam zgodę na wykonywanie przez Semergy sp. z o.o. sp. k., Artefakt sp. z o.o. sp. k., Semahead sp. z o.o. sp. k., Grupa Tense Polska sp. z o.o. sp. k., Widzialni.pl sp. z o.o. sp. k, , WeNet Group S.A. i WeNet Sp. z o.o. działań w zakresie marketingu bezpośredniego kierowanych na urządzenia telekomunikacyjne, w tym w szczególności telefony lub komputery, których jestem użytkownikiem końcowym oraz wyrażam zgodę na otrzymywanie od Semergy sp. z o.o. sp. k., Artefakt sp. z o.o. sp. k., Semahead sp. z o.o. sp. k., Grupa Tense Polska sp. z o.o. sp. k., Widzialni.pl sp. z o.o. sp. k, WeNet Group S.A. i WeNet Sp. z o.o. informacji handlowych za pomocą środków komunikacji elektronicznej, także przy użyciu automatycznych systemów wywołujących na podane w niniejszym formularzu: adres poczty elektronicznej lub numer telefonu. Przyjmuję do wiadomości, że zgoda udzielona Semergy sp. z o.o. sp. k., Artefakt sp. z o.o. sp. k., Semahead sp. z o.o. sp. k., Grupa Tense Polska sp. z o.o. sp. k., Widzialni.pl sp. z o.o. sp. k, WeNet Group S.A. i WeNet Sp. z o.o. w zakresie wyżej wymienionej komunikacji marketingowej może być przeze mnie wycofana w dowolnym czasie, poprzez kontakt z Działem Obsługi Klienta tel. 739 943 600 lub email [email protected] bez wpływu na zgodność z prawem przetwarzania, którego dokonano na podstawie zgody przed jej cofnięciem.

Phone

To pole jest używane do walidacji i powinno pozostać niezmienione.

Oceń artykuł

5/5 - (6 votes)

Artykuł Ci się spodobał? Udostępnij!

Autor

Joanna Śledziejowska

Zobacz wszystkie wpisy 19

SEO Ekspertka, która na co dzień optymalizuje i przygotowuje strategię klientów, a także analizuje trendy w wyszukiwarkach. Absolwentka filozofii z zamiłowaniem do muzyki i popkultury. W wolnym czasie pochłonięta swoim hobby, jakim jest kolekcjonowanie płyt winylowych, a także szeroko pojętym działkowaniem.

2 komentarze

Małgosia Polcyn

12 lipca 2021 - 21:41

Szukam informacji jak webmaster może zablokować dostęp do archiwizowania strony przez WayBack Machine?
Piotr Michalak

29 lipca 2021 - 07:49

Dzień dobry,
w pliku robots.txt (plik powinien być dostępny po adresem adres-strony/robots.txt) należy dodać poniższe dyrektywy

User-agent: ia_archiver
Disallow: /

Warto również dodać te

User-agent: archive.org_bot
Disallow: /