Archive Today와 Wayback Machine은 어떤 원리로 아카이빙을 하는 건가요?
안녕하세요. 인터넷 상의 기록을 아카이브하기 위해서 Archive Today나 Wayback Machine을 이용하여서 아카이브를 하곤 합니다. 특히 2010년의 google.com 같은 걸 보는 것도 재밌더라고요. 인터넷 기록의 이러한 아카이빙은 어떠한 원리를 이용해서 하는 건가요?
안녕하세요. 종종순진무구한오이김치입니다!!
Archive Today와 Wayback Machine은 서로 다른 방식으로 웹페이지를 보관해요.
Wayback Machine은 주기적으로 웹 크롤러를 이용해서 전 세계의 웹사이트들을 자동으로 수집하고 저장해요. 크롤러가 웹사이트를 방문해서 페이지의 모든 요소(HTML, 이미지, CSS, 자바스크립트 등)를 수집하죠.
반면에 Archive Today는 사용자가 요청할 때마다 해당 페이지를 저장하는 방식을 사용해요. 자바스크립트를 지원하는 브라우저로 페이지의 스냅샷을 찍는데, 한 번에 50MB까지 저장할 수 있답니다.
(제가 둘 다 써봤는데요, Wayback Machine은 과거 사이트를 보기 좋고, Archive Today는 현재 페이지를 빠르게 저장하기 좋더라구요! 특히 Archive Today는 유료 기사도 저장할 수 있어서 편리해요.)
참고 부탁드립니다~!! 감사합니다~!! 좋은 하루 되세요
인터넷 아카이빙은 웹크롤러가 자동으로 수집하는 방식이랍니다.
웹크롤러라는 프로그램이 주기적으로 웹사이트를 방문해서
HTML CSS 이미지 같은 웹페이지 구성요소들을 저장해두는 거에요
웨이백머신은 특히 인터넷 아카이브라는 비영리단체에서 운영하는데 1996년부터
지금까지 수많은 웹페이지를 보관하고 있답니다
크롤러가 수집한 데이터는 압축해서 특별한 형태로 저장하는데 이걸 WARC파일이라고 부르구요
아카이브 투데이는 사용자가 요청할때마다 실시간으로 웹페이지를 캡쳐해서
저장하는 방식을 사용해요
두 서비스 모두 자바스크립트나 동적콘텐츠는 완벽하게 저장하기 어려워서
일부 기능이 작동안할수 있지만 기본적인 내용은 잘 보존된답니다
이런 아카이빙 덕분에 사라진 웹사이트도 다시 볼수있고 과거의 인터넷 모습도
확인할수 있어서 디지털 역사보존에 큰 도움이 되죠
재미있는건 이렇게 저장된 데이터는 여러 서버에 분산저장되어서
안전하게 보관된다는거에요
요즘은 블록체인 기술을 활용해서 더 영구적으로 보존하는 방법도 연구중이라네요..