• 리뷰 >
  • 오늘의 도서관

대한민국 국가 문헌에서 국가도메인까지 웹 아카이빙, 오아시스

2017-06-12 |232

  • 페이스북
  • 트위터
  • 인쇄하기

대한민국 국가 문헌에서 국가도메인까지
웹 아카이빙, 오아시스

국립중앙도서관은 2001년 3월, ‘온라인 저작물, 도서관은 어떻게 대처할 것인가’라는 주제의 세미나를 개최하여 온라인상에서 쉽게 사라져 버리는 전자 정보를 어떻게 수집하여 보존하고 제공할 것인가를 논의했다. 그리고 국가 차원에서 디지털 지식 정보 자원에 대한 수집·보존의 필요성이 높아지자, 국립중앙도서관은 2004년 시범 수집을 거처 2005년부터 본격적으로 소멸하기 쉬운 웹 자원을 보존하기 위한 ‘오아시스(Online Archiving & Searching Internet Sources, OASIS) 프로젝트’를 시작했다.


매체의 발달, 수집의 위기

인터넷의 아버지로 손꼽히는 구글의 빈트 서프(Vinton Cerf) 부사장은 2015년 미국과학진흥협회(American Association for the Advancement of Science, AAAS) 연차회의에서 현재 디지털 자료를 위해 존재하는 소프트웨어나 하드웨어가 사라지면 21세기는 ‘잊힌 세기(Forgotten Century)’가 될 수 있다고 경고하고, 모든 콘텐츠 포맷과 응용프로그램, 운영체제 등을 디지털 형식으로 클라우드 서버에 저장하는 이른바 ‘디지털 양피지(Digital Vellum)’ 기술을 제안하였다.

전자 매체의 등장 이후 디지털 자원의 소멸 위험성에 대한 우려는 지속해서 제기되어 왔다. 미국 국립문서기록관리청의 전자 기록 보관 프로그램 총괄 담당 국장도 2004년 11월에 “전자화된 자료의 보존은 영원히 계속될 과제이겠지만 특히 10년 동안은 정부와 대기업부터 개인에 이르기까지 모두가 겪는, 전 세계적인 문제가 될 것”이라고 했다.(《밤의 도서관》, 2011)

도서관은 시대의 흐름에 따라 서적이나 문서를 보관하는 역할에서 국가의 지적문화유산을 체계적으로 수집, 정리, 보존, 검색, 제공하는 지식의 보고이자 지식 교류의 공간으로 발전했다. 국립중앙도서관은 무엇보다도 우리나라에서 생산되는 모든 도서관 자료를 망라하여 수집하고 이를 영구보존함으로써 ‘국가 문헌의 최종 보루’로서의 사명을 다 하고자 한다. 《국립중앙도서관 70년사》, 2016 자료 형태와 상관없이 모든 국가 지식 정보를 수집, 보존해야 하지만, 오랜 기간에 걸쳐 수집하고 정리, 보존하기 위한 체계를 마련할 수 있었던 인쇄 매체와 달리 변화가 빠른 웹상의 자원은 채 수집되기도 전에 다른 기술로 대체되거나 사라질 위험에 처해 있다.


국가적 차원에서 웹 자원을 보존하는 ‘오아시스’

오아시스는 국제표준규격의 수집 프로그램을 이용해 수집 시점의 웹사이트 모습을 그대로 저장하고, 설정된 주기에 따라 자동으로 재수집하고 있으며, 수집된 결과를 찾아볼 수 있도록 오아시스 누리집을 운영한다.

한국인터넷진흥원의 통계에 의하면 대한민국 국가도메인인 ‘.kr’의 수는 1996년 2,521개에서 2002년 49만 619개, 2008년 100만 1,206개까지 증가한 뒤 110만 건을 넘지 않고 있으며, 2017년 1월 기준 104만 8,524건이 등록되어 있다.

2016년에는 2015년과 비교해 약 20만 건의 도메인이 사라지거나 새로 생겨났다. 모바일 브라우징 증가 등 웹 환경의 변화로 미래 웹사이트 모습은 지금까지와는 많이 달라질 것으로 예상한다.

국립중앙도서관은 주요한 개별 웹사이트와 국가 재난, 이슈, 주제 분야 등 테마 단위로 선별하여 수집해왔으나 2016년부터는 웹사이트의 대량 손실을 막기 위해 포괄적 수집을 병행해 나가고 있다. 주요 사이트에 대해 심층적인 수집을 하는 선택적 수집과 달리 포괄적 수집은 .kr 등 국가도메인 단위의 전체적 수집을 의미한다. 전체 도메인 중에 20만 건을 대상으로 포괄적 웹사이트 수집을 시범 추진하였으며, 2017년에는 30만 건을 수집할 계획이다.


정보의 보고, 웹 아카이브 활용

구글은 미국 대선 기간 일 년 가량 구글 뉴스 웹사이트를 아카이빙(archiving)하고 분석하여 대선 후보 도널드 트럼프(Donald Trump)와 힐러리 클린턴(Hilary Clinton)의 미디어 활동을 정량적으로 시각화했다. 그 결과 트럼프는 구글 뉴스 웹사이트에서 클린턴보다 2배나 많이 언급되어 뉴스 사이클에서 우세했던 것으로 나타났다. 영국국립도서관과 런던대학교 등이 협력하여 추진하는 ‘인문·예술을 위한 빅 영국 도메인 데이터 프로젝트’는 영국 도메인 아카이브(archive)를 빅데이터로 분석·활용한 서비스를 개발하고, ‘웹상에서의 영국 기업의 역사, 영국 웹 아카이브와 비트 문학(Beat literature)’ 등 인문 예술 분야 연구를 지원하고 있다. 연구자들을 참여시키기 위한 웹 아카이빙 해커톤도 매년 미국, 영국 등지에서 열린다.

미디어이론가이자 문화비평가인 마셜 매클루언(Marshall McLuhan)은 ‘미디어는 메시지’라고 했다. 매체는 단순한 정보 전달 도구가 아니며, 그 자체가 인간의 인식, 내면에까지 영향을 미친다는 의미이다. 수집된 웹사이트를 활용한 연구는 웹상의 내용 분석을 통한 인문사회학적 연구뿐 아니라, 웹사이트라는 매체를 통해 사람들의 행위와 반응이 이뤄지는 현상이나 인간 의식의 변화, 온라인 자체에 관한 연구까지 확대될 수 있다.

이에 도서관은 일반 이용자들에게 웹 아카이브를 활용한 서비스 플랫폼을 제공할 수 있을 것이다. 또한 연구자들에게는 수집된 웹사이트 요소 가운데 추출, 처리한 데이터 세트를 저작권이 저촉되지 않는 범위 내에서 제공하거나 맞춤형 아카이빙 등을 서비스할 수 있을 것으로 기대된다.

올해 국립중앙도서관은 그동안 수집한 오아시스 웹사이트 데이터를 활용한 시각화 서비스를 시범적으로 개발하고, 연구자 및 일반 이용자들을 대상으로 서비스 확대를 위한 인식 조사를 할 예정이다.


수집 이후의 수집, 도서관

크리스토퍼 놀란(Christopher Nolan) 감독의 영화 <메멘토(Memento)>에서 단기 기억상실증에 걸린 주인공은 사건이 있을 때마다 즉석 사진과 기록을 남겨 기억을 붙잡아두려 한다. 하지만 맥락과 배경이 누락된 단편적인 메모는 불완전하여 오히려 그를 함정에 빠트린다.

수시로 변화되는 웹상에서 일어나는 모든 일을 기록하는 것은 기억을 온전히 보존하는 것만큼이나 어렵다. 기록이 기억을 완전히 대신하기는 어렵겠지만 먼 훗날 오류 없이 지금의 세기를 복원하고 해석할 수 있도록 최대한 많은 흔적들을 보존해 두는 것이 국립중앙도서관의 가장 큰 역할이며 의무일 것이다.


글_임혜은 국립중앙도서관 디지털기획과 사서
국립중앙도서관 정보화담당관, 국립어린이청소년도서관, 도서관정보정책기획단, 자료운영과 등에서 근무하였으며 2015년부터 디지털기획과에서 근무하고 있다.



태그
국립중앙도서관 오아시스 프로젝트 OASIS 웹 아카이빙 디지털 보존 국가도메인 구글 디지털 양피지 기술 기억 보존

목록