오늘의 도서관

[오늘의 도서관] 방대한 데이터 세상, 메타데이터가 지표다

등록일2017.01.09 조회수 6114

데이터가 데이터를 설명한다



카렌 코일(Karen Coyle)은 메타데이터를 ‘어떤 목적으로 만들어진 데이터(Constructed data with a purpose)’로 정의했다. ‘메타(Meta)’는 초월, 더 높은 층위라는 뜻을 가진 접두어로 영어 전치사 Above와 같다고 생각하면 쉽게 이해할 수 있다. 이를 바탕으로 유추해보면 메타데이터는 데이터 위의 데이터, 혹은 데이터에 관해 구조화된 데이터라고 칭할 수 있다. 즉, 메타데이터는 다른 데이터를 설명해 주는 데이터로 동영상, 소리, 문서 등과 같이 실제로 사용되는 정보라기보다 속성 정보에 해당한다. 따라서 메타데이터의 내용을 읽고 이해하는 주체는 실제 사용자라기보다는 대부분 기계, 즉 컴퓨터다.

데이터를 설명해주는 데이터가 필요한 이유는 첫째, 효율적인 지식자원 검색이 가능해지고 둘째, 지식자원 전체를 손에 넣지 않아도 내용을 확인할 수 있게 되며 마지막으로, 필요한 지식자원의 존재 유무를 파악할 수 있기 때문이다. 책을 예로 들자면 본문 내용 외에 책을 설명해줄 수 있는 저자, 출간일, 출판사, 장르, 주제 등의 정보가 바로 메타데이터다. 따라서 메타데이터는 우리가 책을 하나하나 다 펼쳐보지 않고도 어떤 책인지 가늠할 수 있도록 한다.


도서관과 떼려야 뗄 수 없는 메타데이터

1960년대 처음 탄생한 메타데이터라는 용어는 1990년대 초반까지 과학 및 사회과학, 지형 공간의 데이터 세트에 관해 컴퓨터 디지털 파일이 인간에 도움이 되는 정보라는 의미로 사용되었다. 인류가 발전해나감에 따라 처리해야 할 정보의 양도 점점 늘어갔고, 메타데이터는 정보 관리 분야에서 두각을 드러내기 시작했다.

그러던 1990년대 중반, 메타데이터는 도서관 분야에 획기적인 변화를 불러왔다. 90년대부터 현재까지도 사용되고 있는 도서관 서지정보 제공 기술, MARC(Machine Readable Cataloging)가 바로 그것이다. 1966년 미국의회도서관은 MARC 작성법을 개발 및 보급했다. 그 결과 현재, 한국을 비롯한 미국, 영국, 프랑스, 독일, 일본 등 선진국에서는 법률에 따라 국내 출판물을 빠짐없이 국립도서관, 의회도서관 등에 납본하여, 그 목록을 작성하는 작업이 이루어지고 있다. MARC는 도서관 자동화 과정의 일등 공신이라고 해도 과언이 아니다. 하지만 인터넷 네트워크와 디지털의 시대가 도래하면서 1차원적인 메타데이터에서 더욱 발전한 형태의 메타데이터가 요구되기 시작했다.

책 한 권 한 권이 귀하던 시절, 책을 지키는 사서는 자신이 담당하는 도서관의 모든 책을 속속들이 파악하고 있어 이용자의 요구와 특성에 맞춰 필요한 자료를 제공했다. 하지만 1년에 7만 권가량의 책이 발간되는 요즘, 아무리 전문적인 사서라 할지라도 모든 책에 대해 속속들이 알기란 물리적으로 불가능하다.

더군다나 디지털 인터넷 세상에서는 더 이상 도서관이나 오프라인 서점에서와 같은 방식으로 책을 찾을 수 없다. 책을 묘사하는 요소들이 구조화된 데이터 형태로 정리되어 있지 않다면 그 책은 세상에 존재하지 않는 책이나 다름없다. 책을 찾을 수 없다면 살 수도 읽을 수도 없기 때문이다. 이는 도서관이 좋은 메타데이터를 확보하여 이용자들에게 지속해서 제공해야 하는 까닭과도 일맥상통한다.

게다가 점점 종이책이라는 단일 매체 외에도 전자책, 이미지, 음원, 동영상 등 멀티미디어 자료의 수요가 늘고 있는 상황. 이용자들은 매체에 구애받지 않으면서도 단일 주제로 묶이는 다양한 자료들을 한꺼번에 보길 원한다. 기존의 단일 층위에서 벗어나 다층적인 형태의 메타데이터가 필요해진 것이다.


어떤 메타데이터가 좋은 데이터일까?

이를 위해서는 메타데이터를 표준화해서 상호운용성을 확보할 수 있어야 하는데, 상호운용성이란 서로 다른 메타데이터를 사용하는 시스템들이 각각의 메타데이터를 이해할 수 있는 능력을 말한다. 식별자 표준과 함께 상호운용성을 확보한 후 연결 및 통합을 위한 표준을 확보하는 것이 중요하다.

우리가 지향해야 할 좋은 메타데이터는 첫째, 표준으로 잘 확립되어 있으며 둘째, 상호운용성을 충분히 지원하고 있으며 셋째, 관계있는 객체들끼리의 연결을 시도해서 전거통제(Authority Control)를 잘하고 있는 데이터다. 여기서 전거통제란 문헌정보학에서 도서 목록이나 서지 자료의 항목으로 사용되는 이름, 주제, 표제 등을 일관성 있게 채택하도록 관리하는 기법으로 전거제어라고도 불린다. 다시 말해 메타데이터의 핵심은 표준화와 일관성 있는 관리라는 뜻이다.

내가 서술한 메타데이터의 내용을 다른 사용자도 정확히 이해하고 있다면 큰 문제가 없지만, 그렇지 않다면 오해를 낳게 된다. 예를 들어 나는 책 제목이라는 의미로 항목의 이름을 Title로 사용하였지만 다른 이용자는 Title이라는 항목을 특정 회사의 직책을 의미하는 것으로 사용했다면, 내가 원하는 책 제목과는 거리가 먼 다른 자료들이 검색될 수 있다.

이처럼 메타데이터의 활용 분야들의 지속적인 활성화를 위해서는 메타데이터 관리 체계의 표준화가 선행되어야 한다. 표준화 작업은 외부 조직 간의 정보 호환성과 공유를 손쉽게 하는 촉매제 역할도 할 것이기에 국가, 기업, 과학 단체 간의 긴밀한 교류가 중요해지는 현실에서 더 큰 의미를 지닌다.


메타데이터와 도서관의 미래

현재 도서관이 가진 메타데이터 항목들은 덩어리가 너무 커서 유연성이 떨어진다. 이젠 이 덩어리들을 잘게 나눠야 할 때다. 이에 ‘정보객체’와 ‘객체들 간의 관계’ 속에서 검색을 원하는 다양한 이용자들의 다양한 정보 요구에 부응할 수 있는 시맨틱(Semantic) 서지모델이 필요하다. 모든 책에 사람들의 취향에 맞게 자료를 거를 수 있을 항목 가령 페이지 수, 시대적 배경, 글의 형식, 시리즈 정보, 키워드 등이 더 있다면, 자신의 선호도에 맞는 간단한 설문을 거치는 것만으로도 취향에 맞는 책의 목록을 짧게 추려 보여줄 수 있을 것이다. 이런 방식의 가장 큰 장점은 추천 책이 이용자의 마음에 들 확률이 매우 높다는 점이다. 책이 마음에 들면 책을 더 보거나 빌리기 위해 도서관을 방문하거나 웹상에서 도서관에 접근하고자 하는 사람들이 자연스럽게 늘 것이다.

앞서 말했던 MARC는 수십 년이 지난 지금에도 여전히 유용하게 쓰일 만큼 좋은 메타데이터임이 분명하지만, 여기서 더 나아간다면 도서관은 훨씬 미래지향적이고 혁신적인 서비스를 제공할 수 있다. 우리가 기존에 인터넷 검색 엔진을 통해 해 왔던 키워드 검색과는 차원이 다른 서비스 말이다.

도서관계에서도 이미 이러한 시류를 읽고 도서관을 시맨틱 레벨로 끌어올리기 위해서 노력하고 있다. FRBR(Functional Requirements for Bibliographic Records) 모델을 제시한 것이다. 이 모델은 기존의 1차원의 평평한 MARC 구조를 개체-관계(Entity Relationship) 모델을 활용하여 표현함으로써 이용자들이 검색해 나갈 법한 방법에 맞게 논리적인 순서를 제공하려 한다. 기존의 단순히 이용자가 찾는 정보만 보여주던 목록에서 벗어나 더욱 정확하고 상호 연결된 저작과 표현형, 구현형, 개별 자료 간의 관계들이 마치 하나의 ‘서지적 우주(Bibliographic Universe)’와 같은 형상을 보여주자는 것이다.

온 세상에 지식이 넘쳐나고 고급의 지식 정보 자체만으로도 고부가가치를 창출할 수 있게 된 지금, 그 어느 때보다 메타데이터의 중요성과 그 위상이 높아지고 있다. 지금 당장 사서들이 메타데이터의 전문가가 되어 또 다른 차원의 메타데이터를 이해하고 고민해야 하는 까닭이다.

※본 기사는 서울대학교 융합과학기술연구원 조명대 겸임부교수의 교안과 인터뷰를 토대로 구성했습니다.


메타데이터 전문가에게 묻다

메타데이터는 빅데이터와 어떻게 다른가요?

“우선 가장 큰 차이점은 메타데이터는 무질서하게 존재하고 있는 이른바 빅데이터를 ‘구조화’하는 힘이 있다는 것입니다. 현대사회에서는 다양하고 많은 양의 데이터가 빠른 속도로 쏟아지기 때문에 지금까지 다루어왔던 방법으로는 처리할 수 없어졌습니다. 이처럼 기존과는 다른 방법으로 다루어야 하는 방대한 데이터를 우리는 빅데이터라고 부르지요. 대부분은 빅데이터 안에서 패턴을 찾아내거나, 분석 및 예측을 하는 작업을 거쳐 데이터를 쓸모 있는 정보로 만듭니다. 데이터 시각화가 빅데이터의 대표적인 예라고 할 수 있습니다.

메타데이터는 정보자원에 대한 구조화된 데이터로 흔히 데이터의 데이터로 알려져 있습니다. 빅데이터와 데이터를 다루는 목적이 다르기는 하지만, 빅데이터와 연관 지어서 메타데이터가 할 수 있는 역할은 무엇보다 실시간으로 생성되는 많은 양의 빅데이터를 정확하게 처리하여 서비스 질을 향상하는 것입니다. 이를 위해서는 빅데이터에 대한 메타데이터가 필요하지요.

메타데이터가 없는 빅데이터는 아주 큰 도시에 지도도 주소도 없는 것과 같습니다. 스마트한 활용이 불가능하지요. 결국에는 메타데이터 본연의 목적인 구조화를 통해서 복잡성에서 질서를 찾아 나가는 데에 도움이 될 것입니다. 아주 정교한 지능을 가진 메타데이터를 활용한다면, 컴퓨터가 우리 인간이 사용하는 말과 글을 이해하는 데 도움이 될 것입니다. 자연언어 처리라고 하는 이 과제는 빅데이터 분야에서도 해결하고자 하는 또 다른 과업입니다. 컴퓨터가 ‘평안남도 출신의 소설가를 찾아줄래?’ 혹은 ‘액자형으로 구성된 소설 중 가족의 의미를 다룬 작품을 찾아줄래?’ 등과 같은 질문에 답할 수 있게 된다는 것입니다. 빅데이터와 메타데이터, 두 영역이 협조를 잘한다면 충분히 가능한 일입니다”


사서가 메타데이터 전문가가 되어야 하는 이유는 무엇인가요?

“미국도서관협회의 창시자인 찰스 에이미 커터(Charles Ammi Cutter)는 도서관에서 첫째, 이용자가 알고 있는 저자 또는 표제, 주제로 자료를 찾을 수 있어야 하고 둘째, 찾은 자료를 동일한 저자, 주제, 또는 자료 유형으로 함께 모아 제시할 수 있어야 하며, 마지막으로 셋째, 목록이 제시하는 자료 중에서 이용자가 특히 선호하는 자료를 서지적으로나 주제 중심으로 선택할 수 있도록 해야 한다고 말했습니다. 그가 말한 세 가지에 가장 적합한 것이 바로 메타데이터입니다. 메타데이터를 잘만 활용하면 정보 검색의 효율성이 획기적으로 향상됩니다. 정보를 정확하게 식별하는 데 도움을 주기 때문이죠. 일단 자료가 식별되고 나면 식별된 개념을 중심으로 더욱 다양한 관계를 찾아 이를 이용자에게 묶음으로 제공할 수도 있고 서로 다른 데이터들과도 연동하여 상호운용성을 확보할 수도 있지요. 다른 매체나 다른 형태로 표현되어 있어도 하나의 연관성 있는 주제로 모을 수 있는 기능 역시 메타데이터의 힘에 기반을 두기 때문입니다. 이제는 더 나아가 네트워크의 힘을 더해 관계망이 복잡한 형태의 자료들까지도 다룰 수 있어야 하죠”


메타데이터를 더 잘 이해하기 위해 참고할 만한 자료나 더 공부하면 좋을 분야가 있을까요?

“메타데이터 분야를 더 잘 이해하기 위해 책이나 자료를 참고하기보다 실제 데이터를 만들면서 부딪쳐보길 권합니다. 책자는 많이 있습니다. 인터넷 검색만 하면 쏟아지죠. 그러나 엑셀 시트에 자기가 만들고 싶은 분야의 자료를 만들어서 그 안에 있는 데이터와 같이 ‘놀아보는 것’보다 더 나은 방법은 없다고 생각합니다. 엑셀에 자료를 정리한다는 것 자체가 메타데이터를 만드는 첫걸음입니다. 그다음은 무료로 내려받는 구글 리파인(Google Refine)을 활용해서 직접 자료를 이렇게 저렇게 조작해보는 것이 제일 좋은 방법입니다”


도서관과 사서들에게 메타데이터와 관련해서 강조하고 싶은 부분을 간단하게 말씀해주세요.

“지금 현재 도서관에서 사용하는 메타데이터의 수준은 옛날이나 거의 다름없습니다. 1960년대에 미국의회도서관에서 만든 MARC라는 메타데이터와 그 이후 진화된 형태의 메타데이터를 사용합니다만 이제는 여기서 혁신을 단행할 필요가 있습니다. 단순 나열형 정보가 아닌, 훨씬 더 깊이 있고, 체계적인 지식 콘텐츠를 찾아내는 시맨틱한 방식으로 활용해야 합니다. 지금 여건은 충분합니다. 단, 여기서 주의할 것은 시맨틱이라고 해서 단순히 링크드 데이터(Linked Data), 통합자원식별자를 활용해 웹을 연결하는 방식로 발행하는 것이 전부라고 생각하는 사람들이 많은데 이것은 큰 착각입니다. 이용자를 전혀 고려하지 않고 그냥 기술만 적용해서 메타데이터를 발행하는 것입니다. 저는 바로 이 부분을 경계해야 한다고 생각하고 또 이 점에서 사서의 인문학적 소양이 발휘되어야 한다고 강조합니다.

사서들은 단순히 메타데이터를 입력하는 역할에만 매달릴 것이 아니라 해당 도메인에 따라 실질적인 메타데이터를 만들 줄 알아야 합니다. 즉, 먼저 개념적으로 모델을 만들고, 논리적 모델을 거쳐서 실제 물리적인 모델로 데이터를 발행할 줄도 알아야 한다는 것입니다. 이것은 아주 고도의 전문직들이 수행하는 일입니다. 전문적인 기술뿐만이 아니라 인문학적인 스토리가 입혀져야 하기 때문이죠.

무엇이 이용자들에게 큰 기쁨과 만족을 줄 수 있을지 잘 생각해야 합니다. 이용자 중심의 시스템을 만들려면 도서관이 메타데이터를 정말 잘 활용해야 합니다”


글_ 장유연

서울대학교 융합과학기술대학원 겸임부교수 조명대
다양한 분야에서의 링크드 데이터 발굴 및 적용에 관여하고 있으며 실제 링크드 데이터 모델을 직접 선보이기도 했다. 현재는 ‘데이터를 활용해서 창의적인 아이디어 개발’할 수 있도록 Machine Actionable 메타데이터 표준 개발에 심혈을 기울이고 있다. 성균관대학교, 서울대학교 융합과학기술대학원 등에서 인재 양성을 위해 열정적으로 강의하고 있다.



많이 본 뉴스

월간 TOP 클릭