내용 |
네덜란드왕립도서관(National library of the Netherlands)에 따르면, 도서관은 시맨틱웹의 중심에 자리잡고 있다. 도서관의 혁신 및 개발부의 부서장인 Hans Jansen은 “링킹데이터는 도서관들이 앞으로 나아가야 할 길이다. 링킹데이터 분야에 투자하지 않는 문화유산기관은 도태될 것이다.”라고 말했다. 네덜란드왕립도서관은 메타데이터 링크를 기반으로 몇 가지 Linked Data 프로젝트들을 성공적으로 완료했다. 예를 들어, 신문 애플리케이션인 Here was the news(네덜란드에서만 이용 가능)의 경우 네덜란드 역사 신문 기사들에 위도와 경도 데이터를 추가했다. 이 애플리케이션은 이용자들이 지역을 기반으로 신문 컬렉션을 찾을 수 있도록 해준다. 게다가 도서관은 그들의 저널 컬렉션과 Netherlands Institute for Sound and Vision(아직까지 웹사이트에서는 이용 불가)의 TV 및 라디오 녹음과의 링크를 추가했다. 메타데이터 링크 작업을 계속하는 동안, 도서관의 Research department에서는 전체 컬렉션에 개체명(Named Entity) 연결을 시도하고 있다. 이 프로젝트의 목적은 의미관계를 토대로 한 개선된 이용자 경험과 향상된 검색을 수반하는 Linked Open Data가 완전히 실현가능한 도서관을 지향하는 것이다. 시맨틱 웹의 발전에 보다 기여하기 위해, 우리는 한층 강화된 전문 텍스트를 오픈 데이터로 제공할 것이다. 개체명 링크(Linked named 우리의 목표를 달성하기 위해, 텍스트 컬렉션에 연관 개체명을 확인하고 연결할 필요가 있다. Europeana Newspapers 프로젝트의 일환으로 우리는 전문 컬렉션에서 개체명을 확인하는 기계 학습 도구를 제작했다. 이 소프트웨어는 전문 컬렉션에서 모든 개체명을 추출할 수 있게 해주며, 이들을 관련 리소스이나 리소스 디스크립션과 연결해 준다. 이 소프트웨어와 관련문서는 GitHub 에서 이용가능하다. Research department에서는 개체명에 관한 정보를 수집하고 외부 리소스와의 링크를 저장할 수 있는 강화된 데이터베이스를 만들었다. 최근에 우리는 Freebase 와 VIAF 에 있는 관련 리소스 디스크립션과의 링크를 저장함과 동시에 이 개체명을 DBpedia 와 연결하고 있다. 이는 계보 데이터베이스와 같은 다른 리소스들로 확장될 수 있을 것이다. 덧붙여 우리는 `사회적으로 강화된 링크`를 위한 소프트웨어를 개발할 것이다. 다시 말해 이용자들이 자동적으로 획득된 링크를 승인하거나 거부할 수 있고 다른 리소스와의 새로운 연결을 만들 수 있는 도구이다. 도전(Challenges) 이 프로젝트 내에서, 우리는 여전히 중요한 도전에 직면하고 있다. 첫 번째 문제는 외부 범위가 완전하지 못한 것이다. DBpedia나 Freebase와 같은 리소스 디스크립션 데이터베이스에서 모든 개체명을 다룰 수는 없다. 특히 역사적 개체명은 무시되고 있고, DBpedia처럼 국제적 데이터베이스들이 네덜란드에서 잘 알려진 인물들조차도 누락되는 경우가 종종 발생한다. 게다가 국제기준 식별자는 없다. DBpedia, Freebase, Geonames 와 같은 리소스 디스크립션 데이터베이스들은 모두 결과적으로 다양한 리소스 디스크립션을 하나의 리소스로 끌어내는, 자신들만의 식별자를 이용한다. 해결해야 하는 또 다른 사안은 지식재산권 문제이다. 소유권 문제는 개방을 향한 진보에 방해가 될 수 있다. 때문에 텍스트 인식 어려움의 문제들이 있다. 이는 주로 OCR과 관련된 문제이긴 하지만, 역사적으로 언어의 변형이라든가, 이름 변경 또는 다른 여러 가지 유형의 모호성 문제 등에도 적용될 수 있다. 결과적으로 수동 개입이 불가피하다. 우리는 자동적으로 생성되고 있는 링크들을 체크하고, 승인 또는 수정하기 위한 크라우드소싱이 필요할 것이다. 예상 결과(Expected results) 왕립도서관은 두 가지 영역에서 매우 중요한 결과를 이루고자 한다. 첫째는 향상된 검색기능이고 둘째는 데이터 강화이다. 두 가지 모두 디지털 시대에 도서관 연계를 유지하기 위한 필수요소이다. Linked Open Data는 국가 또는 국제 수준에서 디지털 문화유산을 연결하는 강력한 방법이다. 이는 특히 데이터가 개방적으로 이용가능하기 때문이다. 리소스들간의 연결은 조직, 국가 그리고 언어 장벽을 초월한다. 데이터의 확인 및 링크는 도서관 컬렉션을 정보와 지식으로(기계 및 인간 가독) 바뀔 수 있게 도와준다. 이는 더욱 풍부한 서치 기능과 검색 기회를 제공해 줄 것이다. 왕립도서관의 선임연구원 Theo van Veen은 Linked Open Data의 특징을 “메타데이터에서 언급된 모든 리소스 또는 동일한 유일 식별자로 텍스트 연결을 함으로써 대부분 또는 모든 서지 시소러스를 대체할 전세계 유일한 리소스 디스크립션 데이터베이스”로 보았다. National library of the Netherlands http://kb.nl/en Semantic Web http://kb.nl/en |