내용 |
오늘날 사용되지 않는 용어로 저술된 웹상의 사료(공문서)를 현대어로 검색하는 방법에 관해서 고찰한 논문 'Bridging the Terminology Gap in Web Archive Search'(6페이지)가 지난 6월 8일 공개되었다. 저자는 독일 Max-Planck Institute for Informatics의 Klaus Berberich, Srikanta Bedathur, Mauro Sozio, Gerhard Weikum 연구원 등 4명이며, 오는 6월 28일 열리는 '국제워크숍 WebDB2009'에서 발표될 예정이다. 아래 사이트에서 논문 전체를 볼 수 있다. - 초록 - 웹 아카이빙은 문화유산을 차세대에게 남겨주는 중요한 역할을 담당하고 있는데, 언어는 진화한다고 하는 사실 때문에 검색 시에 중대한 문제가 발생한다. 이용자는 오늘의 용어로 검색하기 때문에 고문서는 검색되지 않는 경우가 많다. 예를 들면 'saint petersburg museum'으로 검색하여도 레닌그라드(St. Petersburg의 구칭)의 뮤지엄에 관한 1970년대의 문서는 검색되지 않는다. 이용자의 요구를 과거 용어집에서 '바꿈'으로써 이 문제에 대처한다. 다른 시대에 사용된 용어의 관련성을 판정하는 의미적 유사용어 변천법-Hidden Markow model(HMM)에 기초하여 신규의 검색어 개질법-을 제안한다. 이 법을 20년분의 뉴욕 타임스로 시험한 결과 그 유용성, 효율성이 확인되었다. |