기업조회

본문 바로가기 주메뉴 바로가기

논문 기본정보

의미적 의존 링크 토픽 모델을 이용한 생물학 약어 중의성 해소

논문 개요

기관명, 저널명, ISSN, ISBN 으로 구성된 논문 개요 표입니다.
기관명 NDSL
저널명 정보과학회논문지 = Journal of KIISE
ISSN 2383-630x,2383-6296
ISBN

논문저자 및 소속기관 정보

저자, 소속기관, 출판인, 간행물 번호, 발행연도, 초록, 원문UR, 첨부파일 순으로 구성된 논문저자 및 소속기관 정보표입니다
저자(한글) 김선호,윤준태,서정연
저자(영문)
소속기관
소속기관(영문)
출판인
간행물 번호
발행연도 2014-01-01
초록 생물학 도메인은 약어 표현이 빈번하며, 실제로 문서에서 중요한 의미를 지니는 개체명들이 약어로 표현되는 경우가 많다. 본 연구에서는 토픽과 링크 정보를 이용하여 약어 중의성을 해결하고 동일한 의미를 가지는 다양한 형태의 약어 원형들(variant forms)에 대한 그룹핑을 시도한다. 이를 위하여 LDA(latent Dirichlet allocation) 기반 의미적 의존 링크 토픽 모델(semantic dependency topic model)을 제안한다. 해당 모델은 생성 모델(generative model)의 일종으로 문서 집합의 각 문서에 등장하는 단어들은 문서에서 발생하는 토픽 분포와 토픽 당 단어 분포에 의해 생성되어 있는 것으로 가정하고, 관측 가능한 문서 집합의 단어들로부터 문서에 내재된 숨어있는 토픽 구조를 추론하여 단어 생성과 토픽 파라미터를 연결시킨다. 본 연구에서는 토픽 정보 외에 단어들 사이에 존재하는 의미적 의존성(semantic dependency)을 링크로 정의하고, 단어 간에 존재하는 링크 정보, 특히 원형과 문장에서 공기하는 단어들 사이의 링크를 파라미터화하여 중의성 해결에 이용하였다. 결과적으로 주어진 문서에 등장하는 약어에 대해 가장 가능성 있는 원형은 해당 모델을 이용하여 추론된 단어-토픽, 문서-토픽, 단어-링크 확률에 의해서 결정된다. 제안하는 모델은 MEDLINE 초록으로부터 Entrez 인터페이스를 이용해 22개의 약어 집합과 186개의 가능한 약어 원형을 이용하여 질의를 생성하고, 이를 이용해 검색된 문서들을 대상으로 학습과 테스트에 이용하였다. 실험은, 주어진 문서에 등장하는 해당 약어에 대한 원형이 무엇인지 예측하는 방식으로 98.3%의 정확률의 높은 성능을 보였다.
원문URL http://click.ndsl.kr/servlet/OpenAPIDetailView?keyValue=03553784&target=NART&cn=JAKO201427539111426
첨부파일

추가정보

과학기술표준분류, ICT 기술분류,DDC 분류,주제어 (키워드) 순으로 구성된 추가정보표입니다
과학기술표준분류
ICT 기술분류
DDC 분류
주제어 (키워드) 약어 중의성 해결,바이오 텍스트 마이닝,토픽 모델,의미적 의존 관계 링크,abbreviation disambiguation,bio text mining,topic model,LDA,semantic dependency link