기업조회

본문 바로가기 주메뉴 바로가기

논문 기본정보

다중 언어로 작성된 문서 파일에 적용된 문자 인코딩 자동 인식 기법

논문 개요

기관명, 저널명, ISSN, ISBN 으로 구성된 논문 개요 표입니다.
기관명 NDSL
저널명 정보과학회. 컴퓨팅의 실제 논문지 = KIISE transactions on computing practices
ISSN 2383-6318,2383-6326
ISBN

논문저자 및 소속기관 정보

저자, 소속기관, 출판인, 간행물 번호, 발행연도, 초록, 원문UR, 첨부파일 순으로 구성된 논문저자 및 소속기관 정보표입니다
저자(한글) 서민지,김명호
저자(영문)
소속기관
소속기관(영문)
출판인
간행물 번호
발행연도 2016-01-01
초록 문자 인코딩은 문서를 컴퓨터에서 이용할 수 있도록 문자 코드 테이블을 이용하여 이진화하는 방법이다. 이진화된 문서를 읽기 위해서는, 문서에 적용된 문자 코드를 이용하여 문자 인코딩을 알아내야 한다. 본 논문에서는 문서의 문자 인코딩을 자동으로 판별하는 방법을 제시한다. 제안하는 방법은 이스케이프 문자를 이용한 판별법, 문서에 나타난 코드 값 범위 판별법, 문서에 나타난 코드 값의 특징 판별법, 각 언어별 자주 사용하는 단어를 이용한 판별법과 같은 여러 단계를 걸쳐 문서에 적용된 문자 인코딩을 판별한다. 자주 사용하는 단어를 이용한 방법은 문서를 언어별로 분류하여 문자 인코딩을 판별하기 때문에, 다국어 문서에서 기존의 방법보다 높은 문자 인코딩 인식률을 보인다. 주로 표현하는 언어의 비중이 20% 미만일 경우, 기존의 방법은 약 50%의 문자 인코딩 인식률을 보였으나, 제안하는 방법은 문자 인코딩에서 표현하는 언어의 비중과는 상관없이 96% 이상의 문자 인코딩 인식률을 보였다.
원문URL http://click.ndsl.kr/servlet/OpenAPIDetailView?keyValue=03553784&target=NART&cn=JAKO201613752757930
첨부파일

추가정보

과학기술표준분류, ICT 기술분류,DDC 분류,주제어 (키워드) 순으로 구성된 추가정보표입니다
과학기술표준분류
ICT 기술분류
DDC 분류
주제어 (키워드) 문자 인코딩,자동 인식,단어 데이터베이스,다국어 문서,character encoding,automatic recognition,word database,multiple language document