초록 |
유전체 서열 측정 기술이 발전함에 따라 대량의 미생물 유전체 서열을 단시간내에 정확하게 감정할 수 있게 되었다. 유전체 구조와 기능을 한층 더 탐구하기 위하여 서열 특징과 상동 특징에 기반한 유전체 주석(genome annotation) 알고리즘을 새로운 생물종의 서열 측정에 응용하였다. 그러나 유전체 서열의 측정 품질 및 알고리즘 자체의 정확성이 낮으므로 현재의 유전체 주석 결과에서 가짜 유전자 및 주석 착오의 비례가 높다. 특히 단백질 N 말단의 주석 착오가 많다. 유전체 주석법의 단점을 보완하기 위해 개발된 유전자 칩 혹은 RNA-seq를 핵심으로 하는 전사체 서열 측정 기술과 종열중복 질량 스펙트럼 분석법을 핵심으로 하는 단백질체학 서열 측정 기술은 게놈의 전사와 번역 산물을 정확하게 측정할 수 있으며, 유전자 구조를 예측할 수 있다. 그러나 원핵생물 세포에 대량으로 존재하는 비코딩 RNA가 전사체 서열 측정 기술에 오염 데이터를 인입함으로써, 유전체 주석에서 해당 기술의 응용은 제한을 받고 있다. 상대적으로 볼때, 종열중복 질량 스펙트럼 기술을 핵심으로 하는 단백질체학은 단시간내에 생물체 내 대량의 단백질을 감정할 수 있으므로 주석 유전자의 검증 뿐만 아니라 교정까지도 실현할 수 있다. 해당 기술은 이미 유전체 주석과 관건 주석의 중요한 근거로 되었으며 '유전단백체학(proteogenomics)'의 새로운 연구 방향을 생성하였다. 본 논문은 먼저 서열 예측과 상동 비교에 기반한 전통적인 유전체 주석 알고리즘을 소개하고 존재하는 문제점을 지적하였다. 해당 기초에서 전사체학과 단백질체학의 기술 특징을 결합하여 단백질체학이 원핵생물 유전체 주석에서의 우위점을 분석하고, 현재 대규모적인 유전단백체학 연구의 발전 상황을 종합하였다. 마지막으로 정보학 방면에서 현재 단백질체학 데이터로 유전체 주석을 실행할 때 존재하는 문제점과 해결 방안을 지적하고, 미래 유전단백체학의 발전 방향을 논의하였다. |