초록 |
Ⅳ. 연구결과 가. 선진국 빅데이터 인프라 현황 조사 및 국내 수준 문제점과 시사점 ○ 본 연구에서는 화학물질 관련 정보의 수집방법, 자동화 수집 툴(tool) 활용, 수집정보의 처리・분석 등 IT 기술, 공유방법 등의 분석을 진행하였으며, 그 중에서도 EU의 ECHA 및 미국, 일본 등의 선진국의 화학물질 평가를 위한 데이터 관리 전략을 조사·분석하였다. 또한, 화학물질 관련 정보의 수집방법에 대한 분석을 위해 국외 화학물질 데이터베이스의 수집 대상과 적용 기술에 대한 분석을 진행하였으며, 공개 데이터베이스의 전자적 활용성을 함께 분석하였다. ○ 국내외 관련 연구로써 일본의 AI를 이용한 유해성 심사 연구로써 “구조활성 상관기법에 의한 유해성 평가기법 개발” 프로젝트(2007-2022년), 빅데이터·기계학습을 통한 화학물질평가 적용 관련 연구로써 Thomas Hartung 교수의 최근 연구인“Machine learning of toxicological big data enables read-across structure activity relationships (RASAR) outperforming animal test reproducibility, Toxicological Sciences, kfy 152”, 신속평가체계 마련을 위한 관련 선행 연구인 “2020에 대비한 미래 환경 위해성 연구”, “화평법 대비 화학물질 안전성 평가 핵심기술 개발(IV)” 등의 연구에 대한 조사를 완료하였다. ○ 또한, 데이터 생산, 수집부터 분석, 공개까지의 IT 플랫폼으로 체계적인 관리를 시행하고 있는 EU의 사례를 기반으로 국내 수준 현황을 분석하고 선진국의 화학물질 데이터 관리 전략에 대한 시사점을 도출하였다. □ 선진국 빅데이터 인프라 현황 조사 ○ 선진국의 화학물질 정보플랫폼 현황 분석을 시행하기 위해 분석 대상으로 선정한 플랫폼은 EPA의 Chemistry Dashboard(CompTox Dashboard), Tox21 & ToxCast (Toxicity Forecaster), iCSS Chemistry Dashboard (EPA NCCT), DSSTox(Distributed structure-searchable toxicity) 데이터베이스, OECD, eChemPortal, OECD, e.AOP.Portal, EU, OpenRiskNet (H2020 프로젝트), EU, AMBIT(FP7 프로젝트) 등이었으며, 해당 정보플랫폼에 대한 현황 분석을 시행하였다. ○ 선진국의 빅데이터 인프라 현황 조사 결과에서, 분석대상 빅데이터 인프라의 경우 통합 데이터 기반의 체계적인 데이터 관리전략을 수립하여 실제 화학물질 평가에 활용하기 위한 IT 인프라를 운영하고 지속적인 발전을 추진하고 있었다. ① Tox21&ToxCast(Toxicity Forecaster) - (Tox21) NIH, EPA와 FDA가 공동연구로 추진하는 프로그램 - 대용량 스크리닝(high-throughput screening) 및 계산 독성학 접근법을 이용하여 독성 평가기법 개발 - (ToxCast) EPA의 내분비 계통 선별 프로그램에서 화학물질 우선순위 결정에 활용 ② iCSS chemistry Dashboard(EPA NCCT) - 약 750,000종의 화학물질 정보 조회, 모델 예측, 화학 구조 정보, 물리 화학적 특성, 노출 및 사용 패턴, 데이터 분석 워크플로우, QSAR 기반 생리학적 약물동태학(PBPK) 및 독성 예측정보 제공 ③ DSSTox(Distributed structure-searchable toxicity) 데이터베이스 - EPA 화학물질 관련 데이터베이스들과 공개 데이터베이스 간의 매핑을 통한 통합된 형태로 구축. - 전문가의 큐레이션, 프로그램을 통한 수집 등의 세부 기준으로 데이터를 구분하여 데이터 질 관리 ④ OECD, eChemPortal - 화학물질 정보의 국제적인 포털로 국가별/기관별 관리물질 정보 제공 - 34개의 데이터베이스로부터 물리화학적 특성, 환경 거동, 환경 독성, 독성 데이터 등을 물질 기준으로 연결 ⑤ OECD, e.AOP.Portal - EPA와 유럽 연합 공동 연구센터(European Commission Joint Research Center)와 공동 협력을 통해 AOP Knowledge Base를 2012년부터 시작하여 AOP 프로그램 개발 및 운영 - 화학물질에 대한 모든 정보를 수집하여 하나의 시스템에서 확인 가능하도록 구성하되, 상세 정보는 연계된 시스템으로 이동하여 원본 자료를 확인할 수 있는 URL 제공 웹기반 플랫폼으로 운영 ⑥ EU, OpenRiskNet (H2020 프로젝트) - 화학물질 평가를 위한 데이터 공유, in silico 분석 및 모델링 등을 지원하는 개방형 e-Infrastructure 형태의 웹 플랫폼 - 평가결과 검증 워크플로우 생성 등 효율적인 위해평가 제공 ⑦ EU, AMBIT - Read-Across와 카테고리화 원리를 적용한 소프트웨어 도구 - 450,000개 이상의 화학물질 구조와 식별자 보유, 데이터마이닝 기능 모듈 포함 □ 선진국 데이터 관리 전략 ○ 과학 분야를 포함하여 사회의 다양한 조직에서 공통의 IT 공간을 만들어 데이터를 공유하고 교환하는 등에 관한 관심과 수요가 급증함에 따라, 본 연구에서 분석대상으로 선정한 선진국의 화학물질 빅데이터 인프라들이 이종 데이터의 단일화(homogenizing heterogeneous databases), 데이터 관리, 메타데이터 수집 및 표준화,시스템 구축 및 유지, 데이터 사용 등에 관한 정책 등을 공유하기 위한 원칙을 조사하고 그에 따른 빅데이터 연결·공유 플랫폼 구축에 논리를 정리하였다. ○ FAIR 원칙: 과학 분야를 포함한 사회의 다양한 조직에서 공통 공간을 만들어 데이터 공유 및 데이터 공유 원칙 정의 □ 현 국내 시스템 문제점 및 시사점 ○ 현재 국내에서 수행되고 있는 화학물질의 유해성 평가방식은 대상 화학물질의 심사·평가를 위한 부족한 유해성 자료를 채우고, QSAR 등을 통한 독성예측 데이터를 검색 및 확인하는 등의 IT 기반 통합 화학물질 평가시스템이 부재하여, 향후 10년간(21-30년) 모든 기존 화학물질(국내 1톤 이상 제조·수입, 약 7천여 종)에 대한 유·위해성 평가를 완료하기에 많은 어려움이 있다. ○ 또한, 화학물질정보시스템(NCIS) 등을 별도로 구축·운영하고 있어 화학물질 평가를 위한 등록서류 제출 등의 과정을 화학물질 정보처리 시스템을 통해 전자적으로 제출하도록 하고 있으나, 실제로 축적되는 자료는 비정형 데이터로 구성되어 있어 시스템을 통한 제출데이터의 지속적이고 자동화된 데이터베이스 구축이 이루어지지 않고 그에 따른 활용성 역시 매우 낮은 상태이다. ○ 따라서, 화학물질 평가에 IT 기술을 활용하여 체계적인 데이터 관리 전략을 확립하고 통합 데이터 기반의 IT 시스템을 구축하여 이종 데이터의 단일화를 통한 화학물질 데이터베이스 통합, 그에 따른 독성 예측 방법(read-across, QSAR, 독성 매커니즘 기반 평가 등)의 개발·검증과 빅데이터 및 인공지능 등 IT 기술 활용의 지속적 진행이 필요하다. ① 데이터 관리 측면 : - 기존 보유 중인 비정형 유해성 자료를 표준 데이터 형식으로 정형화 - 화학물질 구조 등 화학물질 식별에 필요한 DB 구축 - 국내 산재된 기존 데이터베이스 간 연결을 위한 온톨로지 및 DB 설계 - 데이터 품질관리를 위해 데이터 등급 부여 ② 플랫폼 측면 : - 다양한 DB에서 수집된 데이터를 중앙 집중적 DB로 구축하고 물질 기준 통합된 형태의 데이터 제시 - Raw DataSource, 스크래핑 등 자동화된 수집 기술개발 - read-across 등과 같은 독성 예측 방법의 IT 지원책 마련 나. 화학물질 정보플랫폼 구성(안) 및 단계적 개발과제 도출 □ 화학물질 정보 플랫폼(안) ○ 선진국 대비 국내 화학물질 데이터 관리전략 및 화학물질 정보시스템, 화학물질정보처리 포털 등 기존 화학물질 정보시스템 현황을 조사하였으며, 화평법 내 유해성 심사를 위한 화학물질 정보플랫폼 활용 영역을 식별하고 국내외의 화학물질 평가의 경향 변화 등을 분석하여 유해성 자료가 없는 물질의 경우 구조 유사성 및 데이터 간의 연관 분석을 통해 확인 가능하도록 정보플랫폼의 구축 논리를 개발하였다. ○ 본 연구에서는 화학물질 정보플랫폼을 통합 데이터 |