초록 |
본 발명은 분산 컴퓨팅 환경의 파편화된 데이터 소스로부터 중앙서버를 통해 의사 결정 트리를 생성하는 방법에 있어서, (a) 상기 중앙서버가 복수개의 분산된 데이터베이스의 각 데이터 소스에 대한 래퍼(wrapper) 또는 정보 제공자(IP: Information Provider)로부터 획득한 데이터의 속성(attribute)들과 상기 속성들의 충분 통계량인 조인트 카운트(joint count) 획득하는 단계; (b) 상기 중앙서버가 상기 충분 통계량을 기반으로 의사 결정 트리를 생성하기 위해 정보이득(IG) 값인 분할 기준(splitting criteria)을 계산하는 단계; (c) 상기 중앙서버가 상기 분할 기준을 바탕으로 재귀 호출(recursion)을 통해 분할을 반복하는 단계; (d) 상기 중앙서버가 상기 충분 통계량을 바탕으로 가지치기 알고리즘을 이용하여 분할을 종료하는 단계; (e) 상기 중앙서버가 상기 충분 통계량을 기반으로 리프 노드(leaf node)의 대푯값을 산출하는 단계를 포함한다. 이와 같은 본 발명은, 종래의 분산 데이터베이스를 그대로 활용할 수 있으면서, 예측 및 분석을 위한 의사 결정 트리를 구성하기 위한 기계 학습 알고리즘을 제공할 수 있고, 대용량의 분산 데이터베이스 환경에서, 때로는 불가능한, 데이터베이스의 통합이나 조인이 없이도, 예측 및 분석을 위한 의사 결정 트리를 구성하기 위한 기계 학습 알고리즘 방법을 제공할 수 있게 된다. |