기업조회

본문 바로가기 주메뉴 바로가기

논문 기본정보

적대적 멀티 에이전트 환경에서 효율적인 강화 학습을 위한 정책 모델링

논문 개요

기관명, 저널명, ISSN, ISBN 으로 구성된 논문 개요 표입니다.
기관명 NDSL
저널명 정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용
ISSN 1229-6848,
ISBN

논문저자 및 소속기관 정보

저자, 소속기관, 출판인, 간행물 번호, 발행연도, 초록, 원문UR, 첨부파일 순으로 구성된 논문저자 및 소속기관 정보표입니다
저자(한글) 권기덕,김인철
저자(영문)
소속기관
소속기관(영문)
출판인
간행물 번호
발행연도 2008-01-01
초록 멀티 에이전트 강화 학습에서 해결해야 할 중요한 문제는 자신의 작업 성능에 영향을 미칠 수 있는 다른 에이전트들이 존재하는 동적 환경에서 한 에이전트가 시행착오적 상호작용을 통해 어떻게 자신의 최적 행동 정책을 학습할 수 있느냐 하는 것이다. 멀티 에이전트 강화 학습을 위한 기존 연구들은 대부분 단일 에이전트 MDP 기반의 강화 학습기법들을 큰 변화 없이 그대로 적용하거나 비록 다른 에이전트에 관한 별도의 모델을 이용하더라도 다른 에이전트에 관해 요구되는 정보나 가정이 현실적이지 못하다는 한계점을 가지고 있다. 본 논문에서는 멀티 에이전트 강화 학습기술에 기초가 되는 기본 개념들을 정형화하고 이들을 기초로 기존 연구들의 특징과 한계점을 비교한다. 그리고 새로운 행동 정책 모델을 소개한 뒤, 이것을 이용한 강화 학습 방법을 설명한다. 본 논문에서 제안하는 멀티 에이전트 강화학습 방법은 상대 모델을 이용하는 기존의 멀티 에이전트 강화 학습 연구들에서 주로 시도되었던 상대 에이전트의 Q 평가 함수 모델 대신 상대 에이전트의 행동 정책 모델을 학습하며, 표현력은 풍부하나 학습에 시간과 노력이 많이 요구되는 유한 상태 오토마타나 마코프 체인과 같은 행동 정책 모델들에 비해 비교적 간단한 형태의 행동 정책 모델을 이용함으로써 학습의 효율성을 높였다. 또한, 본 논문에서는 대표적인 적대적 멀티 에이전트 환경인 고양이와 쥐게임을 소개하고, 이 게임을 테스베드삼아 비교 실험들을 수행하고 그 결과를 설명함으로써 본 논문에서 제안하는 정책 모델 기반의 멀티 에이전트 강화 학습의 효과를 분석해본다. 이는 바람속도의 감소로 열의 이류가 적은 점과 지면의 습도 차이로 도시지역에서 잠열로 인한 열의 방출이 작은 점 그리고 지면특성에 따라 비열, 지면으로의 열전도의 차이 등이 복합적으로 작용한 결과로 사료되며 본 연구의 모델이 이를 잘 수치모사를 해주고 있음을 보여주고 있다. 4. 농경지 발생 잡초의 생태적 특성을 고려한 경제적 가치분석결과 초종간 차이가 있었으며 $411{ sim}861$ 원 정도의 경제적 가치가 있는 것으로 밝혀졌다.의 가수분해가 촉진되어 VFA생성이 효율적인 것으로 판단되었다. 고온에서 NaOH에 전처리 된 음식물찌꺼기를 산발효 시켰을 때 VFA가 가장 높았던 시점을 기준으로 VFA의 조성을 조사한 결과 acetic acid가 45.9%, buftc acid가 26.7%, propionic acid가 13.9% 등으로 총 유기산 발생량의 86.5%를 차지하였다.대비하여 퇴비원료의 적합성 여부를 판별할 수 있는 방법의 개발이 필요하다. 따라서 퇴비원료로 이미 지정('02. 12. 31)된 제약오니 및 화장품 오니를 과량으로 토양에 시용한 후 유해 유기화합물, 미소동물, 미생물 및 생물학적(지렁이) 유해성 검정방법의 도입 가능성을 평가하기 거하여 고추를 재배한 포장에서 비료의 피해시험을 실시한 과 유해 유기화합물과 생물학적(지렁이) 유해성 검정방법은 앞으로 연구를 통해서 보완할 경우 상당히 활용 가능성이 있는 좋은 평가방법인 것으로 생각된다. 접촉 반응시간에 따른 탈착효율은 10분 이내에 전체 탈착량의 80%이상이 탈착 되었으며 1시간 이후에는 거의 변화가
원문URL http://click.ndsl.kr/servlet/OpenAPIDetailView?keyValue=03553784&target=NART&cn=JAKO200810737095409
첨부파일

추가정보

과학기술표준분류, ICT 기술분류,DDC 분류,주제어 (키워드) 순으로 구성된 추가정보표입니다
과학기술표준분류
ICT 기술분류
DDC 분류
주제어 (키워드) 멀티 에이전트,강화 학습,정책 모델링,상대 정책 모델,Multiagent System,Reinforcement Learning,Opponent Policy Model