자연어 지시를 통해 다양한 게임에서의 task를 배울 수 있는 에이전트 Scalable Instructable Multiworld Agent (SIMA)에 대한 구글 딥마인드 블로그 포스트이다.

비디오 게임은 현실처럼 다양한 학습 환경을 제공하고 실시간이며 변화하는 goal을 제공해줄 수 있기 때문에 AI가 잘 작동하는지 확인하기 좋은 환경이다. 기존 연구들은 Atari game이나 스타크래프트 등 하나의 게임을 잘 하는 데 집중했다면 SIMA는 다양한 게임에 instruction을 통해 적응하도록 하였는데, 단순히 게임을 잘 하는가 보다도 어느 환경에서도 instruction을 따를 수 있는가가 더 중요했다고 한다. 이는 결국 어느 환경에서도 AI agent가 잘 작동하도록 하는 것과 연결되기 때문이다.

학습은 먼저 언어와 게임 플레이 행동을 연결하는 것에서 시작한다. 데이터는 게임에서 플레이어가 하고 있는 행동에 대한 문장과 그 때의 영상 페어이다. output은 키보드와 마우스 제어로 나오고, 이에 대한 평가는 사람이 instruction을 잘 따랐는지에 대한 평가를 했다.
SIMA 에이전트는 사전학습된 비전 모델과 메모리를 포함하는 메인 모델로 구성되어 있는데, 이는 이미지-언어 매핑에 대한 모델과 다음 화면에 어떤 게 나올지 예측하는 비디오 모델을 포함한다. 이 모델은 환경을 인지 및 이해하고 행동하고, 교육받은 goal을 수행하기 위한 행동을 수행한다. 그 후 이러한 모델을 3D 세팅에 맞게 파인튜닝을 했다.
그 결과 SIMA는 한 가지 게임만 배운 에어전트보다 더 우수한 성능을 보였고, 학습하지 않았던 환경에서도 더욱 잘 했다고 한다. (일반화 능력) 또한 앞으로 높은 수준의 전략적인 계획(high-level strategic planning)과 완료해야할 하위 작업이 여러개가 필요한 작업도 수행하길 원한다고 한다.
개인적으로 게임 환경에서의 연구가 재미있다고 생각하고, 하고 있는 연구도 이런 류는 아니지만 게임을 이용하고 있어서 흥미로웠다. 여기서 말한 것처럼 게임 환경은 다양한 환경을 제공해줄 수 있고 다양한 시뮬레이션을 여러 번 돌릴 수 있어서 연구하기 재미있는 환경인 것 같다!
예전에도 비슷하게 게임 상황을 LLM에 넣어서 LLM이 그 때 취할 행동을 내보내면 그대로 행동하게 하는 논문을 읽었었는데, 비슷한 내용인 것 같지만 SIMA는 목적이 게임 자체를 잘 하는 것보단 "다양한 환경에서 instruction을 따를 수 있게 하기 위함"이라는 게 다른 것 같다. 뭔가 대기업스러운 생각인 것 같다 ... 실제 환경의 testing bed로서의 게임..?!
링크: https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments/
'Explore' 카테고리의 다른 글
[유튜브] Human-in-the-Loop Reinforcement Learning (0) | 2024.04.02 |
---|