Google's AI Plays Football…For Science!

친애하는 학자 여러분, Károly Zsolnai-Fehér의 2 분짜리 논문입니다 강화 학습은 머신 러닝 연구에서 중요한 하위 분야입니다

에이전트가 점수를 최대화하기 위해 환경에서 일련의 작업을 선택하도록 지시합니다 이를 통해 AI가 초인적 차원의 제어 드론, 로봇에서 Atari 게임을 할 수 있습니다 무기를 사용하거나 자율 주행 차를 만들 수도 있습니다 몇 에피소드 전에 우리는 가능성을 열어주는 DeepMind의 행동 스위트에 대해 이야기했습니다 인공 지능의 7 가지 핵심 기능과 관련하여 이러한 AI의 성능 측정 방법 학습 알고리즘 그 중에는 AI가 새로운 문제를 보여줄 때 얼마나 잘 수행 했는가, 그들이 얼마나 많이 외우고, 참신한 해결책을 찾고자 하는가, 얼마나 잘하는가 더 큰 문제 등으로 확장 그 동안 Google 두뇌 연구팀도 물리 기반의 제작에 바빴습니다 인공 지능에게 축구를 통제하도록 요청할 수있는 3D 축구 또는 일부 축구 시뮬레이션 이 가상 환경에서 여러 플레이어

이것은 특히 어려운 작업입니다 통과 및 장기 전략 계획과 같은 기초적인 단기 제어 작업 이 환경에서 강화 학습 에이전트를 수작업으로 테스트 할 수도 있습니다 규칙 기반 팀 예를 들어 DeepMind의 Impala 알고리즘이 유일한 알고리즘임을 알 수 있습니다

중공업 팀과 수공업 팀, 특히 운영 된 팀을 확실하게 이겼습니다 5 억 건의 훈련 단계 쉬운 케이스는 단일 기계 연구 작업에 적합하도록 조정되었습니다 이 사례는 방대한 시스템에서 훈련 된 정교한 AI에 도전하기위한 것입니다 나는이 아이디어를 많이 좋아한다

내가 여기서 특히 좋아하는 또 다른 디자인 결정은 이러한 에이전트가 픽셀 또는 내부 게임 상태 좋아, 그게 무슨 뜻이야? 픽셀 훈련은 이해하기 쉽지만 수행하기가 매우 어렵습니다 상담원이 화면에서 보는 것과 동일한 내용을 보게됩니다 DeepMind의 Deep Reinforcement Learning은 신경망을 훈련시켜이를 수행 할 수 있습니다 화면에서 어떤 이벤트가 발생하고 통과하는지 이해하기 위해 전략적, 게임 플레이 관련을 담당하는 강화 학습자에게 이벤트 정보 결정

자, 다른 하나는 어떻습니까? 내부 게임 상태 학습은 알고리즘에 많은 숫자가 표시됨을 의미합니다 모든 플레이어의 위치와 같은 게임 내 수량과 관련 공, 현재 점수 등 AI는 고품질이며 관련성이 높기 때문에 일반적으로 수행하기가 더 쉽습니다 전체 장면을 시각적으로 파싱하는 작업에 부담이되지 않습니다 예를 들어, OpenAI의 놀라운 DOTA2 팀은이 방법을 배웠습니다

물론, 영향을 극대화하기 위해이 프로젝트의 소스 코드도 제공됩니다 이것은 연구원들이 자신의 강화 학습을 훈련하고 테스트하는 데 도움이 될뿐만 아니라 까다로운 시나리오에서 알고리즘을 구현하지만이를 확장하고 자체 시나리오를 구성 할 수 있습니다 지금까지 플레이어 이름에 대해 언급하지 않기 위해 최선을 다했습니다 팀, 그러나 저항 할 의지가 다 떨어졌다 실제 베이지안으로 가십시오! 시청 해주셔서 감사합니다

다음에 you겠습니다