A Guide to DeepMind’s StarCraft AI Environment

안녕하세요 세계 Siraj와 오늘, 우리는 깊은 마음에 대해 이야기 할거야 스타 크래프트 2 아이 최근에 출시 된 환경 스타 크래프트 2 환경 훈련 강화 학습 모델과 그게 바로 당신이 보는 것입니다

데모입니다하지만 기본적으로 사용할 수 있습니다 스타 크래프트 2이 게임은 ai를 훈련하고 달리기위한 테스트 베드를 켭니다 철저한 학습 모델이 될 수있는 보강 학습 모델 실제로 할 수있는 모델 그 스크립트는 하드웨어 코딩 된 봇처럼 기계 학습조차하지 않습니다 그러나 요점은 그것이 될 의미가있다

사람들을 훈련시키고 시험하는 시험대 아이 모델이 켜져 있으므로 심층 강화를위한 지금은 정말 흥미 진진한 시간입니다 열린 아이 비트 두타 2 최근에 The World Champion에서 Dota 2에서 세계 챔피언을 물리 친 후 Deep Mine에서 그 후 스타 크래프트 2 출시 Ai 환경이 있습니다 흥미 진진한 것들이 많이 있습니다 지금 바로 강화 학습에 있습니다 Low-Hanging 이 과일은 머신 머신 섹션은 감독 학습에 반대되는 것으로서 많은 부분이 해결되었습니다 더 많거나 적습니다

그래디언트 기반 최적화 그라디언트를 계산 한 다음 가중치를 업데이트하면 레이블을 알 수 있습니다 그것은 당신이 그것이 시도되어 졌음을 알지만, 전에는 깊은 것입니다 강화 학습 많은 답변되지 않은 질문이 있으므로 정말 흥미 진진한 시간입니다 우리는 할거야 우리는 우리가 미리 훈련 된 모델과 내가 할 일 내 컴퓨터에 갈 것인가? 모든 필수 종속성을 설정하고 설치하고 스크립트 필요한 모든 것 기본적으로 제로에서 딥 마인을 사용하여 컴퓨터에서 실행되는 스타 크래프트 2를 가지려면 이동하십시오 환경 설치 및 모델 A 사전 훈련 된 모델 러닝, 좋아요

그래서 모델이 무엇인지 그것은 깊은 Q 학습자라고 불립니다 나는 그것이 무엇인지에 대해 이야기 할 것입니다 그러나 그것은 깊은 Q입니다 학습자와 그것은 스타 크래프트 2의 미네랄 샤드 미디 게임에서 실행됩니다 어떤 의미인가? Little을 모으는 봇일뿐입니다 장신구는 무기물 조각이라고 부르며 아무 것도 할 필요없이 자율적으로 할 것입니다

거기에서 당신은 당신이 그것을 알 수 있습니다 그것을 수정하거나 자신의 알고리즘은 있지만 일단 당신은 무언가를 가지고 있다면 그것을 설정할 것입니다 들어가기가 훨씬 쉬워집니다 그만큼 맨 아래의 것들과 내가 뭘하고 있니? 괜찮아 좋아요 우선 역사가 먼저 여기에 있습니다

그래서 광산은 러닝 게임 시뮬레이션에서 처음 시도했습니다 아타리 게임의 경우 바로 Google이 그것을 샀습니다 그들은 알고리즘을 만들었습니다 깊은 대기열, 학습자를 호출하십시오 우리는 실행 중이고 그 알고리즘을 사용하여 모든 아타리 게임이됩니다

이것은 그들이 서로 다른 두 가지 결합인가? 기계 학습의 아이디어 그들은 모두 학습 학습에 관한 깊은 학습의 아이디어를 결합했습니다 그 특징이 무엇인지 엔지니어에게 말할 필요가 없습니다 나는 긴 귀가 있고 갈색 모피가있는 개를 찾고 있습니다 아니요, 필요한 기능이 어떤 레이블에 매핑되는지를 알 수 있으므로 A를 사용합니다 이것을위한 컨벌루션 뉴럴 네트워크 특징을 창조하기 위하여 게임 스크린에서 배운 조밀 한 표정은 모두를 얻었다 게임의 픽셀은 픽셀이었고 밀도가 높았습니다

그 픽셀로부터의 표현 그리고 나서 그것은옵니다 그리고 그것은 그것이 본 것을 출력과 그 출력으로 변환합니다 아래 왼쪽 또는 오른쪽으로 값을 올렸습니까? 아타리 게임을 위해 조이스틱에서 사용할 수있는 모든 것 그것이 한 방식입니다 그냥 가져 가지 않았어요 게임에서 본 것의 의견 또한 cue learning이라고 불리는 것은 무엇입니까? 그것은 학습 학습 학습의 한 유형입니다 우리는 무엇을 초기화하는지 큐로 알려진 매트릭스와 Q 매트릭스에는 A 에이전트가 게임에서 취할 수있는 가능한 액션 및 이러한 모든 액션에 가중치가 부여됨 액션 이것은 더 나은 액션입니다

이 액션은 최상의 액션이 될 수 있으며, Q 매트릭스에서 액션을 선택합니다 당신이 결정하는 전략을 사용하면 무작위 일 수 있습니다 엡실론과 같은 가치 당신은 Q 매트릭스에서 액션을 선택합니다 당신은 일어나고있는 것을 관찰하는 게임에서 그것을 수행합니다 그리고 당신은 당신이 보상을 받았는지 아닌지를 봅니다

더하기 1을 빼고 1을 곱한 후 그 보상에 기초를 두십시오 액션이 모두되도록 Q 매트릭스를 업데이트합니다 Way 다르게 정당하고 그래서 아이디어는 결국 Q 매트릭스인가? 수행 할 수있는 최선의 행동을 취할 것입니다 뭐든간에 시간 단계 당신은 오른쪽에있어 Q 매트릭스는 A 신경망에서와 같은 가중치 역할을합니다 가중치 강화에서 시간이 지남에 따라 향상 Q 학습을 학습하면 시간이 지남에 따라 Q 행렬이 향상되어 두 아이디어가 결합됩니다

Together Right 너무 깊음 Q 학습과 이것이하는 방식입니다 Pseudocode가 조금 있습니다 그것이 어떻게 작동하는지 그리고 여기는 완전한 의사 코드이다 알고리즘의 작동 원리 이제 알고리즘이 단순하지 않다는 사실을 명심하십시오 당신은 컨볼 루션 네트워크 (Convolutional Network)를 가지고 있고 그 다음에 학습을 위해 뛰기도합니다

두 가지 다른 첫 번째는 재생 메모리라고 불리는 신경 과학의 특징과 재생 메모리는 본질적으로 A 메모리에있는 버퍼는 상점에 임시 버퍼가 있습니다 주 활동 및 보상 기본적으로 게임에서 일어난 일과이 일은 무엇인가에 대한 기본적 경험? 그들의 ai 향상 Aplay로 작동했던 Replay 메모리 개념을 사용할 때 Q 매트릭스와 마찬가지로 액션을 끌어낼 수있는 임시 버퍼 그래서 만약 우리가이 의사 코드를 보게되면 우리는 그것을 보게 될 것입니다 먼저 그것은 Replay Memory Matrix를 초기화하고 AQ 행렬 초기화 무작위로 게임의 초기 상태를 관찰합니다 픽셀이 처음 보았을 때 트레이닝 루프를 실행하므로 트레이닝 루프에서 다음과 같은 액션을 선택합니다 임의의 확률 값 엡실론 또는 자전거를 사용하여 임의로 Q 매트릭스 최적의 Q 값 선택 큐에서 Q 매트릭스의 최적 동작 그것은 본다

그리고 나서 그것은 그 행동을 실행할 것이다 우주 환경 그들은 바로 이것을 환경 단계 기능이라고 부르므로 행동을 실행하고 그 보상을 관찰 할 것입니다 받은 것입니다 그리고 그것을 저장할 것입니다이 상태는 보상 올드 스테이트와 행동 그 모든 그 그 그 4 가지 가치는 Replay Memory에 들어가고 다음 단계는 다음과 같습니다 손실 함수를 계산하면 손실 함수를 볼 수 있습니다 벨맨 방정식이라고도합니다 좋아, 이것은 벨맨 (Bellman) 방정식이라고도 불리우며, 너무 혼란스럽지 만 그게 바로 그럼에도 불구하고 기본적으로 재생 메모리에서 무작위로 샘플링 한 다음 검색 한 샘플을 사용합니다

A를 계산하려면 손실 함수를 사용하고 모든 반복에서 해당 손실 함수의 제곱을 최소화하고 손실 함수가 최소화됨에 따라 Q 행렬 값은 다음과 같이 향상됩니다 매번 걸음마 단계 결국 에이전트가 Q 매트릭스에서 액션을 끌어낼 때마다 점점 더 많아 질 것입니다 그것과 같은 최적의 보상을 극대화 할 손실을 최소화 할 것임을 알았습니다 당신은 30 초 B라고 말합니다하지만 그게 Deep Q 학습자가 일하는 방법입니다

높은 수준의 다음 단계 그랬어? 그것을 시도해보십시오 고대 중국 게임 많은 아이 전문가 전문가들이 10 년 20 년 30 년이 걸릴 것이라고 말했다 Ai가 너무 많은 사람들이 있었기 때문에 Ai가 게임을 이길 수 있기를 바랍니다 가능성은 너무 많습니다 검색 공간은 너무 넓습니다

모든 옵션을 통해 단지 무차별 공격으로 AI에 너무나 광대합니다 게임 상태가 매우 다양한 조합이 있기 때문에 AI가 너무 어려워서 Compute With the Computing Power의 한계로, 우리는 지금 생각했습니다 그러나 그것들이 있습니까? 잘못되었습니다 왜냐하면 깊은 학습과 모든 새로운 기술을 접할 때 항상 틀렸기 때문입니다 하지만 기본적으로 Alphago는 그들의 시도였습니다

그들은 여기에 두 개의 다른 신경 회로망을 사용했습니다 그들은 실제로 세 개의 신경망을 사용했습니다 그들은 세 가지를 사용합니다 다른 신경 네트워크 그들은 세 가지 신경 네트워크를 사용합니다 하나는 정책 네트워크 용이고 다른 하나는 가치 네트워크 용입니다

이 두 가지 컴퓨터는 둘 다 다릅니다 값 하나는 정책이고 다음은 값이며 정책과 값을 모두 사용합니다 Essential A가 무엇인지 안내하는 데 도움을 받으시겠습니까? 거대한 트리 검색 및 트리 검색 몬테 카를로 트리 검색이라고하며 여기에 대한 간략한 설명입니다 그것이 어떻게 작동하는지에 대한 설명이지만 기본적으로 Monte Carlo Tree 검색 또는 Mc tst A 탐색 트리를 시뮬레이션하고 AI는 각 시간 단계에서 동작을 선택합니다 정책 네트워크의 산출물 인 행동 가치와 사전 확률에 기초 해 일부 탐색 매개 변수는 정책 네트워크의 값과 네트워크를 가이드로 사용하여 검색에 도움이됩니다

매 단계마다 재생할 수있는 가능한 트리가 있으며 Alphago를 (를) 훈련했습니다 수천 시간의 숙련 된 게임 플레이 그리고 나서 그들은 그것을 주었다 그들은 세계 챔피언 인 Lisa dole에게 Alphago를 주었고 Bea Lisa dole 그래서 뛰는 게임 훨씬 더 힘든 도전이었습니다 20 개의 다른 아타리 게임보다 두 배 더 낫습니다 하지만 지금은 더 최근에 그들이 결정했습니다

Ante를 더 보냅시다 더 많은 권리와 결정했습니다 모두가이 기술을 사용할 수 있도록 오픈 소스하자 그래서 Starcraft 스타 크래프트는 틀림없이 모든 Pc의 가장 훌륭한 PC 게임이 아닌 경우 중 하나입니다 Fanboys는 나에게 온다

그러나 어떻게해서든지 스타 크래프트는 모든 시간의 최고의 PC 게임 중 하나입니다 전세계 플레이어 수천명의 사람들, 하루 만에 Job이 하루 종일 스타 크래프트를 즐기는 것입니다 대한민국에서 경쟁적으로 우위에 있음 특히 한국에 가깝다 그래서 Starcraft 2 거대한 멋진 게임 만약 당신이 전에 그것을 해본 적이 없다면 이것은 다운로드 할 수있는 좋은 기회입니다 무료입니다 나는 너에게 조금을 보여줄 것이다

그리고 전에 플레이 해 본 적이 있다면 자신의 전략을 바로 개선 할 수있는 좋은 방법입니다 당신은 스타 크래프트 2를위한 인공 지능을 구축하고 있습니다 생각하고있을 때 좋은 스타 크래프트 플레이어가되어야하는 모든 것에 대해 생각하고 있습니다 당신이 부를 소비해야 할 때 군대를 어떻게 건설해야 하는가 당신은 당신의 자원을 투자해야합니까? 시간과 에너지 그리고 당신이하려고하는 이런 모든 것들은 당신이 만든 AI에서 복제하기를 원합니다 스타 크래프트에서 아이를 생각하면 그곳에는 많은 것들을 할 수 있어야합니다

처음에는 아주 어렵습니다 기억의 사용 바로 기억하지 못하는 것 단기간에 일어난 일들을 기억할 수 있어야합니다 그것은 일어난 일들을 기억할 수 있어야합니다 과거의 과거와 과거의 장기적 관점에서의 회복 장기간에 걸쳐 계획을 세울 수 있어야합니다 때로는 현재 가치를 극대화하는 데 도움이되는 결정을 내리고 싶습니다 적을 죽이고 싶다 적들이 당신 옆에 있기 때문에 당신은 취약한 부대를 알고 있지만 다른 시간은 당신을 압니까? 단기간에 직관적이지는 않지만 장기적으로는 그렇지 않은 행동을하고 싶을 때가 있습니다

일부 자원에 많은 돈을 쓰고 싶으므로 지금 당장은 조금 돈을 벌 수 있습니다 그러나 장기적으로는 구입하신 리소스는 훨씬 더 도움이되므로 아타리 게임처럼 분명히 직관적입니다 당신이해야하는 모든 것과 같습니다 당신을 압박하십시오 점 A에서 점 B 또는 어떤 블록을 없애거나 스크린의 모든 외계인을 죽일 수 있습니다 그렇게 간단한 것이 아닙니다

심지어 무언가로서조차 어떤 위치에 당신의 기초를 확장하는 것과 같이 간단한 몇몇 업무 실제로 꽤 복잡합니다 마우스를 클릭하여 카메라를 조정해야합니다 사용 가능한 리소스와 이것이하는 일은 무엇입니까? 행동 및 계획 계층 적이며 일반적으로 매우 어렵습니다 강화 학습 알고리즘은 계층 구조의 개념을 파악 강화하기 위해 매우 어렵다 학습 알고리즘을 이해하기 위해 맞아요 당신이 행동을하고 당신이 보상을 받고 있기 때문에 에이전트 환경 루프가 있습니다

깊은 학습을하는 곳이 아닙니다 우리는이 모든 레이어를 가지고 있습니다이 모든 구조가 시간의 흐름에 따라 구축되었습니다 깊은 대기열 학습 A는 A를 갖는 좋은 예입니까? 계층 적 구조 A, 강화 학습 환경의 계층 적 모델 및 나는 그것이 첫 번째 중 하나라고 생각하지만 우리는 훨씬 더 많이 볼 것입니다 필드 밖으로 나올 발견들 전체 기계 학습 분야 올해와 내년은 깊은 철저한 학습에서 나올 것입니다

때로는 영리한 사람들 주로 깊은 학습에서 오는 아이디어를 결합하십시오 계층 적 학습과 강화의 아이디어 실시간으로 환경 학습을 통한 학습 Andre Karpati y Combinator에서의 최근 토론이있었습니다 왜 그렇게 부른 것 같습니까? Conf 그 사람이 그 Ag라고 말했던 곳에서 나는 인공적인 일반 정보를 가지게 될 것이다 시뮬레이션 바로부터 시작하여 ai를 만들 수 있습니다 우리는 현실 세계에서 적응하고 이것은 시뮬레이션입니다? 들어가다 황혼의 지역 음악 그러나 어쨌든 그래서 보강 학습 강화 강화 학습 슈퍼 핫 필드와 이것은 당신이 일할 필요가없는 바로 들어가기위한 기회입니다 깊은 마음, 너는 할 수있는 열린 아이에서 일할 필요가 없어

그냥 시간을 갖고있는 아이가 되라 이 재료로 작업 할 에너지와 인터넷에 접속할 수 있는지의 여부 그리고 당신도이 일을 할 시간이 있습니다 알고리즘 및 사용자 github에 게시하여 Hacker News에 게시합니다 Machine-Learning Subreddit에서 멋진 피드백을 얻을 수 있습니다 느슨한 채널이나 온라인 포럼에서 온라인 연구 그룹에 참여하십시오

훌륭한 작업을 할 수 있습니까? 당신의 포트폴리오에 Github 이력서를 추가 할 수 있습니다 미래의 전망 대학에서 공부하고 있거나 이 분야 중 하나지만 요점은 어디서나 얻을 수 있습니다 당신은 옳은 일을해야합니다 스타 크래프트 2는 훌륭한 테스트 맞춤입니다 훌륭한 도구입니다

자신을 테스트했습니다 나는 이것이 깊은 강화 학습을 시작하기에 정말 좋은 장소라고 생각합니다 좋아, 이제 코드 오른쪽에 그렇게 기본적으로 블리자드와의 협업 이었기 때문에 블리자드는 이미 사용자가 스크립팅 된 봇을 만들 수있는 Api를 출시했습니다 Pickle 파일에서 실행중인 학습 기반 봇 사전 교육 모델을 알고 있습니다 재생 분석 및 도구로 보조 된 휴먼 플레이 및 Deepmind 's 저장소가 호출 된 환경 pi Sc 2 Pi Starcraft 2 모든 것이 파이썬에 있습니다

포드에 감사드립니다 맞아요 파이썬이지만 4 개의 구성 요소가 있습니다 첫 번째로 파이핑하는 Api입니다 파이썬 블리자드에서 다음은 익명의 게임 리플레이의 데이터 세트입니다

괜찮아 그래서 그것은 많은 것을 가지고 있습니다이 익명화 된 게임 리플레이 당신이 바로 여기에서 다운로드 할 수 있습니다 그리고 A가 있어요 일련의 간단한 R1 미니 게임 그들 중 하나는 우리가이 데모 및 다른 것을 테스트하려면 환경 다른 알고리즘을 테스트 해 볼 권리가 있습니다 블리자드 초기 API였습니다

그런 다음 Deepmind가 자체 알고리즘으로 래핑했습니다 파이썬 저장소 권리 그래서 우리가 할 일은 우리가 할거야 모든 것을 바로 설정 그래서 내가 갈거야 이런 여기에 일곱 단계가있는 설치물과 내가 시작하기 위해 모든 것을 진행할거야, 알았지? 그래서 무엇보다 먼저 다운로드해야 할 것 스타 크래프트 블리자드 클라이언트에게 무료입니다 블리자드에 가입하면 스타터 에디션을 선택할 수 있습니다 초보자 용과 무료로 제공하고 그냥 다운로드 할 수 있습니다 다음과 같이 재생할 수 있습니다

알고있다 대역폭에 따라 다르지만 다운로드 및 설정에 약 1 시간이 걸렸습니다 이미 튜토리얼을 통해 실행 중이었습니다 스타 크래프트 2 나 한테는 한 시간 밖에 못 남았 어 확실히 다운로드 해 스타 크래프트 2를 다운로드 한 다음이 7 단계로 이동하여 첫 번째 단계에서 Pi 설치 Sc2 오른쪽과 그래서 다행히 그들은 감쌌다

그것으로 우리를위한 좋은 작은 파이썬 라이브러리 그래서 내가 갈 수 있고 pip를 사용하여 설치하기 때문에 Sudo pip 3을 말할 것입니다 파이 Sc 2 설치 승인 과 다운로드 중 그리고 그것은 얻었습니다 모든 종속성을 제거하십시오 방금 말한 블리자드 API 그리고 다른 것들 좋아, 지금 그건 우리가 파이를 설치 한 1 단계 였나요? Se2와 다음 단계는 샘플 코드를 설치하는 것입니다 샘플 코드는 github에서 직접 복제 할 수 있습니다

git Clone처럼 그냥 다운로드 할거야 마찬가지로 그 권리와 샘플 코드는 사전 훈련 된 모델을 포함하며이 파일을 실행하는 데 필요한 모든 Python 파일을 포함합니다 보강 학습 봇 및 그럼 일단 당신이 그걸 가지고 있다면 그것은 2 단계입니다 3 단계는 스타 크래프트 2에서 미니 게임을 다운로드하는 것입니다 바로이 링크를 클릭하면됩니다 여기 우리의지도가 미니 가메지도 괜찮습니까? 그래서 우리는이 모든 것들을 우리의 것으로 옮길 수 있습니까? 스타 크래프트 2 용 폴더 및지도 폴더 오른쪽에 있어야합니다

여기에 우리는지도에 들어가서 그냥 복사해서 붙여 넣기 만하면됩니다 이제는 내 Starcraft 2 응용 프로그램 블리자드 클라이언트에서 다운로드 한 응용 프로그램에는 이러한 맵이 있으므로 이러한 맵이 있으면 이제 Tensorflow 및 Open Ai Baselines를 설치할 수 있습니다 알았어 그래서 그래서 당신이 Tensorflow를 가지고 있지 않다면 Tensorflow를 설치할 수 있습니다 pip 3 or pip 설치할 수 있습니다 Tensorflow 설치, 이미 Tensorflow를 얻은 다음 한 번 설치하십시오

Tensorflow 그래서 Tensorflow이 기계 학습 모델을 훈련하고 실행할 수 있어야합니다 그런 다음 열린 Ai를 설치해야합니다 베이스 라인은베이스 라인이 고품질 컬렉션입니다 강화 학습 알고리즘 바로 Deep Q Network는 그 중 하나입니다 우리는 사용하게 될 것이고 또 다른 정책 기온 변화도가 있습니다

강화 학습 알고리즘 기본적으로 이러한 강화 학습을 구현할 수있는 방법입니다 코드를 처음부터 다시 코딩하지 않고도 알고리즘을 수행 할 수 있습니다 기존의 것을 수정하여 더 나은 결과를 얻을 수 있는지 살펴보기 위해 좋은 방법입니다 알고 계신다 테스트하기

테스트하기 몇 가지 다른 효과들 그렇다면 나는베이스 라인 환경을 다운로드 할 수있다 과 베이스 라인을 다운로드하면 내 폴더를 넣었습니다 내지도를 스타 크래프트 2 폴더 그럼 전방에 가서 프로젝트를 열 수 있습니다

Intellij 그래서 내가 말하는 이유는 이것을 위해 Intellij를 사용하십시오 숭고한 또는 일부 정규 텍스트 편집기를 알고 있기 때문에 이것, 오 개최 코스의 허가 오류, 우리는 코스의 Sudo를해야만합니다 그래서 나는 그 이유를 말합니다 Intellij입니다 왜냐하면 거기에 몇 가지 로그가 정말 볼만 큼 그것이 오는 때 에이전트가 실행되는 방법 Intellij를 사용하면 쉽지 않습니다 A를 사용하지 않은 경우 Intellij와 같은 통합 개발 환경의 아이디어는 훌륭한 것입니다

이것은 대단한 이유입니다 Intellij를 다운로드하고 다운로드하십시오 여기에서 다운로드 할 수 있습니다 유료 버전이 있습니다 하지만 무료 버전 인 커뮤니티 버전은 커뮤니티 버전으로 제공되므로 유료 버전을받을 필요가 없으며 모델을 처음부터 교육하고 싶다면 그렇다면 파이썬 3을 실행할 수 있습니다

우리는 할거야 우리는 사전 훈련 된 모델을 실행 할거야 그래서 우리는 그렇게하지 않을거야 스크래치에서 훈련시켜야 해, 우리 그냥하고 싶어? 우리는 바로 뭔가를 얻고 싶습니다 바로 앞두고 바로 그 모델을여십시오 알았어 그래서 intellij가 지금 열리고있어

프로젝트가 열리면 미리 가서 내 프로젝트를 열어 프로젝트를 가져오고 내 프로젝트가 어디에 있으므로 내 프로젝트가 다운로드에서 Sc Sc – 그래서 나는 다운로드로 갈거야 파이 2 가지 예를 봅니다 좋아, 그럼 열어 기존 소스에서 완료 Python을 지원하는 플러그인을 설치할 수 있습니다 내가 할께, 할께 지금은 너무 분명히 내가가는 것처럼 나는 모든 단계를하고 있어요 이 작업을 완료하기 전에 그리고 나서 파이썬 플러그인을 초기화하기 위해 다시 시작하겠습니다

괜찮아 이제 코드를 Intelli로 중요하게 생각했습니다 파이썬 프레임 워크를 발견했습니다 그때 그리고 거기에 우리는 그것을 가지고 있으며 이제 클라이언트는 백그라운드에서 실행 중입니까? 그것은 그것의 Starcraft 2 실행 됨 시스템에 Starcraft 2가 설치되어 있고이 스크립트를 실행 함 스타 크래프트 2 환경에서 사전 훈련 된 모델을 실행하여 액세스 할 수있게하십시오 깊은 광 때문에 Deepc 때문에 Starcraft 2 게임 파이 Sc2 후드 아래의 저장소 블리자드를 사용하고 있습니다 Api It 's하지만 로컬 API입니다

그래서 그것은 연결되는 것 같지 않습니다 더 멀게는 게임에 연결되는 것입니다 데스크탑이나 랩톱에서 올바르게 작동합니다 행동 규범의 관점에서 모델과 환경은 우리를 통해 만들어졌습니다이 코드에서는이 것이 깊음을 가지고 있습니다

컨볼 루션 네트워크 바로 여기에서 볼 수 있습니다 매개 변수보기 여기 숨겨진 레이어 수는 여기에 있습니다 그리고 그것은 열린 Ai를 감싸는 것입니다 환경 그건 단계 야 기능 권리

그래서 주어진다이 매개 변수와 그것의 결합 둘 다 컨벌루션 네트워크와 Q 네트워크 Train ai 그리고 피클 파일로 저장하여 Pre-Trained Model을 피클 파일로 저장 한 다음 한 번 저장합니다 피클 파일 훈련, 우리는 할 수있다 우리는 Pickle 파일에 액세스하여 Starcraft 2 환경의 Deepmind 환경에서 사전 훈련 된 모델을 실행할 수 있습니다

그리고 우리가이 코드를 본다면 사실 그것은 꽤 많은 코드이며 다른 비디오를 만들 수 있음을 알 것입니다 모든 코드 작동 방식에 대해 이야기하십시오 하지만 지금 당장은이 스크립트를 설치하고 구성하여 사용자가 직접 실행할 수 있도록 도와 드리고자합니다 스타 크래프트 2를 다운로드하는 것을 포함하여 실제로 실행하기가 두렵지 않아요 코드 다운로드 모든 의존성 설치하기 아마도 Zero에서 자신의 운영까지 1 시간 반이 걸릴 것입니다

이 게임의 R1 알고리즘 좋아, 그럼 내가 더 많은 프로그래밍 비디오를 구독 해 주시기 바랍니다 지금은 스타 크래프트 2를 재생할 것입니다 보고 주셔서 감사합니다