New DeepMind AI Beats AlphaGo 100-0 | Two Minute Papers #201

친애하는 동료 학자,이의 Károly Zsolnai-Fehér와 두 분의 논문입니다 AlphaGo에이 작품은 절대 광기이기 때문에, 당신의 논문에 잡아

이동의 게임에서, 플레이어는 목적이 둘러싸고있는 테이블에 돌을 넣어 상대보다 더 많은 지역 이것은 인공 지능 연구에 특히 흥미 아름다운 게임 공간 때문에 이동 가능한 임의의 종류를 이용하여 즉, 체스보다 대폭 크다 철저한 검색이 밖으로 질문이며 우리는 스마트 알고리즘에 의존해야 이 엄청나게 많은 검색 내에서 강력한 움직임의 작은 번호를 식별 할 수 공간 DeepMind의 이동 AI의 첫 번째 화신, AlphaGo는 정책 네트워크의 조합을 사용 그 움직임을 예측에 대한 책임 및 가치 네트워크는 승자를 예측하는 게임 그 자체에 대한 끝까지 재생 한 후 이들은 모두 깊은 신경망이며, 그들은 다음이라는 기술과 결합 몬테 카를로 트리 검색이이 큰 검색에서 검색 범위를 좁힐 수 있기를 공간 이 게임의 수천를 줬습니다 곳 알고리즘은 부트 스트랩 프로세스 시작 그는 이동의 기초를 배울 사용되었다

이를 바탕으로, 이러한 알고리즘은 무서운 사람처럼 좋은 일을 배울 수있는 것은 분명하다 플레이어 그러나 가장 큰 문제는, 어떻게 가능성이 전문가보다 더 잘 될 수 있었다 그것은 관찰했다고? 어떻게 제자가 주인보다 더 나은 될 수 있을까? 이 솔루션은이 게임에서 무엇을 할 수 배운 후, 그것은 반대한다이다 자체 많은 여러 번 그 능력을 향상시킬 수 있습니다 이 두 번째 단계는 가장 많은 시간이 소요되는 교육의 주요 부분이다 의 팬 후이 2 단에 재생하는 데 사용 된이 기본 알고리즘 AlphaGo 팬을 부르 자 0 5 패배 유럽 이동 챔피언 이 역사적인 순간 처음은 AI가없이 전문 바둑을 이길 수 있었다 핸디캡

팬 후이는 매우 강력하고 안정적인 플레이어에 대한 재생으로 자신의 경험을 설명하고 그는 또한 알고리즘은 매우 인간과 같은 느낌 언급했다 일부는 이동 지역 사회 내에서 의심을 표명하고 알고리즘이 결코 것이라고 언급 이세돌, 9 단 세계 챔피언, 18 개 국제 제목의 우승자를 이길 수 그냥 당신에게 그들의 일로 포인트에 따라 차이의 직관을 제공하기 위해, 이세돌이 예상된다 100 게임에서 팬 후이 97 시간을 이길 수 있습니다 그들이 도전 할 경우 그래서 몇 달 후, DeepMind 거대한 미디어 이벤트를 개최 그를 AlphaGo에 대해 재생합니다 이 깊은 신경 네트워크를 사용하는 기본 알고리즘의 약간 수정 된 버전이었다 더 레이어 및 이전 버전보다 더 많은 자원을 사용하는 훈련을했다

정책 네트워크 알고리즘의 변화도 있었다, 이에 대한 세부 사항을 사용할 수 있습니다 설명의 논문에서, 그것은 좋은 읽기입니다, 모습을 가지고 있는지 확인하십시오 의는이 알고리즘 AlphaGo 리를 부르 자 이 이벤트는 전세계의 모든 지켜되었다 아마도 카스파로프의 비교 될 수있다 딥 블루에 대한 공공 체스 게임 나는 침대에서 점프, 아침에 슈퍼 일찍 일어나는의 가장 다정한 기억을 가지고 흥분이 모든 이동 일치를 볼 수 있습니다 그리고 길고 nailbiting 시리즈, 이세돌은 AI에 의해 1 4를 격파했다

훨씬 적은 언론의 관심으로, 다음 단계는, 이름 AlphaGo 마스터 베어링왔다 AlphaGo 리보다 10 배 적은 텐서 처리 장치 주위에 사용하고, 심지어되었다한다 강한 선수 이 알고리즘 월 2017 년 온라인 인간 전문가에 대한 재생 및 모든 60 경기를 이겼다 그것은 연주했다 이것은 광기,하지만 당신이 그것을 생각하면, 음, 지금 당신의 논문에 개최 이 새로운 연구에서, AlphaGo는 다음 형태 AlphaGo 제로에 도달했습니다 모든 인간에 대한 액세스 권한이없는이 변종은 첫 번째 단계에서 게임을하고 배운다 완전히 자기 놀이를 통해

이 게임의 규칙 단지 지식을 절대적으로 아무것도에서 밖으로 시작한다 그것은 40 일 동안 훈련, 일 3함으로써,이를 AlphaGo 리의 수준에 도달했다 세계 챔피언 수준 이상입니다 21 일 주위, 그것은 실제적으로 매우 저렴한입니다 AlphaGo 마스터의 수준을 명중 모든 인간 그리고이 얻을, 40 일,이 버전은 모든 이전 AlphaGo 버전과 패배를 능가한다 이전에 게시 된 worldbeater 버전 100-0 이것은 지금 몇 밤 저를 유지하고있다 나는 단어에서 완전히입니다

이 버전에서, 두개 이상의 신경망 훈련 될 수있는 하나에 융합 효율적으로 그들이이 신경 네트워크가 임의부터 보여 이러한 곡선을보고 아름답다 초기화 이 규칙을 알고 있지만 그 이상, 그것은 게임 자체에 대한 완전히 우둔, 그것은 빠르게 실질적으로 매우 저렴한된다 그리고 마지막에 가장 적합한 부분을 왼쪽 – 그것은 단지 하나의 기계를 사용합니다 나는 그것이 우리의 눈 앞에 펼쳐지는 역사라고하는 것이 공평하다고 생각합니다

어떤 시간은 살아 있습니다! 이 놀라운 성취에 대한 DeepMind 팀에 축하드립니다 그리고, 나를 위해, 나는 더 넓은 청중에게 연구에 대해 얘기 사랑 그리고 진정한 특권이다 당신에게이 이야기를 할 수 있어야합니다 Patreon에 당신의 관대 한 지원을 주셔서 감사하고 더 많은 지출을 할 날 수있게 만들기 내가 가장 좋아하는과 더 많은 시간 정말 대단해 그리고 지금, 나는 그것이 약간 중복 알고 있지만, 근육의 메모리에서, 나는 평소 아웃거야 방법

보고에 대한 당신의 관대 한 지원에 대한 감사합니다, 나는 당신에게 다음에 보자!

Inside Google’s DeepMind Project: How AI Is Learning on Its Own | Max Tegmark

나는 단순히 복잡한 목표 달성에 얼마나 좋은 일 같은 지능을 정의합니다 인간의 지능 오늘날 다수의 기계 정보 오늘부터 매우 다르다 방법

첫째, 과거에 기계 지능에 그냥 항상 열등로 사용 인간의 지능 점차적으로 기계 지능은 매우 특정의 인간의 지능보다 더있어 빠른 포켓 계산기처럼 숫자를 곱 또는 큰 기억과 같은 좁은 영역, 정말 빠른 데이터의 양 우리가 지금보고있는 것은 그 기계의 지능이 그 좁은에서 약간 퍼지는이다 봉우리와 조금 더 넓은지고 우리는 여전히 인간의 지능, 인간 아이가 할 수있는만큼 광범위 아무것도 없다 거의 모든 목표 꽤 좋은 얻을 배울 수 있지만, 그 예를 들어, 지금은 시스템이 컴퓨터 게임의 다른 종류의 전체 넓은 길을 재생 배울 수 또는 드라이브하는 법을 배워야 꽤 다양한 환경에서 자동차 그리고 어

어디에서 일을 분명히 AI에 가고는 폭을 증가하고, AI의 성배됩니다 연구는 인간의 지능만큼 광범위 기계를 구축하는 것입니다, 그것은 좋은 얻을 수 있습니다 아무것도에서 그 일어난 일단 단지 인간만큼 폭 넓은 될 것 아니에요 매우 가능성 하지만 지금은 그냥 오른쪽이 아닌, 모든 작업에서 인간보다도 더 나은 나는 꽤 컴퓨터 괴상한 나 자신이야 고백해야합니다

나는 고등학교와 대학에서 다시 일부 컴퓨터 게임을 쓴, 그리고 최근 내가 봤는데 MIT에서 내 연구실 깊은 학습 연구를 많이하고 그래서 정말 좋아 저 멀리 날려 뭔가 "워"내가 처음이 구글 보았다 때 처음부터 컴퓨터 게임을 배운 DeepMind 시스템 당신은 컴퓨터 게임이 무엇인지 몰랐, 신경 네트워크 시뮬레이션이 인공 있었다, 그것은 화면, 당신은 단지 숫자에 공급 무엇인지 모르고, 컴퓨터가 무엇인지 몰랐다 그 화면에 서로 다른 색상을 표현하고 다른 출력 할 수 있음을 말했다 또한 대해 아무것도 모르는 다른 키 스트로크에 해당하는 숫자, 다음 그냥에게 점수를 먹이 유지하고, 모든 소프트웨어 아는 것은 무작위로 수행하려고하는 것이 었습니다 그 점수를 극대화 할 물건을한다 나는 화면 한 번 데미스 하사비스, 구글 DeepMind의 CEO에이를보고 기억 를 보였고,이 일을 정말 총 BS 전략을 연주하고 모든 손실 얼마나 첫번째보고 시간 후 다음 점차적으로 더 나은 얻고, 다음은 나보다 더 나은 얻고, 그것은 당신이 반송되어있는 브레이크 아웃이 미친 전략 (파악하면서 는 왼쪽 상단 모서리까지를 목표로 계속 것입니다 벽돌 벽의 떨어져 공) 거기에 구멍을 천공하고 다시 단지 주변에 튀는 공을 가지고 미친 많은 점수를 달성했다

그리고 나는 "우와, 즉 지능이다!", 같았다 그리고이 프로그램 사람은 심지어 그들이 때문에 그 전략에 대해 알고하지 않았다 매우 그 게임을하지 않았다 이 기계 지능이 작성자의 지능을 능가하는 방법에 대한 간단한 예입니다 인간의 자녀와 같은 방법으로 훨씬보다 더 지능이되고 결국 수의 부모가 교육을 잘합니다 이것은 단지 작은 작은 컴퓨터 바탕 화면에 미칠 수있는 하드웨어의 일종이다 지금 가장 큰 컴퓨터 시설까지 확장 상상하면 우리가 세계에 있고 내가 바로 그 그럴듯한 생각, 우리에게 알고리즘 개발의 더 수십 년을 제공 우리는 단지 우리보다 더 나은 컴퓨터 게임을 배울 수있는 기계를 만들 수 있지만, 게임 삶을 볼 수 있으며 우리보다 더 나은 모든 것을 할 수 있습니다