Flexible systems are the next frontier of machine learning

– 우린 괜찮아? 안녕하세요 AI Salon에 오신 것을 환영합니다

우리는 오늘 당신들에게 아주 특별한 인공 지능 살롱을 가지고 있습니다 내 이름은 호르헤 쿠에 토 (Jorge Cueto)이고 나는 조직자 중 한 명이다 AI 살롱 시리즈 AI 살롱에 익숙하지 않다면, 우리는 대략 두 주간의 주간 시리즈입니다 우리는 금요일에 함께 기계 학습 및 인공 지능 (AI) 분야에서 높은 수준의 주제를 논의하기 위해, 우리가 도망 갈 수 있도록 돕는 목표로 우리의 일상적인 연구와 연구로부터 우리가 매일하는 일을 어떻게하는지보십시오

사회의 더 큰 그림에 들어 맞는다 이 사건들은 계몽 시대 시대의 살롱을 모델로 한 것이며, 그래서 우리는 전자 제품을 사용하지 않습니다 우리는 화이트 보드를 사용하지 않습니다 그것은 모두 공개 토론입니다 실제로 토론 부분으로 이동하면 우리는 앙드레가 들고있을 마이크를 여기 있습니다

따라서 질문이나 의견이 있으시면 질문을하기 위해 옆으로 나아가십시오 이것은 분명히 대화입니다 제발 질문에 대해 부끄러워하지 마세요 오늘은 주제에 대해 논의 할 것입니다 유연 기계 학습 시스템, 우리에게는 아주 특별한 손님이 두 명 있는데, Jeff Dean과 Chris Re

그들은 어떤 소개도 필요하지 않습니다, 나는 확신합니다 그러나 나는 단지 공유하고 싶다 그들의 배경에 대해 조금 우리 모두가 같은 페이지에 있는지 확인하십시오 그들이 얼마나 굉장한 지에 대해서 (청중 웃음) Jeff Dean은 Google AI의 책임자입니다

Google Brain의 공동 설립자이기도합니다 1999 년에 Google에 합류했습니다 관심 분야는 다음과 같습니다 대규모 분산 시스템, 성능 모니터링, 기계 학습의 응용 검색 및 관련 문제, 신제품 개발 기존 정보 정리 새롭고 흥미로운 방식으로, 몇가지 말하자면 그는 컴퓨터 과학 박사 학위를 받았다

워싱턴 대학에서 Chris Re는 부교수입니다 컴퓨터 과학과에서 InfoLab의 스탠포드에 있습니다 그는 통계 컴퓨터 학습 그룹, Pervasive Parallelism Lab, Stanford 인공 지능 연구소 그의 작업 목표는 사용자와 개발자가 응용 프로그램을 작성하는 방법 더 깊이 이해하고 데이터를 활용합니다

그의 연구는 데이터베이스 이론, 데이터베이스 시스템, 기계 학습 Chris는 2015 년에 MacArthur Fellowship을 수여 받았습니다 그는 또한 컴퓨터 과학 박사 학위를 받았습니다 워싱턴 대학에서 사실 약간의 개인적인 관계가 있습니다

둘 다에게 Google에서 Jeff Dean은 전설이며, 모든 직원이 Jeff Dean 번호를받습니다 그들의 프로필에 이것은 당신을 얼마나 멀리 제거했는지 나타냅니다 분리 정도의 관점에서 조직도의 Jeff Dean으로부터

제프 딘이 네 명 이었어 내가 PM으로 일했을 때 크리스에 관해서는, (청중 웃음) 나는 Chris 's CS145 Intro to Databases 클래스를 가져 갔다 학사로서, 나는 솔직히 말할 수있다 그는 최고의 컴퓨터 과학 교수 중 한 명이었습니다

나는 스탠포드를 가졌다 오늘 우리 둘을 데리고와 주셔서 감사드립니다 – 정말 고마워 (관객 박수) – 우리가 시작할거야 각자에게 개회사문을 제공함으로써 오늘 주제를 소개하는 유연한 기계 학습 시스템의 관점에서

Jeff Dean이 먼저 가고 Chris Re 그들이 개장 한 후에, 우리 모두 너희들에게 열어 줄거야 너의 질문을 물어봐 나는 또한 내 자신의 몇 가지 질문을하겠습니다 대화 시작

제프, 받아 줄까? – 좋아 먼저 나를 보내 주셔서 감사합니다 여기 와서 정말 흥분 되네 나는 국제 여성의 날에 생각합니다 그래서 행복한 국제 여성의 날

(관객 박수) 이것은 흥미로운 형식입니다 나는 무엇을 기대해야하는지 잘 모르지만, 여기에 우리가 간다 나는 내가 이야기하고 싶은 것이 무엇인지 생각한다 오늘 내가 배우는 기계 분야에서 볼 수있는 것은 우리는 많은 성공을 거두고 있습니다 흥미로운 문제를 발견 할 때

대부분 우리가하고있는 것은 감독 학습입니다 매우 성공적 일 수 있습니다 실제로 올바른 데이터 세트를 수집 할 수 있습니다 상당히 복잡한 엔드 – 투 – 엔드 기계 학습을 수행한다 복잡한 작업에

번역을 배우고 싶다면 영어에서 일본어, 우리는 병렬 문장의 큰 데이터 집합을 수집 할 수 있으며, 모델을 훈련 시키자 그리고 그 모델은 이제 더 잘하고있다 우리가 적용하는 방법을 알고있는 다른 접근법보다 그런 종류의 문제들 소량의 멀티 태스킹 학습을 할 때마다, 우리가 말하는 곳, 아,이 3 ~ 4 가지는 관련이 있습니다 어쩌면 우리는 하나의 모델을 훈련시켜야합니다

그것은 단지 하나가 아닌 3 ~ 4 가지를합니다 우리는 그것이 잘 작동하는 것을 발견하는 경향이 있습니다 동시 멀티 태스킹 학습 또는 우리는 이전 학습을 할 수 있습니다 여기서 우리는 관련된 작업을위한 모델로 시작한다 그런 다음 매개 변수를 복사합니다

그런 다음 다른 작업을 세밀하게 조정하십시오 어쩌면 우리는 아주 많은 데이터가 없을 것입니다 그것은 보통 꽤 잘 작동합니다 그러나 나는 우리가 충분히 야심적이지도 않다라고 생각한다 이 접근법에서

정말, 나는 우리가 한 모델을 훈련해야한다고 생각한다 우리가 신경 쓰는 모든 일을하는 것 Google은 수천 대의 기계 학습 모델을 교육합니다 많은, 많은 다른 일을하는 것 그리고 그들 각각은, A, 많은 데이터가 모두 학습 중이기 때문에 기본적으로 임의의 부동 소수점 숫자를 시작하는 것으로부터, 새로운 일을 배우는 것을 시도하기 위하여, 물론 더 많은 데이터가 필요합니다 세상에 대한 맥락이 없을 때 당신 이외에 난수 발생기가 뿌렸어요

무작위로 씨 뿌린다 나는 톤이 있다고 생각한다 흥미로운 분산 시스템 문제에 대해 분명히 시스템, 수천 또는 수백만 개의 작업을 수행하는 방법을 배워야하는 경우, 희망은 만과 첫 번째 과제가 따라옵니다 어떻게하는지 알고있는 것들을 활용할 수 있습니다 처음 만 건의 작업에서 아주 좋은 상태가 될 수 있어야한다

백만 분의 첫 번째 과제를 매우 빨리 아주 적은 예제가 있습니다 그게 방향이야 나는 전체 공동체가 추진해야한다고 생각합니다 여기에는 수 많은 분산 시스템 문제가 있습니다 시스템이 매우 커지려고하기 때문에 계산 능력면에서 그 중 일부가 다운 된 경우에도 실행할 수 있기를 원합니다

여전히 가능하다 합리적인 예측이나 결과를 내려면 이 기계 선반이 떨어져도 또한 재미있는 기계 학습 질문 톤이 있습니다 왜냐하면 저는 이것을 실용적으로 생각하기 때문에, 매우 희소하게 활성화 된 모델이어야합니다 그래서 어떤 특정 작업을 위해, 분명히 활성화하고 싶지 않아

그 작업을위한 칩의 전체 데이터 센터 이 모델을 통해 통로를 찾고 싶습니다 해당 작업과 관련이있는 관련이없는 다른 부분은 활성화되지 않습니다 그것은 우리가보고 있어야한다고 생각하는 방향입니다 나는 꽤 흥미로울 것이라고 생각한다 나는 그것에 대해 꽤 흥분한다

좋은 조합이야 기계 학습 연구 문제 및 컴퓨터 시스템 문제 및 그 (것)들은 수시로 유익하다 협업에 좋습니다 – 굉장해 – 크리스 그래, 제프와 나는 정말로 여기서 일직선이되어 있다고 생각해

아마 내가 생각할 수있는 트위스트가 성능 문제 외에도 그리고 시스템은, 사람들이 어떻게 소프트웨어를 만들지 생각합니다 근본적으로 변화하고있다 이러한 대규모 멀티 태스킹 모델의 결과로 내가 너에게 문맥을 줄 수 있다는 것을 이해하기 내가 생각해 봤던 것들 지난 몇 년 동안 5, 6 년 전에 우리는이 시스템을 구축하고있었습니다 그것은 합동 추론 및 학습 시스템이라고 불 렸습니다

이것들은 정말로 가설을 가지고있는 시스템이었다 이러한 여러 가지 일을 많이 할 수 있다면, 3, 4, 5 개의 작업을 동시에 수행 할 수 있습니다 문장을 읽고, 일부 회화를하고, 문서를 이해하고, 당신은 놀라운 것을 할 수 있습니다 또는 인간의 정확도보다 높은 것 과학 기사를 읽을 수있는 시스템을 구축했습니다

인간의 정확성보다 뛰어나다 또는 우리는 인신 매매와 싸울 수 있습니다 우리는 그렇게하기위한 시스템을 구축했습니다 우리는 이런 단편적인 것들을 만들었습니다 자, 우리가 그것을 살펴볼 때, 우리는 이러한 시스템이 사람들이 코드를 작성하는 것은 실제로 상당히 어려웠습니다

무슨 일이 있었기 때문에 이 시스템을 만들 때 높은 수준의 정신 모델을 가질 수 있다는 것입니다 체계가 알 필요가 있던 무슨을의 세계의, 하지만 실제로 그 정보를 가져 가라 기계 학습 시스템 (machine learning system) 유용하고 유익한 일을 할 수있다 기본적으로 박사님이 앉고 앉아서 할 것입니다 특별한 종류의 PhD, 누가 너트와 볼트에 정말로 들어가기를 원했던가? 이 시스템이 어떻게 구성되었는지 그래서, 우리는 그 일을했습니다

우리는 회사를 세울만큼 운이 좋았다 업계에서 약간의 시간을 보냈다 취득의 결과로, 우리가 알아 차 렸던 것은 사실, 우리가 해낸 것처럼, 사실, 대부분의 사람들이 그들의 시간을 보냈던 곳 더 이상 모델을 만들지 않았습니다 TensorFlow 및 PyTorch와 같은 훌륭한 도구, 밖에있는 다른 것들, 그들은 실제로 상당히 주식과 바닐라 아키텍처, 배포, 그리고 나서 알아 내려고 노력했다 데이터를 피드로 제공하고 디버깅하는 방법, 그리고이 모든 것들을 그 위에 덧붙여 라

그래서, 우리 첫번째 회전 속도계 우리가 그때에 대해 생각해보고 싶어했던 것의 알아 내려고했다 어떻게이 모든 일터를 먹일 수 있니? 제프가 말하는 것처럼 우리는 어떻게 서로 다른 모든 데이터를 공급합니까? 필요한 것? 그것은 샘플의 복잡성에 관한 것이 었습니다 우리가 점점 더 커지기 시작한 시스템의 멀티 태스킹 종류 그런데 이상한 일이 생겼습니다

그런 종류의 이상한 일이 일어났습니다 공개 연구 및 산업 전반에 걸쳐, 우리는 몇 가지 예제를 보았습니다 사람들이 접근하는 방식입니다 그들의 소프트웨어 엔지니어링 작업 어떤면에서는 꽤 많이 변하는 것 같았다 그들은 시작하기 시작했다

이러한 종류의 이전 학습베이스 라인에서, 또는 이러한 작업 중 일부부터 시작하여 작업을 수행 할 수 있습니다 이 일이 시작되기 전에 우리는 약간의 대화를 나누고있었습니다 이 코드를 자주 보게됩니다 한 팀과 함께 살거나 한 가지 일을하는 삶, 그리고 그 모든 지식 다음 작업으로 전송되지 않습니다 그래서, 정말 흥미 진진합니다, 제 생각에, 여기에 방향 설정 당신이 어떻게 통일 되려고 노력하는지 그 정보를 더 많이

우리가 기대하지 않은 다른 것은, 내 생각에, 우리가 시작했을 때, 그러나 매우 초기에 일찍 이러한 멀티 태스킹 시스템, 그 부서지기 쉬운 사람에게 되돌아 가게되면서, 그들은 그들과 이야기하기에 더 풍부한 어휘를 가지고있다 개발자는 자연스럽게 갈 수있을 것 같습니다 그 높은 수준의 표현에서, 사람들, 장소, 사물에 대해 알지 못합니다 여기에 내가 그것을 모델에 넣는 곳이 있습니다 또는이 특정 문장을 구문 분석하는 방법을 알지 못합니다

그것이 내가 내 노력을 기울여야하는 곳이다 그들이 어디서 시간을 보내는 지 알아 내다 근본적으로 변화하는 것 같다 이 기계 학습 모델을 만드는 방법 그들은 좀 더 유연하게 그것을 구축 할 수 있습니다 이제 그 일은 정말로 흥미 롭습니다

그러나 도전으로 돌아갑니다 우리는 효과적으로 소프트웨어 도구가 없습니다 어떻게 든 그것은 PyTorch 및 TensorFlow와 같은 느낌입니다 미래의 일종 우리의 삶을 극적으로 쉽게 만들어 주었고, 그리고 위에 모든 것 효과적으로 지원되지 않는 것처럼 느껴집니다 컴퓨터 과학 작업이 많지 않습니다

너 한테 말 했잖아 고전적 시스템이 어떻게 작동해야하는지 이 일은 시간이 지남에 따라 어떻게 살아야합니까? 사람들은 어떻게이 모델을 공유해야합니까? 우리는 거기에서 많은 연구를하지 않고 있습니다 나는 그것이 장소라고 생각한다 정말로 유익한 연구가있을 것입니다

내가 언급 한 다른 비트는 나는 여전히 성과가있을 것이라고 생각한다 다음 몇 년 동안 정말 중요한 도전 나는 그것이 그것이, 토론을 보러 그냥 250 명의 친한 친구와이 친밀한 살롱에서 (청중 웃음) 조금 다르다 내가 생각한 것보다 – 우리가 나는 나타나기 시작했다 – 191 년이었다 나는 그것이 191이라고 생각한다

– 오, 그래, 그건 90이야, 합법적 인 목적으로 191 년이야 (청중 웃음) – 굉장해 진술서를 작성해 주셔서 대단히 감사합니다 자, 너희들에게 질문이 있다면, 당신의 손을 들고 시작하십시오 또는 당신이 가장자리에 가깝다면, 마이크를 만들 수 있어요

우리가 바로 거기에있다 – [청중 회원] 두 분이 많이 말하는 걸 들었습니다 ML 시스템의 성능, 그래서 나는 많은 사람들이 있다고 생각한다 소프트웨어 및 하드웨어 스택의 서로 다른 레벨에서 누가 ML 시스템의 속도를 향상 시키려고하는지, 하지만 ASIC 또는 FPGA와 같은 새로운 칩을 설계하고 있습니다 모델 교육을 병렬화하는 데 도움이되는지 여부 더 효율적이고 물건

다음 몇 년 동안 너는 어떻게 생각하니? 당신은 우리가 극적으로 빠른 속도로 성장할 것이라고 생각합니까? 모델을 훈련시킬 수 있음, 무어의 법칙이 1960 년대 또는 70 년대에 있었던 것과 유사합니다 어떻게 생각해? – 생각이 좀 있지만 – 네, 그러니까, 첫째, 나는 많은 분야에서 개선이있을 것이라고 생각한다

나는 ML 하드웨어가 충분히 다르다고 생각한다 범용 컴퓨터 하드웨어에서 나는 우리가 완전한 대답을 가지고 있다고 생각하지 않는다 어떤 컴퓨터 아키텍처가 가장 효과적 일지 우리는 많은 이득을 얻을 것입니다 여러 세대에서 길 아래로 ML 중심의 하드웨어 우리가 일종의 스케일링 한계에 도달 할 때까지 범용 CPU에서 우리가 봤던 그 (것)들에 고원에 조금 일으키는 원인이되었다 나는 우리가 갈 여러 세대가 더 있다고 생각한다

무어의 법칙의 종류, ML 하드웨어 공간에서의 나는 이것이 하나의 좋은 것이라고 생각한다 둘째, 시스템 규모가 커질 수 있으며, 비록 개별적인 칩이 더 빨라지지는 않을지라도 글쎄, 둘 다 일어나고있어 그러나 시스템의 규모 또한 커질 것이다 좋은 곱셈 적 요소입니다

당신이 짊어 질 수있는 계산량 하나의 문제 또는 시스템에서 나는 또한 이러한 기술 중 일부는 알고리즘 적으로 생각한다 그 종류의 희소성을 모델에 추가합니다 실제로 더 큰 모델을 훈련시킬 수 있습니다 엄청난 용량, 그러나 당신이 가득 차있는 모형을 활성화하고 있지 않기 때문에 모든 예에서, 그들은 모두 추론을 위해 더 빠릅니다 당신이 덜 계산하기 때문에, 또한 교육을 위해 더 빠름 이제 너는 간섭이 없기 때문에 항상 모델의 모든 매개 변수를 업데이트하기 때문에 모든 예에서

대신, 당신은 다른 조각들을 가지고 있습니다 그리고 그것은 당신을 허용합니다 이러한 대용량 모델을보다 신속하게 교육 할 수 있습니다 우리는 이것을 보아왔다 어마 어마하게 큰 신경망 논문에서 나는 공동 저자이고, 우리가 실제로 보았던 곳 우리는 모델의 품질을 향상시킬 수 있다고 다른 전문가가 많고 2,000 명의 전문가, 각자는 같은 것을 가지고있다, 나는 잊는다, 2 백만 매개 변수, 4 백만 매개 변수, 그 결과, 우리는 훈련 시간의 10 분의 1을 훈련 할 수 있습니다

추론 비용의 절반은 시스템은 더 높은 품질입니다 보통, 당신은 그 물건을 꺼내 거래하고 있습니다 하지만 지금은 세 명이 모두 올라가고있어 – 그래, 내 생각에, 같은 감정을 연상 시키는데, 나는 CPU가 고원을 친 것을보고 있다고 생각한다 GPU가 고원에 충돌하는 것을 보았을 수도 있습니다

그 중 일부는 현재 모델에 의해 주도됩니다 현재 아키텍처 제프가 방금 드문 드문 방식을 묘사 한 내용이 많이 있습니다 선을 따라 오는 더 많은 데이터 흐름 지향 프로세서 몇 가지 수준의 향상을 허용 할 수 있습니다 전혀 명확하지 않다 만약 당신이 큰 희소 계산을하고 싶다면, 당신은 BLAS 가속기처럼 보이는 것을 원합니다

GEMM 블록, 매트릭스 곱셈 블록, 당신이 GPU에 들어가는 것처럼 심지어는 구세대의 TPU에서도 마찬가지입니다 이보다 유연한 아키텍처 내가 생각할 수있는 것들이다 이 모델들의 엄청난 숫자 수많은 멀티 태스킹 모델이 있습니다 그들이 재미 있기 때문에 그들은 재미있을거야 너도 알다시피, 너가 본 것들 중 하나 사람들이 가서 코드를 작성한다는 것입니다

정말로 그것에서 지옥 전문 오늘날의 아키텍처에서 좋은 성능을 얻으려면, 그러나 당신이 더 많은 멀티 태스킹 모델을 만들기 시작할 때, 당신은 더 이상 그 일을 할 수 없을지도 모릅니다 다른 정도의 유연성이 필요할 수도 있습니다 나는 말해야한다, 완전한 공개와 학문적 순결의 이익을 위해, 여기에 멀티 코어의 아버지 인 쿤들 (Kunle) 우리는 회사를 세웠다 이것은 더 유연한 스타일의 칩을 사용하고 있습니다 SambaNova라고합니다

거기에는 큰 성과가 있음이 분명합니다 이들은 당신이 만들 수있는 급격히 다른 스택입니다 나는 몇 가지 규모의 주문이 있다고 생각한다 거기에 성능에 숨어있는 그리고 나는 그것이 바뀔 것이라고 생각한다 사람들이 시간을 보내고있는 곳 꽤 근본적인 방법으로, GPU가 기계 학습을 위해했던 것처럼

2 년 전 깊은 학습에서, 그 스위치가 일어 났을 때, 갑작스런 아이디어가 효과를 내기 시작했습니다 굉장 했어 그런 일이 일어나는 것을 보게 될 것 같아요 멀티 태스킹은 내가 그렇게 될 것이라고 생각하는 나의 베팅 중 하나입니다 어쩌면 보강 학습이 또 다른 하나 일 것입니다

그런 종류의 혁신에 익숙한 것 같습니다 – 한가지 더 추가 할게 나는 특수한 하드웨어를 만드는 것이 좋다고 생각한다 기계 학습 같은 분야 실제로 꽤 도전적이다 들판이 매우 빨리 움직이기 때문에, 오늘 칩 디자인을 시작할 때 또는 오늘날의 시스템 설계, 그 과정의 다른 쪽 끝이 튀어 나옵니다

2 년 후 그리고 나서 3 년 동안 살 필요가 있습니다 그래서, 당신은 예측하려고합니다, 우리는 지금부터 2 ~ 5 년 후에 무엇을하고 싶습니까? 하드웨어와 함께 우리는 오늘 건물을 생각할 것입니까? 그것은 실제로 꽤 어렵습니다 우리가 주간 단위로 진행하는 회의 중 하나 몇 컴퓨터 아키텍트, 몇 가지 컴퓨터 소프트웨어 분산 시스템 사람들, 몇몇 기계 학습 연구원 함께 이야기하다가 온다 ML 알고리즘의 추세는 어디에 있습니까? 하드웨어의 추세는 어디에 있습니까? 하드웨어에서 우리는 무엇을 할 수 있을까요? 알고리즘의 관점에서 보면 재미 있을지도 모릅니다 그 반대

그 종류의 포럼이 정말로 도움이된다고 생각합니다 이런 종류의 토론을하는 것 우리가 지금부터 5 년 동안 무엇을 만들어야하는지 – 하나의 프로그램, 당신이 후속에 관심이 있다면, DARPA의 프로그램이있다 우리 한 무리가 이것이이 소프트웨어 정의 하드웨어입니다 그 프로젝트의 출발점은 우리는 무슨 일이 일어날 지 알 수 없다

2 ~ 3 년 후에 ASIC이 아닌 것을 얻을 수 있습니까? ASIC은 뭔가를 위해 맞춤형으로 만들어졌습니다 이것은 범용 프로세서가 아닙니다 그러나 그것은 어떤 종류의 달콤한 장소 다 아키텍처와 시스템, 항상 그 달콤한 장소에 관한 그것들은 흥미로운 베팅 장소입니다

당신이 얻을 수있는 재구성의 종류 그리고 당신이 할 수있는 성능 상충의 종류 나에게 놀라운 것은 당신이 시스템 지향적이거나 하드웨어 지향적 인 사람이라면, 4 ~ 5 년 전 하드웨어가 그렇게 흥미로운 것 같지 않았습니다 모든 건축 싹에 대한 공격은 없습니다 (청중 웃음 소리) 하지만 지금은 놀라운 놀이터입니다 거대한 숫자가 있기 때문에 당신이 취할 수있는 다양한 디자인들

당신은 사람들이 급히 타고있는 것을보고 있습니다 대기업, 분명히 매우 유명하게 제물을 제공합니다 꽤 엄청난 컴퓨팅 하드웨어 그것은 저를 놀라게 한 것입니다 구글 자체 칩 만들기; 그것은 나에게 굉장했다

그것은 많은 사람들을 위해 들판을 열었습니다 스탠포드 다음 분기에, 우리는 새로운 양자 컴퓨팅 클래스를 가지고 있습니다 그 중 하나에서 다룬 주제 중 하나 기계 학습을위한 양자 컴퓨팅입니다 양자 컴퓨팅이 현실화되면, 그게 어떤 영향을 미쳤 을까? 지금 논의하고있는 유형의 시스템에? – 있을 수있다 양자 컴퓨팅에 대한 나의 관점은 꽤 좁게 집중 될거야

어떤 종류의 문제들에있어서, 어떤 종류의 문제 극적으로 영향을받을 것입니다 당신이 암호 학자라면, 당신은 세심한주의를 기울여야합니다 훈련하려고하는 중이라면 1 조 매개 변수 신경망 모델, 나에게 명확하지 않다 사용 가능한 양자 컴퓨터의 첫 번째 세대 당신이 먼저해야 할 일이 될 것입니다 그러나 당신은 분명히 그들에 주목해야합니다

특정 종류의 최적화 문제가 있다고 생각합니다 꽤 재미있을거야 – 크리스가 뭔가 말하고 싶어한다고 생각해 – 그래 – [Chris] 그래서 너 둘 다 찬양을 불렀어

멀티 태스킹 학습 나는 그것을 조금 풀고 싶었다 정말 결과가 얼마나 강한 지 물어보십시오 왜냐하면 제 말은 멀티 태스킹 학습이라고 생각합니다 몇 가지 매우 밀접한 관련 업무에서 훌륭하게 작동했습니다 다국어 기계 번역, 예, 훌륭합니다

(청중 웃음) 몇 가지 작업이있는 것처럼 보입니다 전학에 매우 성공적이었습니다 ImageNet에서 교육받은 비전 모델 그들은 꽤 잘 일했고, 이러한 문맥 언어 모델 벗어나기에 꽤 좋다 하지만 거기에는 다양한 작업이 있습니다

또한 부정적인 결과가 많이 있습니다 멀티 태스킹 학습을하려는 사람들의 내 말은, 얼마나 많이 우리가 실제로 가능하게 했는가? 이러한 많은 작업 모델을 구축하고 이익을 얻으려면? – 항상 그와 싸워야 해 이걸 가져 가고 싶니? (청중 웃음) – 네가 맞다고 생각해 정말 강력한 결과가별로 없습니다 너는 그들을보기 시작하고있다

매우 큰 언어 모델에서, 상당히 다양한 NLP 문제를 해결할 수 있습니다 우리는 비전 전송으로 이것을 보았습니다 우리가 아직 저울을 밀지 않은 것 같아요 우리가 실제로 시도한 작업의 수 정말로 알기에 충분하다 모델을 훈련 시키려고하면 10,000 또는 100,000 개의 작업 수행 매우 multimodal입니다, 표현을 어떻게 배울 수 있습니까? 사물의 시각적 표현을 함께 융합시킨 것, 언어 표현, 오디오 표현, 그리고 나서 우리가 희망적으로 새로운 작업을하도록 허락하십시오

아주 적은 예제만으로 그것을 배울 수 있습니다 – [크리스] 이것이 신앙의 도약인가? 10시에 효과가 없다면, 잘하면 그것은 10,000, 맞습니까? 어쨌든 깊은 학습을 위해 일했습니다 (청중 웃음) 아니, 농담이야 진지함을 전제로, 나는 당신이이 일들을 볼 때, 귀하의 질문에 더 선명한 버전을 넣으려면, 공동 유추 및 학습, 베이지안이 책임자 였을 때, 그 문제 이 작은 이익을 얻을 것이라고했습니다 우리가이 시스템을 만들 때, 당신은 당신의 차트를 만들 것입니다

여기서 우리는 모든 것을 독립적으로하고 여기서 우리는 공동으로, 그리고 당신은 곁눈질을해야했고 당신은 정말로 스트레칭을해야했습니다 당신은 당신의 플롯에 작은 줌을 가져야했습니다 당신의 아름다운 이익을 보여 주려고 그것은 정말로 우울했습니다 나는 그 시스템을 구축하고 있었다

그래서 우울증을 직접 느꼈습니다 아마도 이것은 같은 생각 일 것입니다 하지만 그건 달라질 것 같아 아냐 (웃음) 그것이 나에게 달라질 이유가, 우리가 정박 한 곳에 실제로 대규모 이동이 아니 었습니다

여러분의 수업이 있습니다 거대한 멀티 태스킹 학습을하고있는 예를 들어 Richard Socher와 다른 사람들과 같은 Richard의 경우, decaNLP, GLUE 벤치 마크 및 다른 것들처럼, 네가 정말 좋아할 곳 넓은 범위의 이전이 가능합니다 나에게 이것은 중요하다 그 더 근본적인 질문을 추진 : 너 할 수 있니? 그 일의 가설은 그것은 사소한 것이 아니며, 우리는 아직 그 이득을 보지 못했습니다 기본적으로 모든 사람들은 속임수를 사용합니다

이 네 가지 일을 함께 훈련시키는 곳 그러나이 세 가지가 아니라, 그리고 일종의 일 이죠 나는 당신은 절대적으로 어떤 작업이라도 던질 수 있고 그것은 작동합니다, 우리는 여전히 꽤 좋은 단단한 덩어리입니다 내가 정박 한 곳 실제로 작동하는 것을 본 내가 믿는 가치를 보여라 나는 가치있는 일이라고 생각한다

그게 내가 정박 한 이유야 소프트웨어 엔지니어링 측면에서 더 많이, 업계에있는 작업이있는 곳 어떤면에서 학계와는 다른, 당신은 많은 밀접한 관련 업무를 수행하고 있습니다 모델이 그렇게 다르지 않은 곳에서, 한 도메인에서 다른 도메인으로 작업하는 사용자 매우 명확하게 전달 된 많은 정보가 있습니다 학자가 이것을보고 말하면, 이것들은 같은 작업이다 그러나 우리가 전에 이야기하고 있었던 것에 따라, 다른 조직 단위, 그들은 완전히 다른 일을하고 있을지도 모른다

그리고 거기에서, 그것은 코드 재사용의 수준을 가능하게합니다 이 모델을 만들 수 있습니다 극적으로 빠릅니다 그래서, 나는 이런 종류의 소프트웨어 공학이 승리한다고 생각한다 나는 더 확신한다

왜냐하면 나는 화상을 입었 기 때문에 에, 어이, 그 자체로 품질을 몇 번하자, 하지만 이전하기 시작하는 곳이 있습니다 그리고 아마 우리가 예상했던 것보다 훨씬 더 BERT와 같은 종류의 전송 어떤면에서는 꽤 훌륭합니다 Pretraining은 기본적으로 효과가 없었습니다 ELMo와 그 일까지, 그 종류의 연구가 다시 시작되었습니다

양도 희망이 있습니다 더 풍부하고 흥미로운 작업 중 일부는 그러나 그것은 열린 질문입니다 내가 말할 마지막 한가지가있다 한 번에 모든 과제의 꿈이 실현된다는 것은 사실입니다 누군가가 그걸 의심한다면, decaNLP를 보아라

그 시스템이 훈련되는 방식 그들은 함께 일하는 일련의 작업으로 훈련을 받았으며, 서로 방해하는 다른 작업들 우리는 전혀 모른다 왜 간섭하는 작업이 간섭하는 작업인지 이 시점에서 그것은 모든 종류의 미신입니다

너는 그것을 볼 수 있었다 말하자면 오, 그 농담하는 사람들이 뭘 알고 있니? 또는 당신은 그것을보고 말할 수 있습니다, 그것은 연구를위한 엄청난 기회입니다 영원한 낙관론자 인 크리스 (Chris) 나는 그것을보아야한다 연구를위한 엄청난 기회로, 그러나 요점은 잘 찍혔다 나는 한 가지 더 후속 사상을 추가 할 것이다

즉 감독되지 않은 학습 종종 매우 성공적이지 않은 것으로 나타났습니다 하지만 문제의 일부가 그 일의 대부분이라고 생각합니다 감독되지 않은 표현을 배우려고 노력했다 감독 교육을 실시합니다 당신이 배운 표현에 대해, 감독 된 예제의 인터리빙 예제보다는 매 1000 번째 감독되지 않은 예제 당신은 감독 된 예를 던집니다

나는 그것이 더 잘할 수 있다고 생각한다 네가 시작하면 나는 생각한다 당신이 관심을 갖고있는 수천 가지 작업, 당신은 감독되지 않은 알고리즘을 가지고 있습니다 사실을 이용할 수있는 나는 이제이 감독 된 일들을 알고있다 이것들이 내가주의해야 할 것들이다

내가 가진 감독되지 않는 데이터에서 그들은이 천 가지 일을 개선 할 것이기 때문에 이 하나의 과제가 아니라, 그 방법일지도 모른다 실제로 우리는 무 감독 학습을 얻을 수 있습니다 오늘날보다 잘 작동합니다 나는 그 일을하는 방법에 대한 구체적인 아이디어가 없다 하지만 거기에는 약속이 있다고 생각합니다

이것들이 정말로 중요한 것들이라고 말하면서 당신이 노출되는 데이터를 집어들 수 있습니다 – 제가 지적 할 다른 한가지는 새로운 벤치 마크에서도 근거가있는 시각적 인 QA 종류의 것들, 우리가 너의 벅차를 위해 가장 큰 탕을 본 곳 멀티 태스킹 학습에서, 실제로 실제 작업을 수행 한 일부 학생들 청중에있다 비전과 언어를 결합 할 때입니다 우리는 의학적 측면에서 주로 해왔습니다 그러나 거기에서 당신은 매우 중요하지 않은 승강기를 얻습니다

독립적으로 수행하는 것보다 개별적으로 수행하는 것, 그러나 다시, 아직도 초기 나는 그 환상을 사랑한다 절대적으로 수천 개의 작업을 함께 수행해야합니다 우리는 지금 일종의 10 가지 작업을하고 있습니다 그리고 아직도 일종의기도를하고 있습니다

하지만 네, 정말 흥미로운 점입니다 하지만 그것은 당신의 벤치 마크이기 때문에 괜찮습니다 – 당신을 흰 스웨터에 넣자 – [Andre] 잠깐 – 물론이지

– [청중 회원] 고마워 제프, 네가 물어 보았던 많은 질문들 인간의 뇌와 인간의인지를 상기시켜주었습니다 당신이 구글을 돌리고있는 것처럼 들리네 거대한 뇌에 들어가는 것은 좋은 생각입니다

인간의 웨어웨어에서 우리가 가진 강력한 메커니즘 중 하나 익숙하지 않은 상황을 다루기위한 연관 회상입니다 새로운 정보로 뇌에 선물 할 때 그건 모르겠다 그것은 나를 위해 뭔가를 가져옵니다 청각 유사성, 시각적 유사성, 의미 론적 유사성 근본적인 연관 메커니즘이 있습니다

우리는 현재 가지고 있지 않다 기계 학습 병기고 제 질문은, 범용 기계 학습을 원한다면, 인간 수준의 정보에 열망하고, 우리는 연상 메모리의 문제를 해결할 필요가 없습니까? – 전제에 동의합니다 데이터에 노출 될 때 당신은 비슷한 것을 발견하고 이해할 수 있기를 원합니다 과거의 행동과 경험이 어땠는지, 그 비슷한 것들, 이 새로운 상황을 해결하는 데 도움이 될 수 있습니다

또는 예를 들어, 또는 예제 네가 할 수있는 방법 중 하나는 엄청난 용량의 모델을 가지고있다 매우 많은 양의 데이터에 노출 될 수 있습니다 관련 부분을 다시 불러올 수 있어야합니다 당신이 본 새로운 무언가와 비슷합니다

듣거나 읽습니다 – [Audience Member] 나는 우리가 가지고 있다고 생각하지 않는다 인간의 성능과 유사한 연관 알고리즘, 그저 임의의 유사성으로 사물을 회상 할 수 있습니다 – 글쎄, 나는 많은 표현들 그 일부 신경 네트워크 종류의 모델 실제로 배우고있다, 비슷한 수준의 정품 인증을받은 경우, 그 경험은 실제로 비슷하다 시스템이 노출 된 다른 시스템으로 – [청중 회원] 그것이 훈련의 결과입니까? – 예

– [Audience Member] 좋아요, 그래서 저는 사건에 대해 이야기하고 있습니다 훈련이없는 곳 나는 첫 번째로 제시된다 – 훈련이 없다는게 무슨 뜻이야? – [청중 회원] 나는 매일 정보를 접한다 내가 훈련받지 못했고, 아직 내 두뇌가 반응 할 수있다

관련 정보를 알려주십시오 일어난 감독 교육은 없었습니다 – 그 전에 있었어 평생 동안 경험 한 것, 감독받지 않고 감독하는 자, 그리고 내가 믿기에, 당신을 찾는 데 도움이됩니다 관련 정보는 무엇인가? 또는 유사한 종류의 경험 그것은 현재 상황에서 나를 도울 것입니다

– [Audience Member] 좋아, 나는 그것으로 논쟁하지 않을 것이다 – 다른데? 저기에 몇 줄이 있어요 마이크를 통과시킬 수 있습니까? – [청중 회원] 우리는 이해, 유연하게 물건을 이해합니다 적대적인 예를 볼 때마다 나는 항상 궁금해 파이프에서 우리가 고칠 수있는 누수가 얼마나되는지, 우리가 통계 시스템을 만들 수있는 것처럼 더 견고한 얼마나 많이 보여? 그리고 그것이 얼마나 문제가되는지 이 알고리즘이 처음에 실제로 얼마나 많은 것을 배웠습니까? 인간에게이 동물을 어떻게 분류 하는지를 보여주는 것처럼 보입니다

이상한 소음을 주입 할 방법이 없어요 인간이 그것을 분류하지 못하게하십시오 당신이 적대적인 예를 볼 때 나는 호기심이 많다 그게 당신이 학습의 관점에서 생각하게 만들죠 그리고 있다면, 특히 당신이 이야기 한 내용, 유연한 학습과 같습니다

다른 작업을 통해 배우려고 노력하고, 당신이 관련 있다고 생각한다면 이러한 종류의 적대적인 예들에 – 그래 나는 그 적의 예가 매력적이라고 ​​생각한다 그리고 그들은 일하기에 재미 있습니다 많은 사람들이있어

누가 재산에 대해 생각해 봤어? 그리고 문제는 정말로 깊다 그러나 나는 때때로 우리 자신을 얻는다 고 생각한다 조금 너무 인간화되어있다 적대적 사례에 대해 속지 내가 좋아하는 멋진 Google 종이가있었습니다

기본적으로 이미지를 사람들에게 보여주었습니다 자원이 제한되었습니다 그들은 매우 빨리 그들을 보여줄 것입니다 그들은 실제로 사람들을 속일 수 있음을 보여주었습니다 그런 종류의 자원이 제한된 환경에서 그들이 모델을 속일 때와 비슷하게, 비슷한 방식으로 그래서 때로는 혼란 스럽지만 당신은이 적대적인 예를 발견 할 수 있습니다

내 말은, 당신은 선형 모델을 위해 그것들을 만들 수 있다는 것입니다 나는 결코, 이것은 개인적인 테이크가 아니다 깊은 모델에 왜 그렇게 불안한 지 알았어요 당신이 경계 조건을 가질 것이라고 그들은 덜 매끄 럽습니다 그것은 L- 무한대 정규화입니다

단지 풍경을 매끄럽게 만들고 싶습니다 그 예가 있다는 사실 작은 섭동처럼 복잡한 풍경 속에서 그것을 바꾼다 그것은 언제나 고차원 적으로 존재할 것입니다 그래서 그것은 근본적인 교리에 의문을 제기하지 않습니다 그러나 그것은 정말로 흥미있는 길을 제공한다

이러한 문제들을 생각해보십시오 내 말은, 퍼시의이 분야에서의 일은 정말 좋아 John은 정말 멋진 작업도 많이하고 있습니다 그들이 어디에서 생각하려고하는지 네가 튼튼하다는 걸 실제로 증명하는 법 특정 유형의 섭동 그 섭동이 무엇인지 이해하십시오 모델을 변경하면 실제로 어떤 일이 벌어 질까요? 나는이 것들을 많이 모을 것 같아

하지만 나에게 명확하지 않다 멀티 태스킹 학습으로 인해 더 좋거나 나 빠지게됩니다 생각해 보면 흥미로운 방향입니다 나는 생각하지 않았다 전에 멀티 태스킹 적의 예, 너무 멋집니다

– 나는 단지 추가 할 것이다 인간은 적대적인 예에 ​​속지 않는다 우리는 18 년 이상을 가지고 있기 때문에 우리 시각 시스템의 훈련, 그리고 나는 생각한다, ImageNet에서 숙련 된 시스템에 관해 생각할 때, 백만 장의 JPEG 사진에 노출되었습니다 18 년 동안의 경험만큼이나 강력합니다 나는 크리스가 언급 한 논문을 생각한다

당신이 사물을 볼 시간이 아주 짧을 때, 이 신문은 당신이 기본적으로 속일 수 있음을 보여주었습니다 고양이라고 생각하는 것은 실제로 개입니다 그러나 그것에 대해 생각할 시간이 더 많이 주어지면, 너는 마치, 다시 보자 그리고이 종류의 가설을 취하는 종류, 그 가설이 의미하는 바를 평가하라 내가 이것을 이렇게 보았다면, 내 생각에 그건 처음 보는 것 이상의 일이다

귀하의 시각 시스템이 복용하고 있습니다 우리는 훨씬 더 많은 모델이 필요하다고 생각합니다 그럴듯한 해석을 제안하는 것에 대해 그들이 노출 된 데이터의 결과를 평가할 수 있습니다 그 다른 가설들 중 가능한 가설의 공간 탐구 실제로 결론을 내리기 위해서 이것이 무엇을 의미하는지 또는 어떤 행동이 의미가 있는지, 그런 종류의 일 내 생각에 우리가 그렇게한다면 훨씬 더 견고해질 것입니다

이런 종류의 예제 나 문제에 – 주요 쟁점 중 하나 규제, 윤리, 정책, 모델의 해석 가능성입니다 너 그렇게 생각해? 좀 더 유연하고 멀티 태스킹 된 모델을 사용한다면, 이것이 해석하기가 더 어려워 질 수 있으며, 해석하기 쉽고, 또는 반드시 그와 상관 관계가있는 것은 아닙니다 – 어느 쪽이든 될 수 있다고 생각합니다 우리가 한 것 같아

연구 분야 전체 모델을 더 해석하기 쉽게 만드는 데 진전을 보였습니다 지난 4 ~ 5 년 : 관심 메커니즘 같은 것들 또는 시각 시스템에서 볼 수 있고, 그라디언트 기반 및 다른 종류의 시각화 기술, 다소 도움이되었습니다 나는 궁극적으로 해석 가능성을 생각한다 당신은 당신이 대화를 할 수있는 시스템을 원합니다 알았어, 이거 생각해

왜 그렇게 생각하니? 그런 다음 조금 더 자세하게 들어갈 수 있습니다 왜 그 특정 부분에 대해 증거 이런 식으로 생각됩니다 그런 식으로, 내가 크리스 한테 물으면, 음, 너는 왜 생각하니? 그들은이 방을 색칠 했어? 그런 다음 – 몰라요 – 말해 너는 잘 모른다

(청중 웃음) 어쩌면 그것이 가볍고 밝아서 – – 그건 합리적으로 들리 네 – 네 – 우리는 거기에 갈 우리는 그것의 바닥에 도착했다 네가 가질 때, 인간은 실제로 해석 할 수있는 모든 것이 아닙니다

하지만 그들은이 재산을 가지고있다 너는 그들에게 질문 할 수있다 결국 그들은 일종의 밑바닥이됩니다 그리고, 글쎄, 나는 그게 그보다 낫다고 느꼈다 (청중 웃음) – 제프를 믿어요

그게 끝이야하지만 그래, 나는이 해석의 문제에 대해 생각한다 그건 정말 흥미롭고 매혹적인 질문입니다 규제는 내가 생각하기에, 사람들의 마음에 기쁘다 이러한 것들이 전개되고 있습니다

그들에 대해 생각하는 사람들이 많이 있습니다 스탠포드에는 훌륭한 AI 안전 그룹이 있습니다 이 질문에 대해 정말로 깊이 생각하고 있습니다 나는 그것에 대해 정말로 흥분합니다 내 추측에 의하면 이것이 왜 이렇게 될지 모르겠다

더 어려운 문제 이러한 유연한 시스템을 보유하고 있다면 사람들이 디버깅 루프를 통과하는 것을 보았을 때, 시도하고 이해하다 어떻게 그 오류를 바로 잡을 지, 나는이 풍부한 어휘에 대해 이야기하면서, 그들의 이해를 확인할 수있게되면서, 오, 나는 그것이 연설의 모든 부분을 가지고 있음을 이해한다 타이핑 권리가 있다는 것을 이해합니다 나는 그것이 질문의 종류가 무엇을 의미 하는지를 안다는 것을 이해한다 막연한 의미에서

나는 모든 것을 점검 할 수있다 그리고 그것은 훨씬 더 빠른 스펙을 제공합니다 대화 할 때, 확인하는 것과 같은 방법입니다 그것이 같은 기준 틀에 있다는 것, 누락 된 요소가 없다는 것입니다 모델이 생산할수록, 그것이 더 많은 정보를 나타내는 것처럼 보입니다

그리고 더 쉽게 만들 수 있습니다 그 대화에 가담해라 자, 이상한 것들이 거기에 숨어 ​​있습니까? 적대적인 예가 있습니까? 이 멀티 태스크를 공격하는거야? 나는 전혀 모른다 그러나 그것은 굉장하게 들린다 누군가 그것을 조사해야합니다

하지만 그래, 사람들이 실제로 어떻게 될지 전혀 모르겠다 이러한 것들을 효과적으로 규제하고, 제프가 말하는 방법을 제외하고 그들이 어디에서 왔는지, 너는 외부에서 증명하고있어 그것은 어떤 종류의 특성을 필요로한다는 것입니다 확률 적 구배 강하가있는 또 다른 것 효과적으로 실행은 컨트롤러입니다 컨트롤러는 기본적으로 같은 일을합니다

우리 비행기가 괜찮을 거라는 것을 증명합니다 우리는 그들 주위를 돌아 다니며 행복합니다 그래서 우리는 비슷한 종류의 인증을 개발할 수 있습니다 나는 그것이 잠재적으로 유망한 방향이라고 생각한다 – 너 중간에있어

– [Audience Member]이 상위 수준의 도서관, PyTorch와 TensorFlow와 같이, 내가 객관적으로 생각할 때, 지난 몇 년 동안 기계 학습 진도에, 단지 대중에게 더 높은 차원의 아이디어를 가져다주었습니다 그래서 그들은 신속하게 이러한 것들을 탐색 할 수 있습니다 조직의 장으로서의 당신의 입장에서 미래에 보일 위임장이있는 TensorFlow 50이 어떻게 보이는지 상상하는가요? 또는 무엇이 그것을 대체합니까? 내 말은,이 모델을 구축하기위한 인터페이스는 무엇일까요? 너의 의견으로는 몇 년 후인 것 같니? – 네, 알기가 어렵습니다 나는 생각한다

흥미로운 소프트웨어 엔지니어링 질문이 있습니다 우리가 모델을 훈련하려고한다면 주위에 그것은 많은 일을합니다 아마 너는 많은 사람들을 원할거야 해당 시스템을 구축하기 위해 협력하고, 오늘날 우리가 가진 것보다, 소수의 사람들이 하나의 모델에서 작업하는, 그리고 그들은 크게 격리되어있다 다른 사람들이 내리는 결정에서

나는 실제로 흥미로운 질문을하고 있었다 ML 시스템이 프로그래밍 언어에 더 가깝습니까? 10 년마다 패션을 바꾸는 경향이있는 또는 그들은 스크립팅 언어와 더 유사합니까? 패션을 2 ~ 3 년마다 바꿀 수도 있습니다 그들은 마치 후자와 더 비슷해 보입니다 사람들은 필드가 너무 빨리 움직이기 때문에 경향이 있습니다 사람들은 새로운 추상화를 상대적으로 빠르게 개발하고, 사물을 표현하는 새로운 방식, 나는 궁극적으로 생각한다

우리는 많은 소프트웨어 인프라 스트럭처로 끝날 것입니다 그리고 아마도 많은 다른 방법들 여러 종류의 계산 표현하기 같은 종류의 컴파일 인프라를 공유하는 그런 다음 계산의 종류를 매핑 할 수 있습니다 우리가 ML 알고리즘에 적용하고자하는 여러 종류의 하드웨어에, 그러나 나는 TensorFlow 5가 어떻게 생겼는지 알지 못합니다 – 언제 다운로드 할 수 있는지 알고 있니? (청중 웃음) – 2 장의 초기 릴리스가 있습니다 – 그래, 5

0 나는 이것이 훌륭한 질문이라고 생각한다 – 재 장전 해 – 네 (웃음) (청중 웃음) 그래, 흥미로운 질문 인 것 같아

제 마음에는 크게 두 가지 종류가 있습니다 그게 올거야 하나는 어떻게 할 것인가? Jeff는 여러 가지 좋은 점을 만들었습니다 이러한 모델에 대한 공동 작업, 이러한 모델 관리, 생산에 투입하고 모니터하고, 그리고 그것은 소프트웨어 도구의 성장을 야기 할 것입니다 그건 분명히 실종되었다

기계 학습을위한 APM 프레임 워크 지금은 존재하지 않습니다 그것은 분명히 더 많은 사람들이 그것을 실행, 그 일이 시작될거야 소프트웨어 개발이 많이 이루어질 것이라고 생각하십시오 나에게 덜 명확한 것은 모든 기계 학습은 어떻게됩니까? TensorFlow와 PyTorch는 훌륭하게 작동합니다 오늘 이용할 수있는 것들을 엄청나게 넓히고, 하지만 몇 가지가있다

그 종류의 외부에 앉아서, 그들이 흡수 될지 모르겠다 강화 학습, 거기에 진행되고있는 훌륭한 프레임 워크가 있습니다 스파이크가 그 지역으로 퍼지겠습니까? 보상 기능을 작성하는 것은 어렵고 힘든 작업입니다 거기에 완전히 다른가요? 소프트웨어 추상화? 있을 수있는 것처럼 보입니다 다른 도구가 필요할 것 같은데

그런 종류의 일 더 많은 관측 유형의 모델로 가면 우주에 관하여 비디오에서 다른 작업을 배우기 위해 노력하고있는 곳, 이것이 추상화라는 것은 분명합니다 너 실제로 묶고 싶어? 너무 낮은 수준입니까? Keras와 더 비슷하게 보이는 것입니까? 그것은 훨씬 더 높은 수준의 무언가입니까? AutoML이 훨씬 더 큰 규모로 작동하기 시작하면, 이 사람들은 TPU를 많이 태우고 있습니다 그건 뭐지? 데이터 포인트 및 백만 달러의 비용이 소요되는 서류 놀랍다

당신이 검색 할 수 있다고 상상한다면 이 많은 것을 통해, 이 인프라에 대한 필요성을 없애 줍니까? 어쩌면 TensorFlow가 어셈블러처럼 보일지도 모릅니다 저기에있어 그것은 사양입니다 그것은 당신이 원하는 무엇인가입니다 하지만 훨씬 더 높은 수준의 인터페이스가 있습니다

그 크고 빠른 생산성 향상이라고 생각합니다 인공 지능이 더 가능하다 기존 소프트웨어에 비해 어쩌면 그건 단지 희망이없고, 미친 낙관론 일 수도 있습니다 그러나 나는 그것이 5에있는 것을 대답하기가 어렵다고 생각합니다 나는 두 가지로 대답하는 것이 어렵다고 생각합니다

적어도 내 관점에서 (청중 웃음) 내 말은, 우리가 가진 하나의 좋은 추상화가 있다고 생각합니다 여기 제가 감독하는 학습 과제는 제가 걱정하는 것입니다, 그렇죠? 다른 것을 지정하지 마십시오 시스템이 알아 낸다 이 감독 학습 과제를 어떻게 효과적으로 작동하게 할 수 있습니까? 어떤 큰 시스템의 맥락에서

그래서, 저는이 대형 멀티 태스킹 시스템에서, 새로운 작업을 지정하는 방법 일 수도 있습니다 예제를 둘러 보는 경우 작업의 일부 표현에 기반하여, 또는 예제의 일부 표현, 또는 그 중 일부 조합, 네가 원하는 것은 모델의 다른 부분이다 다른 종류의 데이터에 적응할 수 있도록, 이 부분처럼 시각적 인 것들이 좋다 이게 좋은거야 이 특별한 종류의 언어 데이터가 있습니다

그것의 각 부분 자신의 종류의 작은 건축 검색을 실행 중일 수 있습니다 전송중인 데이터 스트림에 적응할 수 있습니다 그런 다음, 동시에 학습하고 있습니다 이 모델을 통해 어떤 부분을 찾아야하는지 너가 걱정하는이 특별한 일을 정말 잘한다 내 생각에, 아이디어를 결합하여 신경 아키텍처 검색 또는 다른 종류의 AutoML, 이 드문 드문, 전문가와 같은 모델, 들어가기에 꽤 흥미로운 방향 일 수 있습니다

– 내가 정말 좋아하는 한 마디로 외쳐라 Uber의이 새로운 시스템 Ludwig입니다, 그것은 매우 서늘하고, 매우 선언적이며, 그리고 그들은이 생각에서 움직이고 있습니다 아키텍처를 지정하는 방법 훨씬 더 높은 수준의 것들 그냥 유형에 대한 기본 어댑터를 줘 그들을 함께 꿰매십시오 내가 그렇게 재미 있다고 생각하는 이유는, 차별화 된 것처럼 사람들이 어떤 종류의 프로그래밍 도구를 사용하는지, 고급 사용자 대 스크립터, 대 Accel과 모든 길 아래로

내가 생각하는 이유가 없어 이러한 것들이 널리 퍼져 있다면 나는 그들이 개인적으로 희망하기 때문에, 그런 식으로 차별하지 않는다 어쩌면 당신은 거기에 최고의 이미지 모델을 가지고 있지 않을 것입니다 예산을 기꺼이 쓰지 않을거야 신경 아키텍처 검색을 통해이를 구체화하려면 하지만 당신은 즉각적인 작업을 끝낼 수 있습니다

당신이 나중에 그것을 다룰지를 결정하십시오 나에게 분명하지 않다 다시, 프로그래밍 언어입니까? 스크립팅 언어입니까? 그것이 나에게도 분명하지 않다 근본적으로 다른 캠프로 파편화되지 않으면 이들 각각을 수행 할 수 있습니다 왜 그렇게 모 놀리식이 될지 모르겠다

그것은 컴퓨터 과학에서 이전에는 발생하지 않았지만, 내 마음에 – 당신이 공유 한 일부 논문에서, 신경 아키텍처 검색에서 배운 아키텍처 실제로 인간 공학 아키텍처를 능가했다 미래를 상상합니까? 전체 아키텍처 또는 전체 시스템 그 자체이기 때문에 AI 시스템 자체 AI에 의해 전적으로 설계되었으며, 아니면 우리가 실제로 인간 공학자가 필요하다고 생각합니까? 이것이 무엇인가를 보장하는 매개 변수를 설정하는 것 우리가 볼 때 우리는 해석하고 조작 할 수 있습니까? – 나는 지금까지 일어난 일이 이런 종류의 정신 학습 접근법에서 검색 공간을 만들기 위해서는 인간의 전문성이 정말로 필요합니다 충분히 크고 그것의 흥미로운 부분을 가지고, 실질적으로 검색 할 수있을만큼 작습니다 그것은 10에서 30까지를 의미하지만 10에서 60까지를 의미하지는 않습니다

검색 공간을 확보하는 데 실제로 많은 예술이 있습니다 그것은 바로 크기가 맞는 것입니다 그러나 이런 종류의 접근법의 이점은, 기계가 훨씬 낫다 반복 된 실험을 할 때 관찰로부터 배우기 이전 50 회 실험 중 또는 적어도 그들은 그것에 훨씬 빠르다 그 50에 기초하여, 다음 50 번 실험을하고 싶습니다

문제를 RL의 정렬로 정의 할 수 있다면, 또는 진화론 적 스타일 알고리즘, 시스템은 20,000 회의 실험을 실행할 수 있습니다 며칠 만에, 그리고 그것은 꽤 어렵습니다 심지어 최고의 대학원 학생들도 그렇게 할 수 있습니다 (청중 웃음 소리) 특히 그것이 50의 많은주기라면 – 뒷쪽으로

– [청중 회원] 저요? 그래, 나는 의무적 인 역사적인 코멘트를 써야 해 전학은 훌륭한 학문 주제입니다 그러나 그것은 1900 년대 초반부터 연구되어 왔습니다 심리학자들은 오랫동안 그것을보고있었습니다 교육 심리학과인지 심리학 모두에서 인간에게 전이의 좋은 이론이 있습니다

그리고 계산 모델이있었습니다 데이터에 잘 맞습니다 기본 이론은 전문 기술 일련의 지식 요소, 그 다른 일들 그 다른 지식 요소들에 의존하고, 전송 중에 무슨 일이 일어나고 있는지 당신은 하나의 과제를 배우고, 당신은 그 지식 요소를 습득해야합니다 그리고 나서 당신은 약간의 중복을 가질 수있는 새로운 과제에 도달하게됩니다 이제는 새로운 것을 배워야합니다

그것은 당신에게 아주 솔직한 방법을 제공합니다 제약 된 추론을 다룰 때, 너 지식 요소들에 접근하고 싶어서 야 관련성이 있습니다 이제 인간 학습에서 전이의 전산 모델 규칙 기반, 이것이 지식 요소가되는 부분입니다 또는 구조적 유추, 일종의 사례 중심이지만 풍부한 표현이 있습니다

그러나 그렇게 할 필요는 없습니다 신경망에 관한 것은 없습니다 그 말은 당신이 같은 게임을 할 수 없다는 말입니다 너는 그물의 부분을 가지고있다 어떤 작업에 대해서는 충분히 관련성이 있으며 다른 작업에는 적합하지 않은 경우, 사람들이 그것에 대해 어떻게 이야기하는지는 아닙니다

나는 너희들이 그것에 대해 이야기하는 것을 듣지 않는다 – 오, 아니에요 – [청중 회원] 좋아, 그러나 언어는 확실히 나오지 않고 있습니다 우리는 흥분 속에, 우리가하지 않는다는 것을 확실히하고 싶습니다 학습 방법의 새로운 세대에 대해, 우리는 그러한 핵심 아이디어를 놓치지 않고, 그들은 정말 강력하기 때문에, 그리고 우리는 오래된 결과를 계속해서 보았습니다

그리고 말하자면, 좋아, 글쎄, 어떻게 우리가 같은 종류의 것을 얻을 수 있습니까? 이 새로운 프레임 워크에서 동일한 효과를 얻으려고합니까? 당신이 그런 식으로 생각한다고 말한 것을 기쁘게 생각합니다 그 용어로 일찍 말한 것을 다시 말해 줄 수 있습니까? – 그래 내가 요약하자 나는 심리학 문헌에 익숙하지 않다 인간 이전 학습

– [청중 회원] 내가 너에게 보낼거야 – – 그래, 좋을거야 (청중 웃음) 하지만 내 직감 새로운 무언가를 배우는 것이 필요할 때입니다 나는이 새로운 것을 본다 나는 이런 것들을하는 법을 알고있다 그것들은 제가 한 다른 일들과 매우 흡사하기 때문에, 그런 다음 알아야 할 몇 가지 사항이 있습니다

새롭고 실험을해야 할 수도 있습니다 또는 나는 많은 접근법을 시도 할 필요가있다 집단적으로 정리하자면, 나는 그 모든 것을 하나로 모으고, 이제 나는 새로운 것을 할 수 있습니다 – [청중 회원] 신경망의 요소 – 신경망의 지식 요소 서로 다른 전문 지식을 갖게 될 것입니다

다양한 전문 기술 센터, 당신이이 통로를 가질 수있게 해주는 다른 작업을위한 큰 모델을 통해, 그리고 – – [Audience Member] 당신은 원칙적으로 당신이 말할 수 있습니다 이 작업을 위해 당신은 서브 네트워크를 가질 수 있습니다, 다른 작업에는 다른 서브 네트워크가 있습니다 시간이 지남에 따라 모든 것을 구축하고 싶습니다 – 네 – 잘됐다

나는 네가 그렇게 말한 것을 듣지 않았다 우리는 같은 페이지에 나왔기 때문에 기쁩니다 – 조금 더 분명하게 말하겠습니다 몇 가지 작업이 있습니다 우리가 연구 그룹에서했던 것 제 생각에, 만약 당신이 그들을 합치면, 우리를이 방향으로 인도하십시오

하나는 전문가의 작업이 희박하게 섞여 있고, 기본적으로 당신은 전통적인 신경망을 가지고 있습니다 그리고 당신은 그 중간에 이식 할 수 있습니다 현재 수천 명의 전문가를 보유하고있는 당신이 생각할 수있는 2,000 명의 전문가 자신의 작은, 미니어처 신경 네트워크, 학습 된 라우팅 기능 이 특별한 예를 들어 보면, 이 전문가는 정말 잘 하네 이 예에서는 다른 전문가 저것에 진짜로 좋다 때때로 두 명의 전문가에게 보냅니다

그리고 그것은 당신에게 그라디언트 신호를줍니다 게이팅 기능을 훈련시키는 더 나은 종류의 물건으로가는 길을 배웁니다 실제로 언어 모델이나 번역 모델에서, 이 전문가들은 다양한 전문 지식을 개발합니다 다른 종류의 언어에 대해서 이 전문가는 정말 좋습니다

문맥이 날짜 또는 시간에 대해 이야기 할 때, 이건 정말 좋은거야 생물학 및 생명 공학 관련 언어, 그리고 이런 종류의 그 초기 연구에서, 그 모든 신경망은 정확히 같은 구조를 가지고있었습니다 그들의 구조를 바꾸지 않았다 신경 건축술 검색에서, 완전히 다른 프로젝트, 기본적으로 모델은 구조를 진화시킬 수 있습니다

그들이 해결하려고하는 문제를 기반으로 정확한 모델 구조를 찾을 수 있습니다 그것들은 잘 작동합니다 이제 각 전문가가 상상해보십시오 자체 아키텍처 검색 수행 우리는 동일한 작업의 예제뿐만 아니라 라우팅도하고 있습니다 그러나 많은 다른 종류의 예제들 잠재적으로 많은 다른 업무들로부터 그래서 우리는 지금 전문가가있다

비슷한 종류의 일을하는 법을 배웁니다 또는 비슷한 종류의 문맥 – 거기에 한 가지 의견을 말하고 싶습니다 두 작품 흥미롭고 관련이 있다고 생각합니다 하나는 사실입니다

그리고 그것들은 위대한 지적입니다 그리고 확실히 그들을 보내주십시오 한 무리의 일이있다 나는 그 중 일부가 끝났다고 생각한다 실제로 초기 작업은 DeepMind에서 이루어졌고, 그들이 실제로 어디에서 노력했는지, 그 모듈성 경계를 아주 명료하게 알아 낸다

이것의 작업입니다, 그리고 일단 당신이 그것을 배웠고 그것을 습득했다면, 이제 작업의 다음 단계로 넘어갈 수 있습니다 더 일찍 귀하의 설명에 거의 그대로 : 나는이 처음 네 가지를 마스터했고, 그리고 지금 나는 다섯 번째 요소를 사용합니까? 나는 그 중 두 가지를 사용해야 만 할 것입니다 내가 어떻게 그것을 추론하고 그것을 할 수 있습니까? 그들은 확실히 장난감 문제의 종류 였고, 그러나 나는 그 특별한 일의 라인이 매혹적이라는 것을 알았다 어쩌면 자신의 동기가 무엇인지 모를 수도 있습니다 당신이 묘사 한 것에서 아마 거의 직접 나온 것입니다

내가 말할 수있는 다른 비트는, 당신이 생각할 때, 내가이 시스템들, 이러한 멀티 태스킹 시스템은 구축 및 배치되며, 그들은 실제로 모델을 따른다 그것은 엔지니어 측에서 일어나고 있습니다 그것은 모델 자체 내부에서 아직 일어나지 않고있다 그러나 성취 된 과제들이있다 이제 우리는 이것을 어떻게하는지 압니다

우리는 텍스트의 일부분을 이해하는 방법을 안다 우리는 타이핑 작업을 수행하는 방법을 알고 있습니다 우리는 그것들을 결합하고 싶습니다 그리고 그것은, 지금, 최소한 내가 본 접근법입니다 전문가 코더에게 남겨두고 모델을 선택하게하고, 타이핑을하는 작업

내가 할 일을 선택하게 해줘 그것은 품사 인식기입니다 스포츠에 대해 알고있는 부분을 제안하겠습니다 또는 음악, 또는 그것이 무엇이든간에, 또는 생명 공학, 나는 그들을 함께 꿰맬거야 다음을 결합하는 것은 매우 흥미 롭습니다

제프가 설명하는 것과 하지만 모듈성이 부족하다고 생각합니다 많은 컴퓨터 과학자들이 첫 번째 원칙을 고집합니다 우리가 모든 것을 합치면, 처음부터 모든 것을 배우고, 우리가했던 일을 떠나는 것 같아 적어도 우리 자신의 경험에서, 가장 강력한 학습 방법 중 하나입니다 나는 사람들이 그것에 대해 연구하고 있다고 생각한다

우리는 지금 어떻게 작동시키는 지 모릅니다 어쩌면이 포인터가 거기에있는 방법 일 수 있습니다 그 라인을 따라, 우리는 기술이 있다고 생각합니다 우리는 매우 큰 모델을 가지고 그것을 옮길 수 있습니다 훨씬 더 계산 효율적인 모델로 증류와 같은 것들 기본적으로 그 큰 모델을 사용할 수있게해라

더 작은 모델을위한 교사로서, 이 풍부한 그라디언트를 얻었 기 때문에 큰 모델에서, 수천 비트의 정보를 얻을 수있는 작은 모델에 대한 그라디언트로 흐르는, 적은 수의 매개 변수로 실제로 훨씬 더 정확해질 수 있습니다 감독 교육을 통해 얻는 것보다 작은 모델 작은 모델 그 자체의 나는이 매우 큰 시스템에서, 당신은 일종의 메타 레벨 컨트롤러가 필요합니다 어디에서 결정을 내릴지 결정합니다 모델에 용량을 추가하려면, 학습 속도를 늦추는 것은 어디에서 의미가 있습니까? 왜냐하면 그건별로 변하지 않는 것 같아 모델의이 부분에서

증류는 기술 일 수있다 이로써 당신은 효과적으로 모델의 더 큰 부분, 그것을 증류해라, 그리고 지금 당신은 약간의 기억을 풀었습니다 이제 다른 방식으로 용량을 추가하는 데 사용할 수 있습니다 – 블랙 재킷 – [잠재 고객 회원] 사실 질문이 있습니다

제프와 크리스에게 기본적으로 기계 학습 모델을 배포하는 측면에서 많은 노력과 성공적인 이야기가 있었던 것처럼 스마트 폰과 같은 에지 장치에서 추론을 할 때, 스마트 홈처럼, 그러나 노력이 덜한 것 같다 가장자리에서 훈련을하기에는 아직 빠릅니다 기본적으로, 당신의 관점과 경험에서, 가장 강력한 인센티브는 무엇인가? 또는 가장 유용한 응용 프로그램 가장자리 장치에 훈련을 위해, 가장 큰 장애물은 무엇입니까? 너희들 생각하고있어 당신은 그것이 번성하기에 적절한시기라고 생각합니까? 또는 자율 주행을위한 20 년 전과 비슷합니까? – 네가 몇 가지 일을하고 있다고 생각해

구글과 다른 사람들이 우리 연구실에서 나오고, 버지니아 스미스 (CMU 교수) 세계의 연합 학습 측면에서 많은 노력을 기울이고 있습니다 그 (것)들을 훈련하는 것을 시도하고있다 전반적으로, 그 결과, 적어도 내가 그 떼를 이해함에 따라, 성능상의 이유로하지 마십시오 그들은 프라이버시에 의해 동기를 부여받는 다른 이유들로 그것을합니다 사실, 그들은 더 많은 양의 데이터를 보낼 수 있습니다

그러나 그것은 더 높은 수준의 관심사에 의해 동기 부여됩니다 나는 그것이 오늘날 의심 할 여지없이 벌어지고 있다고 생각합니다 나는 당신이 얼마나 멀리 밀어 낼 수 있는지에 대한 질문을 생각합니다 어떤 알고리즘이 있는지, 어떤 종류의 풀링을 할 수 있는지, 나는 그것들이 정말로 잘 익은 흥미로운 연구 분야라고 생각한다 네가 뭘 생각하는지 모르겠다

– 네, 다른 건, 제 생각에, 네, 확실히 사생활 보호를 위해 페더레이션 학습과 같은 일을하는 것이 많은 의미를가집니다 사실, 우리는 오픈 소스, 어제 또는 그 전날처럼, 우리를 가능하게하는 많은 도구들, 같은 연합 학습 시스템을 사용하는 다른 사람들 우리는 내부적으로 사용하고 있습니다 예를 들어 안드로이드 키보드 모델을 배우기 위해, 우리가 분명히 보낼 수없는 곳 사람들이하고있는 키 입력 모델을 교육하기위한 중앙 위치로 그러나 당신은 아직도 좋은 예측 경험을 원한다 단어의 첫 번째 부분을 입력 할 때 그것을 합리적인 방법으로 완료해야합니다 Federated Learning은이를위한 훌륭한 접근 방법입니다

나는 현재 가장자리 시스템의 용량을 생각한다 구축 할 수있는 데이터 센터 시스템보다 훨씬 저렴합니다 교육 리소스 측면에서, 비록 당신이 많은 전화를 가지고 있더라도, 정말 함께 추가하기가 어렵습니다 당신이 얻는 대역폭의 이분법 때문에 거기 가장자리 훈련에서 나는 기회가있을 것이라고 생각한다

적응, 당신이 가장자리에서 약간의 훈련을하는 곳 귀하의 현재 상황에 적응하십시오 지금까지 사람들은 그 일을별로하지 않았다 그러나 그것은 장소일지도 모른다 특히 에지 장치 점점 더 많은 ML 가속기를 얻습니다 다음 몇 년 안에, 상한 전화 및 중간 전화 모두 맛이나 기타의 ML 가속기가있을거야

그래서 이런 종류의 것들에 대해 더 많은 계산을 할 것입니다 – 여기, 그리고 두 번째 질문도 할 수 있습니다 그래서 우리는 그것을 얻을 수 있습니다 그래, 다른 누구야, 알았어 그 다음에는 거기에 갈거야

– 가장 가까운 이웃 – 그래서 물어보고 싶다 너희들이 언급 한 것에 대해 조금 이야기 초기에 너는 어려움에 대해 이야기했다 기계 학습 작업을위한 특수 하드웨어 작성 사람들이하는 일이 그렇게 빨리 변하기 때문에 2 년 제품주기가 있습니다

내가 물어보고 싶은 질문은 소프트웨어를 구축 할 수있는 기회는 무엇이라고 생각하십니까? ML 훈련과 추론을 실제로 향상 시키는가? 당신이 언급 한 한가지는 드문 드문 교육이었습니다 그것은 하나의 예입니다 마음에 떠오르는 또 다른 일은 비동기 그래디언트 (mumbles) 업데이트 또는 기존 컴퓨터, 캐시 일관성과 같은 것들 기본적으로 훈련의 임무를 가속화하기 위해, 또한, 또는 다른 풍미에, 어쩌면 도메인 특정 언어 하드웨어에 더 가깝게 말합니다 기본적으로 일반적인 질문은 어떤 종류의 소프트웨어 개선이 가능합니까? 개선 할 기회가 있다고 생각하십니까? 반드시 하드웨어의 개선이 필요하지 않습니까? – 내 말은, 내가 가장 큰 약속이라고 생각해 새로운 종류의 훈련 알고리즘에있다

또는 최적화 알고리즘 근본적으로 속도를 높일 수있다 집합 적으로 모델을 훈련시키는 방식 고정밀 도로 우리가 그렇게 할 수 있다면, 2 차 방법, K-FAC 등이 유망한 것입니다 나는 그들이 지금까지 거대한 영향력을 행사하지 않았다고 생각한다 그러나 그들은 미래에 있을지도 모른다 나는 사람들이보고 이해하고 있다고 생각한다

보다 이론적 인면 이 엄청나게 높은 차원의 비 볼록 함수, 그래서 우리는 많은 진전을 이룰 수 있습니다 최적화를위한 더 나은 알고리즘을 제안함으로써 또는 완전히 근본적으로 다른 기계 학습 모델의 종류 완전히 다른 방식으로 훈련되었습니다 가능한 것 같다 당신에게 10 또는 100의 요인을 줄지도 모릅니다 이런 종류의 것들을 예측하기는 어렵습니다

– 나는 두 가지를 추측한다 우리는 비동기식 작업에 대해 초기 작업을 수행했습니다 그리고 나서, 사람들이 그것을 사용하고있는 곳 NVIDIA와 매우 흡사합니다 기본적으로 업데이트를 지연시킴으로써 그들은 1,000 배 덜 자주 의사 소통 할 수있었습니다 알고리즘을 수정하여 그것은 운동량 보정이라고 불리며, 그것은 포스트 의사, Ioannis, 나의 것의, 누가 지금 밀라에 있어요, 캐나다의 심화 학습 기관 중 하나

저 물건, 이러한 종류의 알고리즘을 조정할 수있는 기회가 있습니다 책임있게 만들어라 하드웨어 스택 아래까지, 그것은 매우 흥미 진진한 작업 라인입니다 당신이보기 시작할 때 왜 더 높은 순서의 방법을 사용하지 않는가? 2 차 법, 많은 사람들이 다양하게 해왔다 이러한 것들에 대한 다른 2 차 방법, 그리고 그들은,별로, 붙 잡지 않았다

그들은 전에 표준이었고, 그리고 나서 그들은 붙 잡지 않았다 우리가 정말로 이해하지 못하기 때문에 그 부분이 있습니다 이 함수들이 어떻게 동작하는지에 대한 손실 표면 근사치를 만들 정도로 충분합니다 누구나 할 수있는 일 우리는 정밀도가 낮은 물건을 잔뜩 만들었지 만, 압축 모델에 대한 교육, 그런 것들은 당신에게 엄청난 규모를줍니다 오늘, 다양한 다른 체제에서

지금 ImageNet에서 최고의 숫자입니다 우리 논문 중 하나에 집어 들었다 저 정밀 / 혼합 정밀 교육, 이 ImageNet in Minutes 종이였습니다 그들은 그 한계를 극복하기 위해 몇 가지 트릭을 사용했습니다 소프트웨어로 할 수있는 일은 많지만 실제로는 어렵습니다

정말 완전한 스택 최적화 접근법을 취합니다 모든 방법으로 소프트웨어에서 맨 아래로 이동하려면, 당신이 그들을 사용할 때 그들은 조금 부서지기 쉽습니다 견고성이라는 근본적인 질문이 있습니다 내가 연결하고 싶은 한가지, 그리고 이것은 이론으로 괴상한 내 색깔을 보여줄 것입니다 최근 논문들이 많이 있니? 어떤 확률적인 그래디언트 강하를 설명하는 실제로 이러한 많은 ResNet 모델에서 수행하고 있습니다

제이슨 리의 논문은 특히, 우리가 독서 그룹에서 독서 중이었던 것입니다 5 개 또는 10 개의 컬렉션이 있습니다 신흥 이론적 인 그림이 있습니다 비록 이들 기능이 비 볼록 (non-convex) 이봐, 그들은 이런 것들을 생산하고 있을지도 모른다 정말 큰 임의의 기능을 커널처럼 보이는, 그게 말이된다면

중요한 부분은 실제로 몇 가지 이론적 이해가있을 수 있습니다 이 알고리즘이하는 일 중 우리가 가지고있는 압정은 우리는 좋은 탄도가 있다는 것을 압니다 알고리즘을 빠르게 수정할 수 있습니까? 그 궤적과 일치하는 종류? 이 결과 중 일부는 말하지 않습니다 그것은 어떤 상황에서도 수렴 할 것입니다 그러나이 결과는 슈퍼 – 슈퍼 – 흥미 진진한, 그들이 가능하다고 제안했기 때문에 정말 기계 학습 사이트를 극적으로 압축합니다

나는 때때로 깊은 학습에서 생각한다 이러한 성공 경험적 측면에 너무 무겁게 비중을 두었습니다 일부 오래된 최적화 더 고전적이고 이론적 인 것들 경험적으로 배제 된 것, 마치 그것을 실행하고, 그것을하고, 무슨 일이 일어나는지 보자 하지만 나는있을거야 이론에 대한 약간의 스윙

그게 전제 조건이 될지도 몰라 다음 소프트웨어 버전의 잠금을 해제합니다 나는 무슨 일이 일어날 지 매우 낙관적이다 피어 소프트웨어 측면 및 압축 된 메모리 부족 교육 다음 몇 년 동안, 이러한 최근 결과를 기반으로합니다 – 비동기를 만듭시다

그게 꽤 흥미로운 것 같아 우리가 처음 시작했을 때 구글의 신경망에 대한 많은 연구, 실제로 가속기를 배치하지 않았습니다 우리의 데이터 센터에서 우리는 많은 컴퓨터를 가지고있었습니다 실용적으로 만들기 위해서 그래서 우리는 아주 큰 모델을 대규모로 훈련시킬 수 있었고, 우리는 실제로 개발하고 사용했습니다

비동기 기술의 무리 중앙 집중 형 매개 변수 서버가있는 많은 복제본, 그리고 그라디언트는 모두 부실하고 날아 다니고있었습니다 실제로 작동하지만 이해하기 어렵습니다 이 큰 분산 시스템에서 그라데이션이 지연되고 항상 반복 가능하지는 않습니다 왜냐하면 매 라운드마다 다소 차이가 있기 때문입니다

그래서 우리는 실제로 대규모로 옮겼습니다 가속기 기반 슈퍼 컴퓨터 정말 고속 네트워크가있는 본질적으로 동기식 교육을 사용하여 그것은 훨씬 더 이해할 수 있습니다 알고리즘 관점에서 너는 이미 충분한 문제가있다 ML 모델에서 무슨 일이 일어나고 있는지 이해하기 당신이 비동기도 던지지 않으면

동기식 방법을 사용할 수 있으면 좋습니다 나는 우리가 훈련시키고 자하는 모델 중 일부는 생각한다 규모에있다 비동기 메소드로 돌아 가야합니다 내가 설명하는 시스템, 이러한 많은 다른 전문가들과 함께, 나는 큰 규모가 될 것 같아 가능하지 않을거야

그것을 완전히 동 기적으로 수행하십시오 수백만 가지 예제가 필요할 것입니다 다양한 방법으로 시스템을 비행하다 비동기 적으로 비트와 조각을 업데이트하는 것입니다 – 거기도 하나있어

그 게임을 할 수있는 레벨이 많이 있습니다 비동기가되는 것 그 논문들의 요점은, 호그와일드! 종이와 그 뒤에 오는 다른 종이들, 기본적으로 말하기 위해, 세상에, 이건 고전적인 시스템처럼 보이지 않아 그들은 이것이 좋은 생각이라고 말하는 것이 아니 었습니다 내가 그 종이에 적어 본 적이 없다고 생각합니다

나는 이것이 단지 재미 있다고 말했고 때로는 효과가있다 오, 세상에, 사람들이 그것을 사용하는 것으로 판명, 그것은 큰 놀라움이었다 우리는 그것을 호그 워드라고 부르지 않았다! 우리는 사람들이 그것을 사용할 것이라고 생각했기 때문에 (청중 웃음) 그러나 진지한, 거기에있는 근본적인 결과, 우리가 이해할 수 있다고 이 궤도가 어떻게 수정되는지, 그것은 재미있는 일종의, 그 알고리즘의 변화 하드웨어에서 수행 할 수있는 작업의 변경 사항을 수정하십시오 우리가 잠시 동안 실험실에서 물건을 몇 개 만들었을 때, 국립 연구소, 그리고 당신은 그 시간에 스케일 업하려고했습니다

나는 그것이 어쨌든 15 또는 50 페타 플롭스라고 생각합니다 나는 종이에있는 번호를 잊어 버렸다 인텔 직원들과 네가 그렇게했을 때, 네가 될 수있을 때까지 너는 동기식이었다 도대체 왜 너는 아니야? 네가 동기식으로 갈 수 있다면 무슨 일이 있었는지 이해하고 있습니까? 마지막에는 약간의 비동기가있었습니다

그것이 당신이 그것을 할 수있는 한가지 방법입니다 당신은 알고리즘의 내장에서 실제로 그것을 재생할 수 있습니다 그리고 하드웨어가 제작되고 설계되는 방식 다른 장소 일 수도 있습니다 좀 더 관리하기 쉬운 곳입니다

1 시간 지연되는 그라디언트가 아닙니다 그것은 2 클럭 사이클만큼 지연되는 그라디언트입니다 우리는 이론적 인 이해를위한 조금 나는 모든 작업 라인에 대해 흥미로운 점을 생각한다 꼭 좋은 생각 인 것은 아닙니다

그러나 그것은 근본적으로 다른 트레이드 오프 집합이있다 이 시스템에서 잠재적으로 열 수있는 그것은 단지 훌륭합니다 그냥 괴상한 방식으로 압축 할 수 있습니다 그리고 그들은 여전히 ​​옳은 일을합니다 이들은 단지 그것을 이해하고 시도하는 도구 일뿐입니다

나는 소프트웨어 혁신 측면, 다음 몇 년 동안, 아직도 많은 행동이있는 곳이 될 것입니다 이 하드웨어 측면은 매우 분명하기 때문입니다 이 한계들 중 일부를 치는 것입니다 하드웨어가 더 빨리 갈 수있을 때마다, 모두 자동으로 빠르게 진행됩니다 더 빠른 하드웨어가 있다면 사람들은 그것을 사용할 것입니다

그래서 거기에 혁신이 많이 있습니다 – 시간이 다 되었으니이 질문을 빨리 해보 죠 그리고 우리는 우리의 결론적 인 의견으로 이동할 수 있습니다 – [청중 회원]이 멀티 태스킹 아이디어에 대해 더 깊이 생각해보십시오 로봇 작업에는 두 가지 유형의 로봇 작업이 있습니다

하나는– – 마이크 좀 잡아 – [잠재 고객 회원] 게임을 할 곳, 당신은 무한한 양의 데이터를 가지고 있습니다 당신은 멋진 알고리즘을 훈련시킬 수 있습니다 실제 로봇도있다 이 엄청난 양의 데이터가없는 곳에 당신은 더 전통적인 방식에 의존 할 필요가 있습니다

지각 + 통제 접근법 여기에 언급 된 멀티 태스크 프레임 워크가 보이십니까? 이 로봇 작업에 사용되는 이유는 게임에 대한 모든 시뮬레이터 경험, 현실 세계에서 게임 레벨 로봇의 종류? – 네 그럼요 내 로봇 공학 연구 그룹이라고 생각해 다른 종류의 많은 추력을보고있다 로봇 연구

하나는 실제 로봇 자기 경험에서 배울 수 있습니다 특히, 당신이 많은 로봇을 가지고있을 때, 그들은 그들의 경험을 쌓을 수 있고, 모델을 학습하여 학습 할 수 있습니다 단순한 로봇의 경험 이상으로, 그러나 집합 적으로 당신은 일을하는 20 대의 로봇을 얻습니다 그리고 그들은 모두 미묘하게 다릅니다 너는 실제로, 그런 다음, 물건을 배울 수있다

좀 더 일반적입니다 그 로봇의 특별한 조인트 견고성보다 정확히 또는 무엇이든 그런 다음 많은 작업을하고 있습니다 시뮬레이션 결과를 실제 로봇으로 전송할 때, 시뮬레이터를 실제로 가져가는 방법을 배우고, 그것은 완전하지 못한 표현이다 현실 세계의 물리학을 연구하고 그 작업을하십시오

우리는 시위를 통해 배우고 있습니다 인간은 예를 들어, 5 ~ 6 개의 짧은 비디오 클립을 제공하십시오 인간이 서로 다른 종류의 컵과 머그잔에 붓고, 로봇은 그 비디오 클립을 입력으로 사용할 수 있으며, 그리고 나서 강화 학습을하십시오 약 15 건의 시련과 15 분의 경험으로 그것은 실제로 붓는 것을 배울 수있다 4 살 인간의 수준에서 일종의, 8 살짜리 인간 수준이 아닙니다

(Chris chuckles) (청중 웃음 소리) 그래서, 그것은 고무적입니다 나는이 모든 것들을 생각한다 너는 능력을 원할거야 로봇 원시의 전체 무리를 가지고, 이걸 집어 들고, 저기로 옮기고, 거기에 넣고, 너는 그때 함께 꿰맬 수있다 보다 복잡한 로봇 동작을 구축 할 수 있습니다

무겁게 멀티 태스킹 학습을하는 시스템처럼 들립니다 그리고 이런 종류의, 어쩌면 간단한 작업을 함께 배우는 것조차 더 복잡한 작업으로 너가 할 수 있고 싶 는다 무언가이다 로봇과 다른 많은 것들에서 – 좋아요이 주제에 대한 마지막 생각이 있다면, 당신이 그걸 포함시킬 수 있다면 하나 또는 두 개의 큰 영향을주는 문제는 무엇입니까? 사람들이 변화를 원한다면 집중할 수있다 우리는 이러한보다 유연한 ML 시스템을 향해 나아갔습니다

– 계속 해봐 – 먼저와 주셔서 감사합니다 호르헤와 다른 사람들이 이것을 세웠습니다 나는 이것이 많은 재미이었다고 생각한다 나는 무엇을 기대해야하는지 몰랐다

그러나 이것은 꽤 차가웠다 다음 세대는 무엇이 될 것인가에 관해서 이러한 종류의 시스템 중, 내가 말하는 방향에 대해서 생각해 데모와 시뮬레이터를 움직이는 것, 이 멀티 태스킹 시스템에있어서 정말 흥미로운 부분입니다 내가 계속 연구실에서 말하고있는 것, 나는 모든 학생들이 내가 농담한다고 생각한다 NFL 영화를보고 Madden을 연기 할 수 있기를 바랍니다

이것은 나의 꿈, 이것을 할 수 있습니다 나는 우리가 그 일을하는 데 몇 년이나 걸렸을 것으로 생각한다 필요하기 때문에 보상 기능을 자동으로 수립 할 수 있으며, 이동하고 일부 IRL 스타일의 기술을 사용합니다 거기에있는 것들을 잔뜩합니다 제 생각에는 이러한 차세대 시스템 이 훨씬 더 부유 한 환경에서 나올 것입니다

나는 학계에서 무슨 일이 일어나고 있는지 생각해 그 일이 일어 났고, 학계에서 더 이상 일어나지 않는 것은 사람들은 감독 된 사건에 집중하고있었습니다 단일 감독 벤치 마크 이제 당신은 GLUE와 같은 위대한 것들을 볼 수 있습니다 당신은 decaNLP와 같은 것들을 보았습니다 당신이 실제로 추론과 맞서도록 강요합니다

현실 세계에서 더 큰 범위에서 나는 그것이 어딘가있을만한 곳이라고 생각한다 정말로 흥미로운 진보가 많이 있습니다 글루는 단지 매우 재미있는 것입니다, 내 학생들이 불평하고 있지만 나에 대해 그들이 지금 당장 그렇게하도록 만들고있어 (청중 웃음) 그러나 나는 그것이 아주 멋진 것 같아요

고맙게도, 당신은 NLP를보고 있습니다, 및 시력 및 기타 분야 모든 데이터를 모으기 시작한다 정말 흥분되는 일을하도록 강요합니다 근거가있는 추론은 그 정맥에있다 너의 매든 예가 훨씬 더 인상적이라고 생각해 너가 다른 방향으로 가면

– 어 – 허, (웃음) 실제로 NFL에서 뛰는 군 예 예 (모두 웃음) 좋은 생각이야 – 그 중 하나가 이 무겁게 멀티 태스킹 방향으로 밀어 넣으면 톤과 톤이있다

정말 흥미로운 기계 연구 질문을 학습, 분산 시스템 질문, 소프트웨어 엔지니어링 질문 그러한 시스템을 어떻게 지정합니까? 우리는 어떻게 많은 사람들이 함께 일할 수 있습니까? 우리는 흥미로운 문제들을 어떻게 해결할 것인가? 우리가 어떻게 배울 수 있는지 이 큰 구성 요소 바다를 통해? 새 구성 요소는 어떻게 추가합니까? 모델에 용량을 추가하는 것이 의미가있는 방법은 무엇입니까? 더 이상 필요하지 않은 용량을 제거 하시겠습니까? 우리는 어떻게 새로운 일을 시작합니까? 어떻게 우리가 함께 꿰맬까요? 어떤 종류의 개인적인 것들 우리는 어떻게해야할지 이미 알고있다 보다 복잡한 종류의 프로그램이나 알고리즘으로 더 복잡한 작업을 해결하기 위해? 그런 종류의 일을 할 수 있다고 생각합니다 우리가 정말로 원하는 것처럼 보인다 새로운 일을 할 수 있어야한다

그것을 해결하는 시스템을 가질 수 있어야합니다 자동적으로 또는 약간의 인간지도로, 새로운 문제를 해결하기 위해 – 고맙습니다 이 토론에서 우리는 많은 기회를 확인했습니다 또한 소프트웨어, 하드웨어, 이론 전반에 걸쳐 몇 가지 문제를 제기합니다 우리가 훌륭한 위치에있는 학생으로서 이러한 생각을 할 수 있어야한다

우리가하고있는 일에 그들을 주입 시켜라 매일 매일 박사 과정 학생들을 많이 방문한다는 것도 알고 있습니다 잘하면 그 생각을하게 될거야 당신이 할 수있는 연구의 유형에 대해서 일단 당신이 박사 과정을 시작하면

Jeff Dean과 Chris Re에게 정말 감사드립니다 오늘 우리와 함께 시간을 보낸다 이 토론에 공헌하고, 그리고 다가오는 것에 대해 너희 모두에게 감사해라 또한 생각과 질문을 공유하십시오 모든 스태프와 교수님 들께도 감사드립니다

누가이 행사를 가능하게하기 위해 함께 왔습니까? 나는 너희들이 내가 한 것처럼 많이 즐기기를 바란다 고맙습니다 (청중의 박수) 우리는 또한 귀하의 의견을 듣고 싶습니다 Bitly 링크가 설정되어 있습니다 bit

ly/aisalon 로그인하여 의견을 보내주십시오 고맙습니다