Cloud OnAir: Extensible AI with H2O-3, Google Cloud Platform and KubeFlow

[음악 재생] ANTHONY HYLICK : 클라우드 OnAir에 오신 것을 환영합니다 Google Cloud에서 웹 세미나를 생방송하십시오

매주 화요일마다 웨비나를 개최합니다 내 이름은 Anthony Hylick이고, 오늘 나는 확장 성 AI에 대해 이야기 할 것입니다 H2O, Google Cloud Platform 및 Kubeflow가 있습니다 플랫폼에서 언제든지 질문 할 수 있습니다 우리는 구글이 그들을 기다리고있다

시작하자 그래서 오늘 우리는 확장 성 AI에 대해 이야기 할 것입니다 나는이 첫 번째 부분을 Nick Png과 함께 발표 할 것입니다 그래서 우리는 분산 휴대용 기계 학습을 만들고 싶었습니다 사람들이 쉽게 배포, 개발 및 관리 할 수있는 Kubernetes 그 설치

그리고 이것은 우리가 Kubeflow의 사명으로 제시 한 것입니다 컨테이너 및 컨테이너 배치의 경우, 2014 년에 우리가 극복 한 비슷한 문제가있었습니다 우리가 Kubernetes를 개발했을 때 우리는 API를 표준화하려고했습니다 사람들이 개발하고 관리 할 수있는 이러한 배포는 훨씬 간단합니다

그러나 Kubernetes만큼 쉽게 컨테이너를 만듭니다 배치, Kubernetes에서 기계 학습 설치 쉬운 일이 아닙니다 먼저 전문가가되어야합니다 이 모든 분야에서 컨테이너, 패키징, 영구적 볼륨, 스케일링, GPU, 클라우드 API 등 세 테라 Kubeflow를 입력하십시오

Kubeflow는 이것을보다 쉽게하기 위해 개발되었으며, 모든 사람들, 예, 모두가 발전 할 수 있도록 분산 휴대용 기계 학습 컨테이너 및 Kubernetes에 따라서 워크 플로우가 있었던 곳의 배포 왼쪽과이 클러스터의 수명주기 오른쪽에있는 다음 대체됩니다 Kubernetes 설치 및 Kubeflow의 추상화에 의해, 그런 다음 랩톱에서 개발할 수 있습니다 장소 상에서 온 – 프레스 클러스터에서 교육을받을 수 있으며, 클라우드에 배포 할 수도 있습니다

그래서 그걸로 비 노드와 닉에게 넘겨 줄거야 우리에게 H2Oai에 대한 소개를하기 위해, 그리고 그들이 Kubeflow로 무엇을했는지 VINOD IYENGAR : H2Oai는 누구입니까? 우리는 실리콘 밸리가 자금을 지원하는 회사입니다

우리는 약 6 년 동안 존재 해왔다 지금, 2012 년에 태어났습니다 우리 투자자는 Wells Fargo, Nvidia, Nexus, Paxion입니다 우리는 약 90 명의 ​​전문가 팀으로, 세계 5 대 그랜드 마스터와 데이터를 포함하여 과학자 우리는 여러 제품을 가지고 있습니다 – 대부분의 사람들은 우리의 물로 열심히 알고 있습니다

소스 기계 학습 플랫폼, 14,000 개 이상의 조직에서 사용하고 있습니다 자동화 된 기계 학습 인 H2Oai 플랫폼 우리는 거리 건너편 마운틴 뷰에 본사를두고 있으며, 우리는 런던, 프라하, 인도 가장 최근에 H2O는 2018 년 Gartner의 리더로 선정되었습니다

데이터 과학 및 매직 기계 매직 쿼드런트 학습 우리는 가장 많은 것을 가진 지도자로 선정되었습니다 비전의 완성 우리는 준 산업 분야에서도 인정 받았다 표준 및 기계 학습 플랫폼 간의 마인드

많은 기계 학습 프레임 워크 후드 아래에서 H2O 오픈 소스를 사용하십시오 H2O 고객은 또한 우리에게 가장 높은 전체 점수를주었습니다 판매, 성공 및 지원에 대한 모든 공급 업체 중 하나입니다 H2O 제품군에는 여러 줄이 있습니다 우리는 H2O 오픈 소스를 H2O 코어라고도합니다

이것이 메모리 내 분산 형 기계 학습입니다 플랫폼 우리는 스파클링 워터 (Sparkling Water)를 가지고 있습니다 아파치 스파크 (Apache Spark) 위에서 실행되는 물; 기본적으로 기계 학습 알고리즘 인 H2O4GPU GPU에서 실행되도록 이식되었습니다 그들은 모두 Apache v2 라이센스에서 100 % 오픈 소스이며, 데이터 과학자를 위해 제작되었습니다

우리는 R과 Python에서 인터페이스를 가지고 있습니다 데리러와 배울 정말 쉽습니다; 인터 액티브 노트북 인터페이스 인 H2O Flow 우리는 해당 소프트웨어에 대한 엔터프라이즈 지원을 제공합니다 오른쪽에서 상업용 엔터프라이즈 오퍼링을 볼 수 있습니다 Driverless 인공 지능으로 불리는, 우리가 본질적으로 기계를 사용하여 자동 기능 수행 학습 해석 능력

상업용 라이센스 소프트웨어입니다 도메인 사용자, 분석가, 데이터 과학자, 비즈니스 사용자 그것은 완전한 GUI 기반 인터페이스를 가지고있다 엔드 투 엔드 (end-to-end) 기계 학습 및 데이터 과학 먼저 우리의 오픈 소스 플랫폼 인 H2O-3에 대해 이야기 해 봅시다

H2O 란 무엇인가? 따라서 H2O는 본질적으로 수학 플랫폼입니다 기본적으로 오픈 소스와 메모리 AI를 제공합니다 전체적으로 병렬화 된 엔진 및 분산 알고리즘 – GLM, Random Forest, GBM, Deep Learning, 등등 또한 Java로 작성된 API이기도하지만, 프로그래머가이를 활용할 수 있도록 응용 프로그램 내부 매우 가벼운 설치입니다

모든 환경에서 작동 할 수 있습니다 기본 Java 환경 그것을 지원할 수 있습니다 그것은 큰 데이터를 위해 제작되었습니다 당신은 그것으로 많은 모델을 만들 수 있습니다 샘플링없이 많은 데이터를 사용할 수 있습니다

그래서 H2O의 알고리즘은, 잠깐 보시면, 우리는 가장 일반적으로 사용되는 기계 통계 알고리즘을 포함한 학습 알고리즘 선형 모델처럼, 순진한 베이 즈 (Bayes) 앙상블 치료법 – 거기에, 랜덤 포레스트, 그라데이션 부스팅 머신, 우리는 또한 스태킹과 슈퍼 러닝을 가지고 있습니다 알고리즘이 내장되어 있습니다 우리는 또한 깊은 학습 깊은 신경 네트워크를 지원하며, autoencoders, 신경망에있는 사람들 등이 포함됩니다 오른쪽에서, 당신은 자율 학습의 무리를 보았습니다 K- 수단과 같은 클러스터링 방법을 포함한 알고리즘

또한 PCA와 같은 차원 감소 기술을 지원합니다 일반화 된 낮은 순위 모델 또한 Word2Vec 및 시간을 통해 NLP를 지원합니다 ISax라는 직렬 알고리즘을 사용합니다 또한 모든 Google 알고리즘 조정할 다양한 하이퍼 매개 변수가 있어야합니다

우리는 조기 정지 및 AutoML 기능을 제공하며, 모든 다른 알고리즘을 조정할 수 있습니다 최고의 모델들의 앙상블을 얻으십시오 그러니 잠시 동안 봐 주시면 전형적인 엔터프라이즈 기계 학습 워크 플로우에서, 당신은 단순히 다른 사일로에 앉아있는 데이터를 가지고 있습니다 그들은 모두 모여있다 그리고 당신이 어떤 종류의 상세한 작업을 수행 한 후에, 데이터 품질 및 변환 기술 그 다음 그것에 적용됩니다

그리고 나서 당신은 당신이 부르는 것을 가지고 있습니다 모델링 준비 데이터 프레임, 여기서 당신은 기능 공학을합니다 종종 변형을 의미 할 수있다 기존 기능을 더 나은 기능으로 기계 학습 알고리즘에보다 적합합니다 그 후에는 일반적으로 기계 학습과 시험을하면서 시간을 보냅니다

다른 알고리즘을 사용하면 최종 모델 아티팩트가 생깁니다 그러면이 워크 플로우에 H2O가 어떻게 맞습니까? 따라서 H2O를 사용하면 다양한 데이터를 섭취 할 수 있습니다 가장 일반적인 온 – 더 – 및 클라우드 데이터를 포함한 데이터 소스 출처 따라서 HTFS 또는 Google Cloud Storage에 데이터가있는 경우, 예를 들어, 또는 다른 데이터베이스, 우리가 지원하는 다른 커넥터로 데이터를 가져올 수 있습니다 데이터가 물에 들어 오면 기본적으로 분산 키 값으로 변환됩니다

저장 공간이 데이터 프레임에 첨부됩니다 데이터가 입력되면 전체 묶음을 적용 할 수 있습니다 탐험 기술, 기능 공학 및 모델 건물 알고리즘 완전히 병렬화되어 배포됩니다 그리고 그것은 플랫폼의 합계입니다 사용자는 REST를 통해이를 사용할 수 있습니다

API를 사용하면 R, Python 또는 H2O Flow를 사용할 수 있습니다 프로그래머라면 직접 할 수 있습니다 Java 또는 Scala에서 작업하십시오 하지만 최종 사용자의 경우 완전히 [? DC?] 그리고 그들이 작동하고 적용 할 수있는 단일 H2O 프레임 이 모든 다른 기술들 일단 모든 다른 모델을 실행하면, 기본적으로 모델을 POJO로 내보낼 수 있습니다

또는 MOJO로서, 기본적으로 Java 아티팩트 인 전체 모델을 캡슐화합니다 그리고이 유물들은 생산에 들어갈 준비가되었습니다 스트리밍 환경에 배포 할 수 있습니다 서버리스 아키텍처와 같이 배치하십시오 원하는 경우 람다 아키텍처 – 또는 코드를 가져 와서 모든 애플리케이션에 삽입 할 수 있습니다

당신이 가질 수도 있습니다 그러면 Kubeflow 패러다임에 어떻게 들어갈 수 있을까요? 그래서 전형적으로 H2O에서, 당신은 베어 머신 (bare metal machines) H2O 모델을 실행하는 H2O 클러스터를 생성하십시오 그렇게하는 대신에, 추상 레이어로 Kubeflow 사용하기 베어 메탈과 물 위로 당신이 할 수있는 것은 근본적으로 데이터 과학자 팀이 모두 할 수있다 동일한 Kubeflow 및 Kubernetes 클러스터를 공유하여 다중 H2O 클러스터 그리고이 클러스터들은 모두 병렬로 실행될 수 있습니다

여러 명의 데이터 과학자가 H2O 클러스터를 회전시킬 수 있습니다 그들의 일을하고, 그들의 작업 부하를 제출하고, 그 후에 그것을 끄고 계속하십시오 원할 경우 확장 할 수도 있습니다 예를 들어, 작업 부하가 증가하면 기본 Kubernetes에 더 많은 노드를 추가 할 수 있습니다 또는 Kubeflow 클러스터

이것은 분명히 클라우드 또는 온 – 프레스 (on-prem)에서 실행될 수 있습니다 이제 Driverless AI에 대해 알아 보겠습니다 우리의 상용 엔터프라이즈 소프트웨어입니다 Driverless AI는 무엇을합니까? Driverless AI는 상자에 전문가 데이터 과학자를 제공합니다 우리가 한 것은 전문 AI 시스템을 만들었습니다

세계에서 가장 유명한 카글 마스터 (Kaggle masters)에 의해 지어졌습니다 AI 전문가 등이 있었고, 목표는 기업에 권한을 부여하는 것이 었습니다 종단 간 장비 학습 및 데이터를 달성하는 방법 단일 플랫폼으로 과학을 그것은 데이터 과학자의 작업을 모든 기능 엔지니어링 및 모델 제작 활동을 수행합니다 전문가 데이터 과학자가 수행 할 그리고 매우 정확한 모델을 제공합니다 생산에 갈 준비가되었습니다

또한 다양한 시각화 기술을 사용합니다 이해를 돕기위한 해석 기술 모델로부터 생성 된 결과, 따라서 모델에 대한 신뢰를 구축 할 수 있습니다 따라서 일반적인 엔터프라이즈를 살펴보고 이전에 본 머신 학습 워크 플로우, Driverless AI가 지금하는 일은 자동화하는 것입니다 그 시점부터 전체 워크 플로우 데이터 프레임을 준비했습니다 따라서 기능 엔지니어링, 모델 구축, 배포, 해석 가능성은 모두 Driverless 인공 지능에 의해 처리

따라서 데이터를 생산에서 생산에 이르기까지, 우리는 전체 워크 플로를 자동화했습니다 그리고 이것은 물론 마케팅 소프트웨어입니다 InfoWorld Technology of the Year 상을 수상했습니다 그렇다면 왜 Driverless AI는 기업을위한 게임 체인저입니까? 따라서 엔터프라이즈의 세 가지 일반적인 문제에 대해 생각해 보면 AI 옵션은 AI 재능이 부족합니다 숙련 된 전문가 데이터의 심각한 교역이 있습니다

과학자 데이터 과학자에게는 많은 시간이 걸리고, 훈련되고 경험이있는 사람들조차도, 모델을 만들 수 있습니다 이 모델을 만드는 데 수 주에서 수 일이 걸릴 수 있습니다 그들이 만든 모델은 종종 블랙 박스 모델입니다 해석하기가 어렵습니다

따라서 기업은이 모델을 신뢰하는 데 어려움을 겪습니다 생산에서 그래서 우리는 Driverless AI로 무엇을합니까? 디지털 데이터를 제공하여이 세 가지 문제를 해결하십시오 과학자 – 본질적으로 상자 안에있는 데이터 과학자 우리는 전체 기계 학습 워크 플로우를 자동화하고, GPU 가속 기계 학습을 사용하여, 따라서 모델을 만드는 데 걸리는 시간은 수 주에서 수 시간으로 늘어납니다

따라서 우리는 소요 시간을 크게 줄입니다 그리고 마지막으로 우리는 설명을 제공합니다 모든 모델에 대한 해석 우리는 Driverless 인공 지능으로 구축하므로 도움이됩니다 신뢰와 투명성을 기른다 그래서 당신은 어떻게 그리고 왜 알면서도 생산에 이러한 곰팡이를 넣을 수 있습니다

예측이 이루어지고있었습니다 그래서 Driverless 인공 지능을 볼 때 우리는 얼마나 잘 수행 할 수 있습니까? 우리는 Driverless AI를 참여 시켜서 작업하게했습니다 이 Kaggle 경쟁 중 일부에서는, 우리가 발견 한 것은 상자에서 꺼낸 것입니다 Driverless AI는 상위 5 백분위 수에 들어갑니다 대부분의 대회에서 그리고 몇몇 대회에서는 1 백분위 수위에 올 수 있습니다

그리고 당신이 Driverless 인공 지능을 이길 사람들을 보면, 모든 데이터 과학자 전문가들은 며칠과 몇 주 동안의 작업을했으며, Driverless AI는 성능과 일치 할 수있었습니다 몇 시간 만에 그래서이 자동 피처 엔지니어링을 제공합니다 모델 구축을 통해 모델에 가장 정확한 결과를 제공 할 수 있습니다 그래서 어떤 종류의 기능 공학 이죠? 우리가 수행합니까? 아주 빨리, 만약 당신이 그것을 보았다면 – 나는 Nick이 그것을 데모에서 조금씩 커버하려고한다는 것을 알고있다

본질적으로 우리는 일을하고 있습니다 자동 텍스트 처리, 주파수 인코딩, 크로스 유효성이 검증 된 타겟 인코딩, 절단 된 SVD, 클러스터링 이것들은 경험 한 것들입니다 전문가 데이터 과학자들이 시간을 할애했다 다시 한 번 모델의 정확성을 향상시키는 데 도움이됩니다

피쳐 엔지니어링을 적용하고, 모델 구축을 한 다음 어떤 기능이 나왔는지 확인하십시오 중요하다 그리고 반복적으로이 작업을 수행합니다 Driverless AI가 자동화하는 것 이 전체 과정을 반복적으로 진행합니다

경험 많은 데이터 과학자의 힘을줍니다 마지막으로 배포에 대해 잠깐 이야기 해 보겠습니다 그것이 H2O-3 또는 Driverless AI이든간에, 우리는 항상 전체 배포 옵션을 제공합니다 H2O 또는 Driverless AI로 제작 된 모든 모델 JAVA 아티팩트와 함께 제공됩니다 POJO 또는 MOJO 파일입니다

생산에 들어갈 준비 이러한 아티팩트는 지연 시간이 짧은 추론을 위해 제작되었으며, 그래서 우리는 몇 밀리 초 추론을 할 수 있습니다 그런 다음이 모델을 배포 할 수 있습니다 다른 환경으로 클라우드 또는 온 – 프레미엄에 배치 할 수 있습니다

그것을 REST API 서비스 뒤에 넣고, 그래서 귀하의 응용 프로그램은 그것을 활용할 수 있습니다 전체 라이프 사이클 모델 교육에서부터 관리 및 배포 그리고이 시점에서 랩입니다 너에게 끝이야, 닉 NICHOLAS PNG : 다음은 일부 제품에 대한 간단한 데모입니다

우리가 Kubeflow에서 운영하고있는 왼쪽 편에서 볼 수 있듯이, 우리는 단지 빠른 레포를 가지고 있습니다 이것이 Google의 Kubeflow와 Google이 한 일입니다 팀뿐만 아니라 물 그리고 오른쪽에는 터미널 창이 있습니다 우리 Kubernetes 마스터에게 열려있어

예를 들어 Kubernetes 부부의 노예와 연결되어 있습니다 그래서 당신이 여기서 살펴 본다면 kubectl 노드를 얻을 수 있습니다 그리고 그것은 내가 마스터뿐만 아니라 두 노예 연결 준비 그리고 kubectl이 노드를 설명한다면, 당신은 각자가 사용할 수있는 것을 정확히 볼 수 있습니다 그래서 당신은 기억의 양을 가지고 있습니다

다수의 CPU로 사용할 수있는 최대 포드 수가 있습니다 노드 당 3 개의 노드가 있음을 알 수 있습니다 그래서 우리가 처음부터 끝까지 다룰 것입니다 드라이버리스 AI의 간단한 데모입니다 우리의 엔터프라이즈 플랫폼입니다

그래서 여기를 보시면, ks component – 또는 죄송합니다 ls 구성 요소를 나열합니다 몇 가지 다른 구성 요소가 있음을 알 수 있습니다 이리 첫 번째는 Driverless이며 이는 구성 요소입니다

우리가 배포 할 것입니다 이제 Driverless AI는 엔터프라이즈 플랫폼이기 때문에, 라이센스를 추가 할 수 있도록 사전 배포했습니다 우리는 그것을 사용할 수 있습니다 그래서 우리가 kubectl 포드를하면, 당신은 실제로 볼 수 있습니다 그리고 Driverless 인공 지능이 바로 여기에서 달리고있는 것을보십시오 그래서 우리가 할 첫 번째 일은 – 사전 배포 된 이후로 이미 여기에 있습니다

기본적으로 이것은 운전자없는 인공 지능과 GUI입니다 그것은 그것과 관련된다 데이터를 수집하는 몇 가지 다른 방법이 있습니다 Google Cloud Storage 및 Big Query 미리 만들어진 커넥터가 있어야합니다 Google Cloud Storage를 사용하는 경우, 실제로 공개 데모 데이터로 바로 갈 수 있습니다

우리가 원하는 데이터 세트를 가져올 수 있습니다 따라서 가져 오는 데이터 세트 신용 카드 열차라고합니다 – 그것은 기본적으로 중국의 신용 카드 회사를위한 데이터 세트입니다 그리고 우리가 예측하고있는 목표 다음 달에 기본값입니다 그래서 분류 문제입니다 여기에서 예측을 클릭하면 실험 GUI로 바로 이동할 수 있습니다

따라서 실험을 클릭하는 경우, 이것은 데이터 세트를 선택한 후 얻을 수있는 것입니다 대상 열을 기본 지불로 선택하려고합니다 이제, 우리는 몇 개의 튜닝 노브를 가지고 있습니다 정확성, 시간 및 해석 가능성에 대해 조정할 수 있습니다 그리고 Go를 누르면 실험이 시작됩니다

여기에서 실험이 실행되고 있음을 실제로 볼 수 있습니다 그리고 이것이 진행되는 동안 우리는 우리 데모의 다른 부분을 살펴보십시오 그리고 그 안에있는 실제 구성 요소를 살펴 본다면, 여기에서 구성 요소를 볼 수 있습니다 – 환경, 이는 네임 스페이스 영역 일뿐입니다 배포 위치가 다른 여러 위치를 가질 수 있습니다 그래서 환경을 가질 수 있습니다

클라우드 또는 온 – 프레미엄 용 구성 요소가 중요한 부분입니다 구성 요소는 구성 요소 일 경우, 모든 다른 구성 요소를 보여줄 것입니다 지금 우리에게 사용 가능합니다 그래서 저는 Driverless AI를 가지고 있습니다

driverlessjson 구성 요소로 사용할 수 있습니다 그리고 H2O Static은 H2O-3입니다 클러스터를 다른 구성 요소로 사용할 수도 있습니다 이들은 repo를 통해 제공됩니다

그러므로 만약 당신이 H2O Kubeflow 아래를 살펴 본다면, 당신은 Driverless package H2O가 있음을 알 수 있습니다 프로토 타입 인 스케일링과 정적 인 H2O 정적 우리가 가지고있는 표준 클러스터입니다 그리고 내가 ks pkg list를한다면, 우리는 실제로 이것들이 사용할 수있는 패키지들이다 이 (가) 여기에 추가되었습니다 Kubeflow repo를 본 적이 있다면 – 그것은 github

com/kubeflow입니다, 저는 믿습니다 – 실제로 가져 오기 또는 설치하는 가장 좋은 방법을 볼 수 있습니다 패키지는 ks pkg install이 될 것이며, 그런 다음 레지스트리 이름 바로 여기 파일 이름입니다 H2O Kubeflow slash– 나는 이미 다른 것들을 설치했기 때문에, H2O-3 스케일링을 설치합니다 보시다시피 설치되어 있습니다 그리고 내가 ks pkg list를 다시한다면, 너는 기본적으로 다른 별표가 있다는 것을 알 수 있습니다

그것은 설치되었습니다 이제 저는 두 가지 구성 요소를 미리 구운 것입니다 당신은 여기에서 그들을 볼 수 있습니다 하지만 ks 프로토 타입 유형을 사용하려면 ioksonnet

pkgh2o3-static– H2O-3 데모 슬래시를 다른 이름으로 바꿉니다 필요한 매개 변수를 추가하십시오 네임 스페이스, 우리는이 기본값을 호출 할 것이다 그런 다음 여기에 매개 변수를 추가 할 위치입니다

얼마나 많은 기억을주고 싶니? 클러스터 – 또는 오히려 – 클러스터의 각 노드? 얼마나 많은 CPU를 클러스터의 각 노드에 제공 하시겠습니까? 이것은 장난감 구성 요소이므로 – 이미 다른 하나는 미리 구워 먹으십시오 단지 1 기가의 메모리를 제공하십시오 그건 그렇고, 추천하지 않습니다 CPU– 하나의 CPU 만 제공하십시오 그리고 복제본의 수 – 그래서 많은 복제본들 H2O-3 클러스터에서 원하는 노드의 수입니다

그래서 이것을 4라고 부를 수 있습니다 이 특정 구성 요소에 대해서는 별 문제가되지 않습니다 중요한 것은 모델 서버 이미지이며, 이건 그냥 레포 일거야 저장된 도커 허브 레포 배포 될 Docker 이미지 따라서이 경우 Repo를 실제로 되돌릴 수 있습니다

그것은 존재합니다 – 도커 파일들 – Docker 파일을 사용할 수 있습니다 여기 Docker Hub 중 하나를 만들고 호스팅 할 수 있습니다 Docker 허브 저장소 또는 다른 위치에서 로컬로 – H2O-3 Kubeflow 오타가 존재합니다 – 모델 서버 이미지 우리는 거기에 갈

기본적으로 구성 요소를 만드는 것입니다 이제 내가 ls 컴포넌트를 다시 간다면, 이제 H2O-3 데모가 있음을 알 수 있습니다 H2O-3 Static뿐 아니라 Driverless도 있습니다 이제는 Driverless AI를 사전 배포했는데, 라이센스가 부여 된 제품이기 때문에, 그래서 우리는 보여줄 수있게하고 싶었습니다 라이센스가없는 제품이 표시됩니다

그래서 내가 kubectl 포드를하면, 당신은 실제로 Driverless 인공 지능이 실제로 벌써 달리고있는 것을 안다 이미 존재합니다 그리고 내가 kubectl pod Driverless AI를 묘사한다면, 우리는 실제로 우리가 할당 한 것을 볼 수 있습니다 일정량의 메모리 – 노예 때문에 GPU가 필요 없습니다 GPU가 처음에는 없었습니다 그러나 드라이버리스 AI는 GPU에 최적화되어 있습니다

실제로 5 배 정도 빠르기 때문에 실제로 GPU 사용을 권장합니다 그래서 이것은 Driverless AI GUI입니다 그래서 이것은 당신이 Kubernetes에 붙을 때 얻는 것입니다 인스턴스를 통해 Kubeflow 이제 몇 가지 다른 방법으로 데이터를 수집 할 수 있습니다

Google Cloud Storage에 내장 된 커넥터가 있습니다 Google BigQuery 등이 있습니다 지금은 Google Cloud Storage를 사용하겠습니다 H2O GCS 공개 데이터 – 데모 데이터 gs, H2O, gcs 공개 데모 데이터 – 이게 효과가있다

그냥 여기에서 다시 시도해 보겠습니다 나는 네트워킹이 있다고 생각한다 H2O GCS 데모 데이터 우리는 거기에 갈

그래서 저는 가져올 것입니다 – 이것은 우리가 사용하는 기본 데이터 세트입니다 신용 카드 데이터 세트라고합니다 기본적으로 신용 카드 데이터가 있습니다 네가 가고 있는지 아닌지 예측하기 다음 달에 기본값으로 설정됩니다

그리고 나머지 데모를 실행하는 동안, 실제로 백그라운드에서 실행 해 보겠습니다 결국 우리는 그것이 어떻게 생겼는지에 대한 아이디어를 얻을 수 있습니다 따라서 기본적으로 Predict를 클릭하면됩니다 기본적으로 열을 선택합니다 예측을하고 싶다

우리가하는 검증 데이터 세트를 가지고 있다면, 우리는 그것을 추가 할 수 있습니다 원하는 튜너와 일부 튜너를 토글합니다 얼마나 오래 걸릴지, 얼마나 정확한지 – 또는 당신이 정확도를 위해 가지고있는 체중 해석과 비교하여 실행을 클릭하십시오 이 프로그램이 실행되는 동안 나는 실제로 H2O-3의 빠른 전개를 거칠 것입니다 따라서 우리가 다시 한 번 구성 요소를 살펴 본다면 H2O-3 Static jsonnet을 사용할 수 있음을 알 수 있습니다

그리고 여기에서 패키지는 간단합니다 componentsparams를 사용하면 실제로 살펴볼 수 있습니다 사전에 구운 모든 매개 변수를 설정했습니다 일단 구성 요소를 설정하면, 당신은 실제로 이것을 배포 할 수 있습니다

하지만 네임 스페이스에서 원하는 것은 당신은 어느 환경에서나 원한다 리디렉션을 통해 사용할 수 있어야합니다 kubectl에 연결 그래서 kubectl을 연결하도록 설정할 수 있습니다 온 – 인 (on-prem) 리소스, 몇 가지 실험 실행, GCE 또는 GCP로 클라우드에 연결 온 클라우드 실험도 실행해야합니다

그래서 여기에서 우리가해야 할 일은, 여기에 이미 설정되어 있습니다, ks 기본값을 적용, 우리가 원하는 구성 요소에 대해 빼기 c, H2O-3 Static으로갑니다 이제는 잠시 후에 볼 수 있습니다 실제로는 미리 정의 된 서비스를 만들고 있습니다 실행에 필요한 배치뿐 아니라 H2O-3를 만들고 클러스터를 만듭니다 자, 여기 셋은 세 개의 클러스터로 구성되어 있습니다

노드 당 2 개의 CPU와 노드 당 6 기가 바이트의 메모리 이제는 일반적으로 데이터 양에 대해 약 4 배의 메모리를 가지고있다 당신이 원하는 그 그래서 당신이 데이터의 공연을 사용하는 경우, 다음 약 4 기가 메모리를 사용할 수 있습니다 H2O-3 클러스터는 필요한 모든 일을 할 수 있습니다

그리고 이제 우리가 살펴 본다면 큐브 트는 포드를 가져옵니다 다시 한 번 살펴보면 여기에 몇 가지 배치가 있음을 알 수 있습니다 데모 버그가있는 것처럼 보입니다 아닙니다 kubectl는 포드를 얻는다, 거기에서 우리는 간다

거짓 경보입니다 이제 우리가 서비스를 보면 – svc – 당신은 실제로 볼 수 있습니다 그리고 우리는 사용 가능한 노드 밸런서를 가지고 있습니다 그것은 우리가 노출하는 포트를 전달하는 것입니다, 54321, 사용 가능한 다른 포트에 연결합니다 그래서 우리가 Kubernetes 주인에게 붙이면 여기에 우리가 필요로하는 포트를 추가하십시오

우리는 볼 수 있습니다 – 지금 이것은 기본적으로 물 흐름입니다 H2O를 실행하기위한 옵션 중 하나입니다 뿐만 아니라 R을 통해 실행할 수도 있습니다 또는 파이썬 해석기를 통해 기본적으로이 방법은 훨씬 더 많은 포인트 앤 클릭 방식을 제공합니다

데이터 수집 및 기계 수행 학습 연습 또는 기계 학습 실험 차이점은 파일 가져 오기를 클릭하기 만하면됩니다 또는 [프레임 가져 오기]를 클릭하거나 [예측], [ 실제로 그렇게 할 것입니다 너를 줄거야 코드는 모두 자기 구워집니다

그리고 실제로해야 할 일은 작은 매개 변수를 추가하는 것입니다 R이나 Python으로 작성하는 것이 아니라, 그래서 당신은 반드시 그 언어를 알 필요가 없습니다 자, 여러분이 파이썬 사용에 관심이 있다면, 그러면 파이썬 클라이언트가 있습니다 그리고 전 Jupyter 노트북을 미리 만들어 냈습니다 기본적으로, 당신이해야 할 일은 물을 가져 오는 것입니다, 그래서 이것은 로컬에 설치되어야합니다

그리고 물에서, 당신은 할 수 있습니다 – H2Oout에서 H2O AutoML을 가져 오겠습니다 그리고 이것은 AutoML 패키지 중 하나입니다 매우 심층적 인 그리드를 실행할 패키지 여러 알고리즘을 검색 가장 효과적인 것들을 찾기 위해서, 본질적으로 귀하의 데이터를 그래서 여기에서 우리는 실제로 물을 수입했습니다 – 실제로 H2O 흐름을 살펴볼 수 있습니다

여기에 내가 관리자를하고 클러스터 상태를 얻는다면 실제로 세 개의 노드가 연결되어 있음을 볼 수 있습니다 사용 가능한 메모리를 볼 수 있습니다 이전에 할당 한 메모리 양입니다 그리고 일단 여기에 연결되면 실제로 볼 수 있습니다

그래서 h2oinit 포트는 다음과 같습니다 포트를 다시 복사하여 붙여 넣기 만하면됩니다 또는 오히려 IP 및 포트,이 바로 여기에 있습니다 오, 우리가 간다

그래서 기본적으로, 이것은 미리 굽는 것입니다 그냥 클러스터라고 부르지 만 이름을 바꿀 수 있습니다 보시다시피, 3 개의 노드 – 총 여유 메모리 18에 가까운 집계 하지만 당신이 H2O-3에 최대 힙 메모리를 사용하지 않으려합니다 자바로 작성 되었기 때문입니다

그래서 Java는 실제로 실행하기 위해 약 10 %의 시간이 소요됩니다 그래서이 시점에서 당신은 연결되어 있습니다 그리고 기본적으로 같은 것을 할 수 있습니다 H2O Flow에서 할 수있는 것처럼하지만 파이썬 만 있으면됩니다 통역사

그래서 열차는 H2O와 같습니다 파일 가져 오기, 그러면 데이터를 얻을 수 있습니다 GCS에서 전달하면됩니다 GCS 커넥터가 있습니다 이제 이것은 오픈 소스 제품입니다

GCS 커넥터가 실제로 만들어집니다 외부로부터, 내가들은 것을, 곧 통합 될 것입니다 하지만 아시다시피 s3 커넥터가 있습니다 지역 출처뿐만 아니라 대부분의 H2O에 대해 공개적으로 사용할 수있는 한 어디서든 사용할 수 있습니다 연결하고 잡아라

지금은 불행히도 사소한 버그가있었습니다 우리가 이전에이 문제를 다루고 있었던 바로 오늘 아침에 데이터를 가져올 수 없었습니다 그러나 우리는 빨리 돌아볼 수 있습니다 우리의 실험에서 이미 끝나야 만합니다 유효성 검사 집합이 없습니다

따라서 유효성 검사 세트가 여기에있는 것 같습니다 필요한 열이 없으므로 실제로는 그냥 재방송을해야 할 것입니다 실험을 재실행 할 수도 있지만 가서 정말 빨리 설명 할 수 있습니다 우리는 그것을 통과하는 동안 빨리 이해할 수 있습니다

여기에있는 것은 두 개의 튜닝 노브가 있다는 것입니다 기본적으로, 정확도는 얼마나 높은가? 정확성을 평가하고 싶습니까? 따라서 10 점이 가장 높을 것입니다 하나는 가장 적을 것입니다 그리고 모델 자체는 실제로 이것을 바탕으로 만들어 져야한다 따라서 정확도를 낮게 설정하면 더 빠른 실행 우선 순위를 정할 것입니다

보다 간단한 모델을 만드는 것이 우선시 될 것입니다 시간도 어느 정도 다른 시간에 의존합니다 하지만 기본적으로 의미는 당신이 10 시간 동안 그것을 허용한다면, 그것은 당신이 영원히 달리는 것을 꺼리지 않는다는 것을 의미합니다 – 영원히는 아니지만 오랜 시간 동안 – 그러면 좀 더 복잡한 모델을 선호 할 것입니다 더 높은 정확도 이것이 Driverless AI가 우선시하는 것입니다

그리고 마지막으로, 해석 가능성이 있습니다 통역 가능성은 본질적으로 말하면, 10 XGBoost 모델의 누적 된 앙상블 모델 또는 어쩌면 하나 또는 아이디어는 신경망 또는 선형 회귀 – 그래서 선형 회귀가 더 해석하기 쉽다 그래서 당신의 해석력이 10 인 경우 – 대 하나 더 복잡한일지도 모른다 – 신경망 또는 누적 된 앙상블 여러 XGBoost 모델 중 따라서 실제로 무슨 일이 일어나고 있는지 볼 수 있습니다 그래서 지금 우리는 몇 가지 다른 차트를 가지고 있지만 기본적으로 이것은 당신이 얼마나 많은 양력을 얻고 있는지를 보여줍니다

정확도와 리콜 비교 분류입니다 당신의 바위 곡선의 그리고 이것은 여러 신기원에 걸쳐 있습니다 – 기계가 출력하는 성능 만 귀하의 유효성 검사 데이터 따라서 검증 데이터 세트에 컬럼이 누락되어 있기 때문에, 실제로는 교차 검증 분할을 수행 할 것입니다 그래서 기본적으로 훈련에서 벗어나는 부분입니다

각 반복마다 데이터 세트와 실행 유효성 검사 점수가 있습니다 이것이 바로 우리가 여기서 보는 것입니다 데이터 세트 만 가져가는 것이 아닙니다 그것 자체에 반복적으로 훈련하십시오 여기서 정말 멋진 부분은 가변적 인 중요성입니다

이것은 Vinod가 이전에 강조한 것입니다 근본적으로, 그것이 무엇인지는 당신이 한 쌍을 볼 수 있다는 것입니다 열은 Pay 1과 같습니다 이것은 실제로 정상 데이터 세트에 존재하는 컬럼이며, CVTE Pay 1과 같은 다른 데이터 세트도 있습니다 그것은 교차 유효성이 검증 된 대상 인코딩입니다

특정 열 – 나는 그것이 실제로 Pay 10이라고 믿습니다 실례합니다 이것이 교차 검증 된 대상 인코딩입니다 열 10 지불 차이점은 실제로 모델과 Driverless AI 자체에 의해 생성 된 – Pay 1과 비교하면 데이터 세트와 함께

그리고 이것은 매우 작은 데이터 세트이기 때문에, 그것은 꽤 빨리 훈련 된 것 같습니다 일단 완료되면 실제로 MOJO 또는 POJO로 출력 할 수있는 최종 모델을 교육하십시오 그래서 우리는 그것이 가고 있기 때문에 실제로 그것을 기다릴 수 있습니다 잠시 후에 끝내라 그리고 마지막으로, 이 훈련을받은 후에는 실제로 MLI를 실행할 수 있습니다

MLI는 기계 학습 해석 가능성 (Machine Learning Interpretability)의 약자입니다 그리고 그것이하는 일은 기본적으로 여러분이나 더 복잡한 모델을 필요로합니다 10의 정확도가 있다면 해석의 가능성이 1이라면 그 모델을 실제로 가져갈 수 있습니다 그리고 그것은 여러 번 실행됩니다 – 같은 선형의 여러 선형 보다 복잡한 XGBoost 모델과 일치하는 회귀 분석 후드 아래에서 당신이 실제로 무슨 일이 일어나고 있는지 볼 수 있습니다

추론과 결정을 보아라 우리의 더 복잡한 모델을 만들었습니다 대부분의 경우 특정 카테고리와 같이 재정적 인 수직 같이, 이것은 아주 중요 할 것입니다 그래서 여기에서 당신은 실제로 볼 수 있습니다 – 그래서 이것은 MLI가 될 것입니다 이 모델 해석을 클릭하면, 실제로 그것을 해석하기 시작할 것입니다

실행 중일 때 실제로 닫을 수 있습니다 그래서 MLI가 지금 운영 중입니다 실제로 실험으로 돌아갈 수 있습니다 봐봐 실험을 다운로드 할 수있는 곳입니다

요약, 일부 로그 다운로드 – MOJO 채점 파이프 라인을 만드는 경우 이 또는 POJO가 될 파이썬 채점 파이프 라인에서, 이 위치에서 배포를 얻을 수 있습니다 배포 할 수 있습니다 아마도 가장 좋은 장소는 클라우드에있을 것입니다 또는 Kubernetes에서 수요가 늘어날 수있는 곳 예측을 위해 그것을 사용할 수 있습니다 그래서 우리는 시간이 없어 보이는 것처럼 보입니다

그래서 저는 생각합니다 라이브 Q & A를 위해 계속 지켜봐주십시오 우리는 1 분 안에 돌아올거야 그리고 Q & A로 다시 오신 것을 환영합니다 그래서 첫 번째 질문 Kubeflow에서 어떤 기계 학습 플랫폼을 실행할 수 있는지, TensorFlow로 제한됩니까? 내 대답은 아니오 야

TensorFlow에만 국한되지 않습니다 사실, 나는 Kubeflow repo를 믿는다 이미 여러 패키지가 있습니다 거기뿐만 아니라, 포괄적 인 Caffe, Karas, 나는 믿는다, 기계 학습을 통한 심층 학습을위한 TensorFlow를 제공합니다 이것은 H2O가하는 일이며 Kubeflow에서 지금 실행 중입니다

아마 그렇게 될 것입니다 많은 기회가 있습니다 바로 여기에 H2O는 더 나은 것을 위해 그것을 활용 해 왔습니다 우리가 파트너쉽을 시작한 지 2 개월이 지난 후, 그것은 꽤 잘 돌아 간다

그래서 예, H2O-3는 기계의 또 다른 옵션입니다 Kubeflow에서 배우기 ANTHONY HYLICK : 다음 질문입니다 Kubeflow를 온 – 맨으로 돌릴 수 있습니까? 물론, 그것은 디자인의 일부였습니다 이식 할 수있는 무언가 분산 된 기계 학습에 적합합니다

온 – 프레미엄으로 운영 할 수 있습니다 미니 큐브를 통해 노트북에서 실행할 수 있습니다 클라우드에서 실행할 수 있습니다 Kubernetes가있는 곳이면 누구나 Kubeflow를 실행할 수 있습니다 우리가 가진 다음 질문은 무엇입니까? Kubeflow의 보안 개인 정보 보호 준수 클라우드에서 실행 중입니까? 이것은 VM 실행과 다른 것입니까? 추가 보안 또는 개인 정보 보호 관련 사항은 없습니다

그 Kubeflow 열립니다 따라서 사용자가 가지고있는 동일한 컨테이너 또는 VM 관련 문제가있는 경우, 이것들은 유지 될 것입니다 Kubeflow를 사용할 때 동일하게 유지됩니다 그리고 우리가 가진 마지막 질문은 – Gube에서 실행중인 Kubeflow와 함께 GPU / TPU를 사용할 수 있습니까? 물론, 두 GPU를 모두 사용할 수 있습니다 또는 작업에 필요한 TPU를 사용할 수 있습니다

당신이 끝내야 할 일, 또는 성과, 또는 당신이 겪고있는 정확성 이 경우 GPU와 TPU를 사용할 수 있습니다 니콜라스 PNG : 사실, 한 번 더 자세히 설명 할 수 있다면 2 번 질문에 그래서 Kubeflow와 함께 on-premade를 실행합니다 우리가 현재 작업하고있는 것들 중 하나 – 프로토 타입, 만약 네가 원한다면 – Kubeflow 팀과 실제로는 기회가 구름을 터트려, 온 프레미스에서 시작한다는 의미입니다

예를 들어 4 대의 기계 또는 3 대의 기계 또는 많은 그리고 수요가 자원의 양을 초과하는 경우 사용할 수있는 온 – 아마, 그럼 당신은 실제로 다른 GCP에있을 머신 그래서 GCE를 통해 그리고 그것은 Kubernetes 클러스터에 붙을 것입니다 Kubernetes 클러스터를위한 새로운 리소스 역할을합니다 그리고 나서 그것은 기본적으로 일류 시민이 될 것입니다

궁극적으로 한 번 리소스 하중이 감소된다 이것이 실제로 우리가 작업하고있는 것입니다 실제로 몇 가지 스크립트가 있습니다 H2O Kubeflow 레포에있는 이 프로토 타입의 종류입니다, 시간이 지남에 따라 계속 업데이트 될 것입니다 ANTHONY HYLICK : 그래, 절대적으로 구름에 터지다

동적 인 용량 증가를 가능하게한다 작업 부하가 필요할 때 감소합니다 니콜라스 PNG : 네 ANTHONY HYLICK : 그것은 Q & A를위한 것입니다 나는 다음 세션에서 계속 지켜봐야겠다

99 GPU가 아닌 문제 [음악 재생]