Developing a Warning System for Risk Managers from Scratch on GCP, using AI & ML (Cloud Next ’18)

[음악 재생] OTTO VERMEULEN : 혹시 궁금한 적이 있습니까? 은행이 돈을 안전하게 지키는 방법 은행이 신용 위험에 대해 모니터링하는 방법은 무엇입니까? 프리젠 테이션을 시작하기 전에 비즈니스 문제를 개략적으로 설명하는 짧은 애니메이션, 솔루션, 기술이 어떻게 도움이 될 수 있는지에 대해 설명합니다 찰스를 만나십시오

[비디오 재생] – 은행의 신용 리스크 관리자 인 Charles를 만나십시오 매일 Charles는 모니터링을 담당합니다 은행의 대출과 관련된 위험 다른 회사에 돈을 문제는 요즘 정보를 얻지 못하는 것입니다 올바른 정보

큰 데이터 세계는 Charles의 투쟁입니다 이 회사들에 관한 모든 뉴스를 읽는 것은 불가능합니다 종종 언어로 제공됩니다 찰스는 말하지 않는다 그리고 대부분이 단지 소음 일지라도 때로는 거기에 있습니다

정말 적절하고 긴급한 것입니다 현지 뉴스에서 언급했다 찰스가 더 잘 할 수있게 도와주는 것이 좋지 않을까요? 은행이 직면하고있는 신용 위험에 계속 머물니까? 이를 위해 조기 경보 시스템 (Early Warning System) 기계 학습 기반 응용 프로그램 모든 데이터를 처리하도록 훈련 된 사용할 수있게됩니다 조기 경보 시스템을 통해 Charles는 사전 신호를 얻습니다 그의 상대방에 대해서 그가 가지고있는 장치를 조사해야합니다

이 신호는 모든 지역 시장에서 발생합니다 그의 고객은 모든 언어로 활동합니다 조기 경보 시스템은 모든 것을 영어로 번역합니다 그래서 찰스는 이해합니다 이로 인해 많은 시간을 절약 할 수 있으며 빅 데이터에 생명을 불어 넣을 수 있습니다

세상이 훨씬 나아 조기 경보 시스템 [끝내기] OTTO VERMEULEN : 안녕하세요 내 이름은 Otto Vermeulen이며 PwC의 기술 파트너입니다 나는 Cloud Next '18에 이곳에 와서 매우 기쁩니다

우리가 본 것은 찰스의 주요 비즈니스 과제 적시에 적절한 정보를 얻고 있습니다 그의 문제가 해결 될 수 있다고 그가 전세계에서 정보를 얻는다면 적시에 그래서 우리는 신용 위험에 대한 조기 경보 시스템을 구축했습니다 조치– 공개 데이터에서 통찰력 추출 신용 위험을 가능케하는 전 세계에서 중요 이벤트에 집중하는 관리자 의사 결정을 지원합니다 그리고 어떻게 그리고 왜 지금 가능한가? 거의 무제한의 컴퓨팅 성능을 가지고 있기 때문에 가능합니다 클라우드의 스토리지 용량 등이 포함됩니다

Google은 다양한 API 및 알고리즘을 보유하고 있습니다 기계 학습을 위해 그리고 우리가 지금 민첩하게 일하기 때문에, 빠른 실험을 가능하게합니다 그래서 우리는 개념 증명을 할 수있었습니다 12 주 만에 나는 이제 당신을 의제를 통해 간단히 걸을 것이다

먼저, 팀을 소개하고 설명합니다 우리가 어떻게 함께했는지 그 후에 ING는 신용 위험에 대한 이러한 사용 사례가 관리는 그들에게 매우 중요합니다 그런 다음 우리는 우리의 접근법을 상세히 설명 할 것입니다 이 개념 증명과 그것의 디자인 그 다음에는 기술 솔루션에 대해 설명하고, 기술 데모 포함

그런 다음이 프로젝트의 핵심 테이크 어웨이를 마무리합니다 보시다시피, 우리는 3 개의 주요 당사자와 함께 있습니다 그들은 ING, Google 및 PwC입니다 그리고 어떻게 우리가 같이 왔습니까? 글쎄, 쉽다 – 구글이 우리에게 접근했다 ING는 실시간 뉴스를 수집 할 생각이 있음을 나타 냈습니다

신용 위험에 대한 해당 분석 수행 관리 부서 그리고 그들은 우리가 그 (것)들과 일하게 기꺼이 할 것이라는 점을, 물론, 우리는 그렇게 할 것입니다 그래서 우리는 빨리 데모를 만들었습니다 그리고 데모는 ING가 올바른 방향으로 가고 있다고 확신 시켰습니다 이것을 더 깊이 탐구 할 필요가있었습니다

그래서 그들은 우리에게이 개념 증명을 해달라고 요청했습니다 이제 다음 연사에게 넘겨주기 전에, 나는 팀을 소개 할 것이다 우선, 우리는 Anand Autar가 있습니다 아난드는이 프로젝트의 집행자입니다 RNG에서의 포트폴리오 관리 책임자

그는 또한이 프로젝트의 아버지이기도합니다 아난드 팀은 중역 후원사였으며, 5 명의 핵심 팀 구성원 및 30 명이 넘는 테스트 사용자가 있습니다 PwC에서 Pieter Verheijen이 있습니다 Pieter는이 프로젝트의 약혼자입니다 컨설팅 분야에서 은행 혁신 실천을 선도하고 있습니다

Pieter는 Peter, Peter Wiggers가 뒤따를 것입니다 그는 클라우드 토착 아키텍트이자 기술 리더입니다 그리고 그의 취미는 Kubernetes입니다 나중에 그것에 대해 더 많이 듣는다 또한 우리 팀에는 데이터 과학자, UX 디자이너, 및 프런트 엔드 디벨로퍼를 포함한다

그리고 나서 발표가 아니라 똑같이 중요한, Google의 Petra Stojanovic ING의 계정 관리자입니다 우리에게 엄청난 통찰력과 접근성을주었습니다 Google 내의 적절한 전문가에게 이제 애니메이션을 보았습니다 프로젝트와 팀에 대한 소개가있었습니다

그리고 Anand Autar에게 넘겨 줄 시간입니다 아난드, 너에게 ANAND AUTAR : 감사합니다 [박수 갈채] 다들 감사 해요 오토가 언급했듯이, 너는 나를 볼 수 있었다

이 프로젝트의 아버지로서, 나는 그것을 자랑스럽게 생각합니다 우리가 지금있는 곳 나는 조기 경보 시스템으로 시작했다 몇 년 전쯤 지금 ING에서 당신과 함께 할 수있게되어 매우 기쁩니다 오늘날의 기술로 무엇을 할 수 있습니다

우리는 도매 신용 위험 내에서 이것을 개발했습니다 관리 공간, 이는 우리가 집중한다는 것을 의미합니다 대기업과 같은 고객의 경우 은행, 보험 회사와 같은 금융 기관 및 국가 이 프로젝트를 개인적으로 정말로 흥미롭게 만드는 것은 무엇입니까? 나를 위해 그것은 사실 그것이 사실이다 위험 관리 공간에서도 우리는 혁신도하고 있습니다

ING의 전략과 함께 앞으로 한 발 앞서 나가려고 노력합니다 소개 영화에서 볼 수 있듯이, 우리는 요즘 많은 정보를 다루어야합니다 그리고 내가하려고하는 것은 실제로 왜 우리가이 모든 정보를 과부하로 시작했는지 설명하십시오 우리가 오늘 가지고있는 그렇게하기 위해, 나는 처음에 당신에게 신용 위험에 대해 설명하기 시작할 것입니다

관리는, 그리고 나는 실제로 신용의 근무일을 사용한 예제를 안내합니다 위험 관리자 신용 리스크 관리 란 무엇입니까? 그 질문에 대답하기 위해, 나는 실제로 돌아갈 것이다 은행 업무의 기본에 이르기까지 은행을 살펴 본다면 은행은 돈을 입금하고, 돈을 빌리고, 또는 한 곳에서 다른 곳으로 돈을 이체 할 수 있습니다

본질적으로, 우리는 단지 금융 서비스 회사입니다 그래서 개인으로서 은행에 돈을 입금하면, 은행은 실제로 그 돈을 빌려줄 것이다 돈이 필요한 고객에게 우리가 그렇게 할 때 우리는 실제로 위험을 감수합니다 그 위험을 신용 위험이라고합니다

고객에게 돈을 빌려주는 것은 위험합니다 우리는 고객이하지 않을 위험을 감수합니다 그 돈을 갚을 수 있어야합니다 즉, 그들은 고착 할 수 없을 것이다 은행에 대한 의무

이 그림을 아주 자세히 보면, 당신은 실제로 당신을 사적인 개인으로 보게 될 것입니다 또한 위험을 안고 있지만 은행에 그리고 그 결과로, 우리는 규제 대상입니다 따라서 우리는 많은 규칙과 규정을 준수해야합니다 당신 돈이 우리와 함께 안전한지 확인하십시오 적절한 전체 조기 경보가있는 시스템은 매우 중요합니다

이제 우리가 실제로 어떤 일이 일어나는지 살펴 보겠습니다 돈 빌려 우리가 위험을 평가하기 위해 무엇을 할 것인지, 우리는 많은 분석을 할 것입니다 우리는 회사의 재정 상태를 살펴볼 것입니다 우리는 회사의 경영진을 살펴볼 것입니다

그들이 실제로 고칠 수 있는지 여부 그들이 제시 한 전략에 거시 경제적 유형의 사건을 살펴볼 것입니다 대차 대조표, 순 수익률 회사의 등등 우리가 할 일은 실제로 이 모든 변수들을 우리는 신용 위험 모델을 호출합니다 이들은 우리가 내부적으로 개발 한 모델이며, 독립 당사자들에 의해 검증 된 은행 내에서 그리고 규제 당국에 의해 [무관심] 그래서 우리가이 모든 변수들을 입력 할 때, 우리는 위험 등급을 얻습니다

그리고 위험 등급은 모델의 산출량에 불과합니다 그리고 그것은 당신에게 위험의 분류를 제공합니다 그래서 ING에서는 숫자 코드를 사용합니다 하나는 매우 위험한 반면, 18은 매우 위험한 것입니다 외부 평가 기관도 실제로 동일한 작업을 수행합니다

그들은 매우 낮은 위험에 대해 AAA를 사용했으며, BBB 이상 매우 위험합니다 그래서 우리가 고객과 약혼했을 때 우리는 실제로 우리가 그것이 위험에 빠졌기 때문에 위험을 감수하려고합니다 식욕, 우리가 할 일은 우리가 시작하는거야 그 고객을 모니터링합니다 이는 우리가 실제로 거기 밖으로 어떤 신호가 있는지보기 시작 실제로 우리가 가질 수있는 잠재적 인 문제를 야기합니다

클라이언트는 앞으로 나아갈 것입니다 이것이 우리가 조기 경고 신호라고 부르는 것입니다 매일 매일 우리가 할 일은 우리는 뉴스, 시장 가격, 또한 중간 수치를 좋아한다 나는 당신에게 조기 경고의 많은 예를 줄 수있다 신호가 있지만 클라이언트 유형에 따라 상당히 다릅니다

및 업계 유형별 그래서 내가해야 할 일은 위험의 날을 지나갈 뿐이야 매니저 그럼 찰스를 만나자 사실, 그는 거의 같은 사람입니다

소개 영화에서 그렇듯이 그렇다 머리 색깔이 다르다 Charles는 신용 리스크 관리자입니다 전 세계적으로 100 개의 고객 포트폴리오를 보유하고있는 유효한 그는 약 10 년 동안 은행에있었습니다

그는 아주 노련한 은행가입니다 그래서 그는 실제로 육감을 발전 시켰습니다 그가 실제로 거래를보고있을 때 실제로 알려줍니다 그것은 좋은 위험이든 나쁜 위험이든간에 그리고 거기에있는 모든 신용 리스크 관리자와 함께, 우리는 어떤 종류의 놀라움을 좋아하지 않습니다

그래서 Charles의 날을 보겠습니다 우선, 그는 사무실에 들어갑니다 그는 한 잔의 커피를 잡고 그의 보행 거리를 지납니다 기본적으로, 그는 위험을 본다 그의 포트폴리오와 관련이있는 뉴스를 의미합니다

그리고 나서, 그는 또한 모든 거래를 수행합니다 그래서 그는 그가 승인해야하는 거래를 봅니다 그가 거부할지 여부 그는 연례 리뷰를 봅니다 그리고 그는 등급 모델도 살펴 봅니다

그래서 Charles는 꽤 바쁜 하루였습니다 그리고 그날, 그는 또한 거기서 모든 신호와 정보를 포착했다고 그의 100 고객을 위해 자, 다음을 상상해 봅시다 어느 날 Charles는 실제로 신문을 읽고 있습니다 세계적인 신문

그리고 그의 고객 중 한 명이 아주 특정한 나라의 뇌물 수수 사건에 연루되어있다 그가 그들에 대해 몰랐기 때문에 그를 놀래줍니다 위험 관리자이기 때문에 그는 더 깊은 곳에서 파기 시작합니다 그리고 나서 그는 실제로,이 정보를 발견합니다 한 달 전에 이미 사용할 수 있었지만 매우 구체적인 국가와 매우 구체적인 언어

더 깊게 파고 들자 그는 실제로 주가가 떨어지고있다 한 달 동안 10 %를 받았다 그는 그 사실을 몰랐다 당신이 상상할 수 있듯이, Charles is being 놀라움을 좋아하지 않는 사람, 그는 매우 화가났습니다 이제 다른 예를 살펴 보겠습니다

Lauren을 만나십시오 Lauren도 신용 리스크 관리자이지만 은행의 경우 및 국가를 위해 그리고 그녀의 포트폴리오는 사실 훨씬 더 기어드입니다 시장 기반 유형의 가격으로 좋아요, 고마워요 지금 제 말을들을 수 있기를 바랍니다

글쎄, 사실 그것이 의미하는 바는 로렌 해당 고객의 위험 등급 프로필 방금 조정할 필요가 있습니다 음, 실제로, 그녀는 뉴스 하루 전 이미 이용 가능했습니다 외부 신용 평가 기관이 해당 국가를 등급 하향 조정했다 찰스처럼, 그녀는별로 행복하지 않습니다 Lauren과 Charles는 공통점이 무엇입니까? 음, 기본적으로 그들은 많은 정보를 다루어야합니다

그들은 정규 업무를해야합니다 당신이보아야한다고 상상해보십시오 당신은 2,000 전 세계 75 개 언어로 된 거래 상대방 당신이 필요로하는 20,000 가지 이상의 자료들 – 당신이 정보를 얻는다는 것 에서 그게 많이 있습니다 따라서 조기 경보 신호를 잃을 위험이 있습니다

따라서 우리는 도매 위험 내에서이 문제를 확인했습니다 관리 공간을 확보하고 실제로 큰 범위의 정보를 제공합니다 리스크 관리자와 관련된 뉴스 시장 데이터 따라서 우리는 실제로 더 빠르게 움직이고 이러한 신호를 잡을 수 있습니다 리스크 관리 부서로서보다 능동적이어야한다

우리가 지속적으로 모니터링하는 것으로 이동 뼈대 따라서 현재 구축 된 툴은 실제로 첫 번째 단계입니다 그것은 글로벌 및 지역 뉴스 감정을 가지고 있습니다 그것은 주식, CDS, 상품 가격, 국가, 조직 및 부문에 적합합니다 사용자는 실제로 자체 임계 값 레벨을 설정할 수 있습니다

그리고 뭔가에 도달하면 도구가 실제로 사용자에게 신호를 보내거나 알림을 보냅니다 우리에게는 항상 첫 번째 단계입니다 왜냐하면 우리는 항상 우리가이 프로젝트를 시작할 때 예상했다 우리는 훨씬 더 예측 가능한 도구를 원합니다 찰스와 얘기했던 여섯 번째 감각을 기억하니? 찰스,이 여섯 번째 감각은 그는 휴리스틱 스일 뿐이다

수년에 걸쳐 개발되었습니다 그리고 우리는 현재의 데이터로 사용할 수 있지만 기존 기계 및 미래 기계에도 사용할 수 있습니다 밖에있는 학습 기술, 우리는 훨씬 더 예측 가능한 도구를 만들 수 있습니다 그런데 왜 우리는 처음부터 그것을 만들었습니까? 우리는 ING로서 데이터 회사입니다 그리고 우리는 그것이 많은 장점을 가지고 있다고 생각합니다

이러한 종류의 응용 프로그램을 직접 제작할 수 있습니다 우선, 오늘날의 세계에서는 비교적 쉽습니다 이 도구들을 아주 빨리 만들 수 있습니다 매우 구체적인 사용 사례입니다 둘째로, 이는 많은 유연성을 제공합니다

또한 다른 솔루션 제공 업체로부터 독립적이기 때문에, 실제로 많은 기능을 제공합니다 당신은 종종 필요하지 않습니다 우리가 ING로서, 우리 자신의 운명의 주인이되고 싶다 우리는 실제로 이러한 유형의 도구를 만들 수 있음을 입증했습니다 우리 스스로

그래서 우리가 실제로 파트너가되는 이유입니다 Google 및 PwC와 함께이 도구를 구축하십시오 우리는 이제 무대에 서 있습니다 우리는 30 명의 사용자가있는 8 개국에서이 도구를 테스트했습니다 이제 우리는 다음 단계를 결정할 것입니다

이 도구를 더 개발하는 데있어 더 중요한 것은, 핵심 모니터링 프로세스에 임베드 앞으로 그래서 나는 왜 당신이 더 나은 느낌을 갖기를 바랍니다 우리는 도구가 있어야하지만 그 신용 위험 관리는 매우 데이터 중심적이며 은행 내에서 매우 분석적인 기능 음, 그걸로, 당신의 관심에 감사드립니다 미안합니다

관심을 가져 주셔서 감사합니다 그리고 나는 그것을 오토에게 돌려 줄 것이다 [박수 갈채] OTTO VERMEULEN : 감사합니다, 아난드 그것은 매우 분명했습니다 나는 우리가 은행이하는 일을 지금 알고 있다고 생각한다

그리고 신용 리스크 관리가 그들에게 매우 중요하다는 것 또한 개념 증명이라는 말을 듣기 좋습니다 조기 경보 신호를 받았다 도전과 또한 당신이 찾고 있습니다 더 예측적인 신호를 얻기 위해 기계 학습을 사용합니다 이제는 프로젝트에 대해 듣는 시간이라고 생각합니다

진화 된 디자인 원칙은 무엇 이었는가? 그래서 Pieter Verheijen에게 안녕, 모두 여기 와서 너와 대화하는 것이 좋다 우리의 개념 증명에 대해서 개인적으로, 나는 매우 열정적이다

중요한 문제 및 혁신을 실제로 발생시킵니다 그리고 나는 내 입장에 서서 당신을 그 길로 인도 할 것입니다 우리가이 개념 증명에 적용한 것입니다 둘째,이 솔루션의 설계와 근원적 인 비즈니스 요구; 셋째, 나는 너에게 줄 것이다 솔루션 자체의 데모

첫 번째 부분부터 시작하여, 접근법은 – 나를 위해, 세 가지 중요한 성분이있다 이 증명 개념의 일부였습니다 첫 번째 팀입니다 올바른 기술과 사람이 필요합니다 빠른 배달

우리의 경우에는 5 가지 기술 세트를 만들었습니다 IT 설계자; 사용자 경험 디자이너; 디자인을 구현하는 사용자 인터페이스 개발자; 데이터 과학자들은 모델을 구축하고, 조기 경보를 탐지한다 신호; 아난드의 신용 리스크 전문 지식 그리고 그의 팀은 실제로 우리에게 무엇이 관련이 있는지를 알려주고 있습니다 그런 팀을 만들면서 얻은 교훈은 당신이 필요로하는 것입니다 올바른 균형을 찾으려면 – 매우 빨리 전달할 수있는 전문가의 균형 자신의 전문 분야 에서뿐만 아니라 기술 겹쳐서 결국에는 함께 맞는 해결책

두 번째 요소는 일하는 방식이었습니다 우리는 직접적인 사용자 피드백을 통해 이익을 얻고있었습니다 항상 우리는 민첩한 업무 방식을 적용했습니다 그리고 우리는 오직 데모로 시작했습니다

최종 사용자에게 표시되는 2 주 후에 구축됩니다 그리고 그 접근 방식을 토대로 우리는 매우 귀중한 피드백을 얻었습니다 그리고 당신이 만들 수있는 대화 나머지 프로젝트는 우리는 그 피드백을 우리의 백 로그에 넣었습니다 첫 번째 프린트를 계획하고 그 순간부터 에, 우리가 최종 사용자와 함께 일할 수있는 리듬이있었습니다 연방

세 번째 요소가 범위 지정되었습니다 우리는 처음에는 공개 데이터 만 사용했습니다 그리고 그것은 속도를 엄청나게 증가 시켰습니다 우리는 기존의 다른 어떤 곳과도 연결할 필요가 없었습니다 그 시점에 은행 내의 IT 시스템, 그것은 우리에게 매우 중요했습니다

이제 우리가 적용한 접근법 높은 단계에서 3 단계를 거쳤습니다 첫 단계는 실제로 시작이었습니다 우리가 처음부터 시작할 필요가있을 때 Google Cloud Platform 환경에는 아무 것도 없습니다 그냥 프로젝트 이름

그런 다음 세 가지 성분으로 시작했습니다 내가 방금 설명하고 서비스와 함께 Google Cloud Platform에서 사용 가능 스프린트에서 솔루션을 개발할 수 있습니다 성공 요인은 우리는 스프린트마다 성공적으로 데모를했다 6 스프린트가 끝나면 그 당시에 사용자 테스트를 위해 준비된 개념 증명 우리의 경우, 이것은 나를 위해 힘을 실증했습니다

당신은 구글과 함께 개념의 증거를 구축에서 얻을 구름, 정말로 갈 수 있어요 당신의 개념 증명으로 빨리 우리의 경우, 그것은 성공적인 개념 증명이었습니다 그래서 우리는 계속 전진하기로 결정했다 그리고 두 번째 단계는 사용자와 함께 테스트하는 것입니다

아난드 (Anand)는 30 명 정도의 사용자가 8 곳 있다고 설명했다 그리고 이러한 사용자 조종사를 통해 많은 피드백과 데이터를 모았습니다 기계 학습을위한 모델을 재교육하는 데 사용할 수있는 관점과 실제로 무엇을 결정 관련 사용자에게 표시됩니다 그리고 이제, 우리는 세 번째 단계에 있습니다 여기서 우리는 이것을 어떻게 전개 할 것인지를 결정하고 있습니다

이것은 은행의 핵심 프로세스로 생산에 이제 이것이 우리가이 증명 개념을 어떻게 수행했는지에 대한 접근이었습니다 이제, 빨리, 나는 우리가 정확히 무엇을 만들 었는지를 알고 싶습니다 이것은 우리 솔루션의 매우 단순한 표현입니다 하단에는 두 가지 유형의 데이터 소스가 표시됩니다

우리가 섭취하는 첫째, 주식 가격면에서 시장 데이터, 신용 불이행 스왑, 채권 및 기타 금융 상품 톰슨 로이터 기반 ING가 가지고있는 면허증; 둘째, Google을 통해 공개 소스에서 오는 소식, GDELT 및 기타 Google Cloud Platform에 업로드 한 내용입니다 그것을 섭취하고 거기에 파이프 라인을 만들었습니다 해당 정보를 처리 및 분석합니다 그리고 그 중간 계층은 기계 학습을하는 곳이기도합니다 이 일어나고있다

그 파이프 라인을 기반으로 누가 사용자에게 표시할지 결정 인터페이스에 로그인 할 수 있으며, 그에게 그 정보를 얻으십시오 오른쪽에서 몇 가지 통계를 볼 수 있습니다 우리가 실제로 처리하는 것의 현재 범위는 약 250 개의 클라이언트 또는 조직입니다 도구에서 정보량에 대한 인상을 얻을 수 있습니다

우리는 매일 처리하고 있습니다 자, 그것은 아주 단순한 그림이었습니다 실제로, 그 지문을 통해, 우리는 매우 구체적인 비즈니스를 만났습니다 우리가 성취하고 완성해야 할 필요성 성공적인 개념 증명 다섯 명이 거리에 있습니다

시그널로 전달되는 최대 커버리지가 필요합니다 풍부한 정보로 실시간 그래서 당신은 그들의 주장이 옳다는 것을 확신합니다 관련성을 기준으로 필터링되고 순위가 지정되며, 그런 다음 결국 단일 이벤트로 클러스터됩니다 그리고 나는 더 많은 사람들을 통해 갈 것입니다 오는 슬라이드의 세부 사항

첫 번째 부분은 적용 범위입니다 엔티티 프로파일이 적용 범위를 결정한다는 사실을 실제로 배웠습니다 우리가 찾고 있던 첫 번째 데모 중 하나에서 우리는 실제로 우리가 놓친 의견을 얻었다 중요한 정보에 그리고 Anand가 설명했듯이, 당신은 원하지 않습니다

그 신호를 놓치지 마라 정보를 놓친 이유 우리가 부모와 만 정보를 찾고 있다는 것이 었습니다 회사 이름 실제로, 우리는 우리가 다른 접근법을 취하십시오 모든 별칭을 가진 엔티티 프로필을 만들어야합니다

다른 언어로 된 해당 회사의 자회사, ING의 예로서 여기에서 볼 수 있습니다 그리고 그런 식으로 우리는 보험 범위를 늘릴 수있었습니다 각 클라이언트에 대해 평균 5 배에서 10 배까지 증가합니다 이제 그 정보가 들어옵니다 실시간으로 처리하려고합니다

이것이 리스크 관리자의 핵심 요구 사항입니다 그래서 그는 그 신호를 빨리 얻고 응답 할 수 있습니다 여기에서 볼 수 있듯이 평균 위험 50 명의 고객 포트폴리오를 가진 관리자, 그건 상당히 많은 정보입니다 우리가 처리해야 할 매일 매일 15,000 개의 뉴스 항목에 대해 이야기합니다 지속적으로 움직이는 250 개의 금융 상품, 그게 우리가 있어야 할 모든 것입니다

실시간으로 처리 할 수 ​​있습니다 그러면 우리는 어떻게 위험 관리자를 도울 수 있습니까? 이 일들 위에 머무를 수 있을까요? Peter가 한 기술적 인 부분에서, 우리는 건축과 길에 대해 이야기 할 것입니다 우리는 이것을 만들기위한 해결책을 개발했습니다 이 요구 사항을 충족시킵니다 세 번째는 풍요 다

그래서 위험 관리자로서, 당신은 실제로 진정으로 조직에 관한 정보를 원합니다 당신이 책임 져야합니다 따라서 오탐 (false positive)을 제거 할 수 있어야합니다 예를 들어 여기에 나와있는 것처럼 평균 뉴스 항목이있는 경우, 당신은 뉴스 항목에서 언급 된 많은 배우들을 볼 수 있습니다 그래서 키워드 검색을한다면 어떤 조직이라도이 항목은 채찍질을합니다

그러나 조기 경보 신호를 찾고 있다면, 석유 회사 E의 경우에만, 이것은 진정한 긍정적 조기 경보 신호입니다 나머지는 단지 거짓 긍정적입니다 당신은 그것들을 걸러 내고 싶습니다 그래서 우리는 키워드 방법을 뛰어 넘을 필요가 있습니다 누가, 무엇을, 언제, 어떻게, 그리고이 사건이 실제로 일어나고있는 곳

그리고 우리는 자연어 처리 기술을 사용합니다 나중에 어떻게 작동하는지 보여 드리겠습니다 네 번째 부분은 이제 매우 광범위하게 진행되었습니다 많은 정보가 들어오고 있습니다 우리는 또한 그것을 풍부하게했습니다

그래서 그것은이 거래 상대방 또는 고객에 관한 것입니다 하지만 지금은 처리해야 할 정보가 너무 많습니다 따라서 해당 정보를 필터링 할 수 있어야합니다 신용에 실제로 관련된 항목을 선택하십시오 위험 관리자가 살펴보아야합니다

여기에서 볼 수 있듯이 네가 원하지 않는 것들의 몇 가지 예 위험 관리자로서의 모습 따라서 은행 모니터링에 대한 책임이있는 경우 당신은 글로벌 뉴스를 받고 있습니다 ATM 사고에 관한 지역 뉴스가 많이 있습니다 예를 들어 – 부정적 정서는 있지만 신용 위험에는 관련이 없다 그 수준의 매니저

자동차 제조 업체와 동일합니다 자동차 사고에 대한 소식도 얻으십시오 그래서 우리가해야 할 일은 실제로 우리 파이프 라인에서 그 구별은 어떤 유형의 주제를 탐지하는지 신용 리스크 관리자와 관련있다 다른 부분을보고 잘라내는 것입니다 노이즈 프레임

그리고 네 번째 – 또는 미안합니다 – 다섯 번째는 클러스터링입니다 이제는 관련 항목을 살펴 보겠습니다 그러나 당신이 상상할 수있는 것처럼, 그러한 사건이 발생하면, 더 많은 게시자가 그것에 대해 글을 남겼습니다 그리고 그것은 사용자에게 매우 짜증나는 경험이됩니다 너는 그 같은 뉴스 메시지를 받기 때문에 계속해서 또 다른 뉴스에서 발행자

따라서 이것을 해결하기 위해해야 ​​할 일은 클러스터링을 구축하는 것입니다 실제로 텍스트를 기반으로하는 것을 이해하는 알고리즘, 이것은 동일한 사건에 대해 이야기하고 있습니다 그리고 그것이 우리가 한 일입니다 그래서 당신은 그것을 클러스터링합니다 하나의 이벤트에 넣고 그 메시지를 한 번 가져 오십시오

사용자에게 이제 이들은 우리 솔루션의 다섯 가지 기본 요소입니다 내가하고 싶은 마지막 일 지금 솔루션의 데모를 안내해드립니다 정말 생겼어 데모의 목적 상, 우리는 여기 방에있는 누군가를 해치고 싶다 실제 조기 경고 신호

그래서 시뮬레이션 데이터 세트를 만들었습니다 더미 이름과 더미 뉴스 항목 도구의 나머지 부분은 그대로 작동합니다 이제 Charles가 로그인했습니다 보시다시피 아직 그의 홈 페이지에는 아무 것도 없습니다

따라서 그가하는 첫 번째 일은 자신의 포트폴리오로 이동하는 것입니다 그는 거래 상대방을 추가하려고합니다 자신의 조직에 – 목록,하지만 당신은 또한 이름 검색을 시작하십시오 그래서 그게 그가 지금하고있는 일입니다 그리고 그는 두 번째 조직을 추가합니다

자신의 포트폴리오, 세 번째 조직 및 네 번째 조직 이제 그는 자신의 포트폴리오에 네 개의 조직을두고 있습니다 네, 저기 있습니다 그런 다음 그는 왼쪽 상단을 클릭하여 홈 페이지로 돌아갑니다 화면 왼쪽에는 뉴스 피드가 표시됩니다

그리고 뉴스 피드에는 정서 점수, 날짜, 엔티티를 찾았습니다 또한 기간별로 필터링 할 수도 있습니다 다양한 요인에 대한 뉴스를 필터링 할 수 있습니다 관련성이나 정서성과 같은 또는 인기를 의미합니다 그런 다음 여기에서 특정 기사로 이동한다는 것을 알 수 있습니다

비슷한 항목이 다섯 개 있습니다 그것이 클러스터링입니다 따라서 이들은 모두 다른 언어로 된 동일한 사건에 관한 것입니다 다른 제목으로 그래서 이것은 제 생각에 중국의 프랑스 기사입니다

FR은 프랑스어로 번역 된 다음 그 하나의 사건으로 오른쪽에서 시장 정보를 볼 수 있습니다 주식 가격 그래서 첫 번째 것은 부정적인 것입니다 그래서 내려 갔다 그래서 그는이 특정 거래 상대방 페이지를 살펴 봅니다

우리는 훨씬 더 자세한 정보를 가지고있었습니다 주식 가격, 신용 디폴트 스왑, 신용 등급 그러나 실제로 이것은 모두 매우 민감합니다 가서 정보를 찾아야합니다 그러나 당신이 할 수있는 일은 거기에 트리거를 설정하는 것입니다

그것을 사전 행동으로 만듭니다 주식 가격이 하루에 5 % 하락한다고 가정 해 봅시다 그게 그가 지금하고있는 일입니다 그는 자신의 포트폴리오에 그것을 추가합니다 그는 키워드와 같은 일을 할 수 있습니다

사기의 경우, 예를 들어, 사기가있는 뉴스 항목, 내가 원한다 즉시 통보 받는다 그게 방아쇠가하는 일입니다 이제 백그라운드에서 이미 실행 중입니다 트리거 된 트리거가 있는지 확인합니다

새로운 감정은 매우 부정적입니다 또 다른 방아쇠 신용 등급 – 아마도 다운 그레이드, 그게 너야 즉시 통보 받기를 원한다 그리고 이런 식으로 매우 적극적인 방법이됩니다

이제는 그 정보를 얻는 것이 당신을 찾고 그 정보가 너에게 간다 이미 사기가 발생했습니다 그래서 사기에 관한 기사가있었습니다 이 특정 클라이언트에 보세요

예, 있습니다 그리고 지금, 내 감정 점수는 70이므로 상대적으로 높습니다 이제 사용자는 특정 항목에 대한 피드백을 제공합니다 나는 그것에 대해 더 알고 싶다 또는 예를 들어, 두 번째는 관련성을 고려하지 않습니다

이것이 실제로 우리가 사용할 수있는 정보입니다 백그라운드에서 실행중인 모델 기계 학습으로 발전했습니다 그래서 그것은 매우 짧은 데모 였지만 그것이 우리에게 능력 있고 실제로 신용 위험을위한 디지털 비서를 만드는 방법 그의 일을 훨씬 더 쉽게하기 위해 매니저 적용 범위가 증가하고 응답 시간이 증가하며, 그리고 결국에는 능동적 인 도구를 통해 그 정보는 적시에 그에게옵니다 그걸로 너에게 감사하고 오토에게 손을 내밀어 [박수 갈채] OTTO VERMEULEN : 감사합니다, Pieter, 어떻게 우리가 프로젝트에 접근하는 방식을 설명합니다

너는 그렇게 잘했다 또한 사업 개요를 알려 주셔서 감사합니다 우리가 필요로했던 개념들 이제는 우리가 이 프로젝트의 기술 세부 사항 중 일부에 뛰어 들어라 뼈에 기술적 인 고기를 보여주기 위해서

무대에 서기를 원해요, 피터 위거스 Peter Wiggers : 제 이름은 Peter Wiggers입니다 저는 클라우드 아키텍트이자 소프트웨어 중 하나입니다 이 도구의 개발자 그리고이 프리젠 테이션을하고 싶습니다 조금 더 기술적 인

그래서 그 일을하게되어 정말 기쁩니다 나는 네가 또한 있기를 희망한다 먼저 회로도 개요부터 살펴 보겠습니다 슬라이드로 다시 전환 할 수 있습니까? 네, 고마워요 여기에서 볼 수있는 것은 도식 개요입니다

우리가 Google Cloud에 구축 한 솔루션의 보시다시피, 우리는 많은 관리 된 Google Cloud를 사용합니다 서비스, ​​정말 우리가 빨리 개발할 수 있습니다 왼쪽에는 파이프 라인에 사용 된 입력이 표시됩니다 당신은 오른쪽에서 볼 수 있습니다 따라서 입력은 엔티티 프로파일 러로 구성됩니다

뉴스에 대한 공개 데이터 소스로 구성됩니다 오른쪽에는 우리가 만든 파이프 라인이 있습니다 그리고 당신이 볼 수 있듯이, 그것은 주로 두 가지 매우 중요한 구성 요소 중 하나입니다 그 중 하나가 Google Cloud Pub / Sub이고 그 중 하나 Google Kubernetes Engine입니다 이 조합은이 파이프 라인이 정말 견고하다는 것을 확인했습니다

그러나 여전히 매우 유연합니다 그리고 데모에서 왜 나중에 표시할까요? 이 파이프 라인은 두 단계로 구분됩니다 그리고 모든 단계는 자체 Kubernetes 배포입니다 그래서 우리는 그것을 독립적으로 쉽게 확장 할 수있었습니다 다른 Kubernetes 배치에서

모든 배포는 Pub / Sub를 통해 통신합니다 따라서 입력은 Pub / Sub에서 나오며 출력은 처리 및 기사가 끝날 때까지 Pub / Sub로 이동합니다 이제 제가하고 싶은 것은 데모로 전환하십시오 나는 당신을 기사의 여행에 데려 가고 싶다 파이프 라인을 통해

그리고 우리는 Jupyter 노트북에서 이것을 할 것입니다 나는 당신이 뒤에서 그것을 읽을 수 있기를 바랍니다 그리고 우리가 할 일은 엔티티를 만드는 것으로 시작하는 것입니다 윤곽 이 경우 PwC를 사용하게됩니다

그것은 입력으로 사용하는 유일한 키워드입니다 그리고 엔티티 프로파일의 일부만 빌드 할 것입니다 이 엔티티의 별칭 및 Wikipedia 페이지를 수집 중입니다 그래서 우리는 이것을 실행할 것입니다 보시다시피, 우리는 꽤 많은 별명을 발견합니다

다른 언어로 된 일부 자회사, 다른 문자 세트, 다른 이름 그리고이 별칭을 모두 사용하여 검색합니다 이 회사에 대한 소식입니다 당신도 볼 수있는 것은 위키피디아 식별자의 몇 가지입니다 이것들은 나중 단계에서 우리에게 정말로 중요합니다

이제 우리가 할 일은 별칭 중 하나를 사용하는 것입니다 이 경우 숫자 5는 PwC입니다 우리가하는 일은 RSS 피드 URL을 생성하는 것입니다 Google 뉴스 보시다시피 검색어로 사용했습니다

이 RSS 피드 또한 특정 에디션에 대한 쿼리도 제공됩니다 Google 뉴스의 버전은 언어와 국가의 그래서이 경우에는 프랑스 기사가 될 것입니다 벨기에에서 작성되었습니다 이 예에서는 Google 뉴스 RSS 피드 하나를 쿼리하고, 우리는 단 하나의 판, 네덜란드 판입니다

그래서 우리가 할 일은 우리가 피드를 파싱하는 것입니다 우리는 먹이를 얻는다 그리고 여기서 보시는 것은 처음 다섯 기사입니다 이 RSS 피드 그것은 네덜란드어로, 아마 당신은 그것을 이해할 수 없을 것입니다, 그러나 그것은 나중에 올 것이다

RSS 피드에서 얻은 정보는 헤드 라인입니다 게시 날짜 및 원래 기사의 URL입니다 이것은 Pub / Sub가 들어오는 첫 번째 부분입니다 그 전에는 우리가 시작해야하기 때문에 우리가 치료로 시작하는 순간에 파이프 라인이 있습니다 그리고 치료법은 이전 슬라이드에있었습니다

치유가 주기적으로하는 일은 Pub / Sub에 작업을 게시합니다 Google 뉴스에서 Dutch Edition의 PwC에 대해 문의 할 수 있습니까? 이제 끝났습니다 우리가 지금하는 일은이 RSS에서 얻는 모든 기사에 대한 것입니다 피드, 우리는 Pub / Sub에 작업을 게시합니다 이봐, 이 기사를 처리 할 수 ​​있습니까? 그리고 우리에게는 다른 노동자들이 있습니다

이 Pub / Sub 주제를 듣고, 작업을 가져 와서 처리하십시오 따라서이 방법만큼이나 간단합니다 특정 주제를 게시하기 만하면됩니다 해당 주제 내의 특정 구독을 구독합니다 지금 당신에게 보여주고 싶은 것은 통계입니다

그래서 우리는 이것을 열 것입니다 여기서 볼 수있는 것은 Pub / Sub의 일부 측정 항목입니다 첫 번째 차트에서 얼마나 많은 메시지가 Pub / Sub에 게시합니다 이 경우에, 그것은 거의 전부입니다 한 순간에 초당 2,000 개라고 생각합니다

그리고 우리는 몇 분 정도 그것을 할 것입니다 기사의 Pub / Sub의 전체 대기열로 연결됩니다 200,000 개의 기사를 처리하는 것은 중복 될 수 있습니다 여기서 전체 대기열을 볼 수 있습니다 그리고 당신이 여기에서 보는 것은 금액입니다

기사의, 노동자의 과정 그래서 그것은 약 30,000 건에 관한 것입니다 5 분입니다 따라서 30 분 동안 전체 대기열을 처리합니다 그리고 나서 우리는 단지 기다려야합니다

우리는 다시 그 실체들을 검색합니다 그리고 이것은 가장 오래된 것의 나이를 보여주는 그래프입니다 작업을이 Pub / Sub 대기열에 저장하므로 약 2,600 초입니다 나도 몰라, 그게 나는 그것이 40 분이라고 생각한다 그리고이 설정이 정말 좋은 이유는 무엇입니까? 우리가 노동자들을 독립적으로 확장 할 수 있다는 것입니다 그래서 이것이 너무 길다고 생각해 봅시다 무언가가 발생하면 40 분을 기다리는 것을 원하지 않습니다 나는 그것을 더 빨리 알고 싶다

그렇다면 우리는 말할 수 있습니다 좋습니다 독립적으로 노동자 예를 들어 두 배로 늘립니다 의 근로자

그리고 나서,이 숫자,이 30,000, 60,000으로 증가합니다 대기열은 처리되며 시간은 반으로 줄어 듭니다 그래서 이것이 얼마나 쉬운지를 보여주고 싶습니다 첫째, 나는 너를 얼마나 많이 알고 싶은가? Kubernetes에 대한 직접 경험이 있습니까? 그래 그거 괜찮다 그것은 꽤 많은 것이다

Kubernetes 배포를 확장하는 방법을 알고있을 것입니다 그렇지 않은 사람들을 위해 그것이 얼마나 쉬운지를 보여줍니다 그러니 조금 확대 해 보겠습니다 여기서 우리가하는 일은 기사의 첫 번째 부분 인 진행중인 작업자입니다 12 컨테이너 나 12 봇 같아

그래서 우리가하고 싶은 것은 그것을 확장하고 싶습니다 따라서 우리는이 30 분 처리 시간에 만족하지 않습니다 그럼 우리가 할 일은 거기에 정확하게 입력하겠습니다 그래서 여기에 우리는 12 개의 복제물을 돌리고 싶다고 말합니다 그럼 우리가 18 세가되면 따라서 50 % 더 많은 봇이 실행됩니다 그렇다면 바로 지금 Kubernetes가 보입니다 더 많은 컨테이너를 생성합니다

그리고 그들은 이미 지금 달리고 있습니다 그리고 그들은 같은 Pub / Sub 토픽을 듣습니다 그래서 Pub / Sub는 작업이 배포되었는지 확인합니다 이 컨테이너 위에 그래서 우리가 지금 기다리는다면, 나는 생각한다

2 분이 지나면 파이프 라인이 다시 시작됩니다 이 막대는 5 분에 45,000 개가 될 것입니다 따라서 이것을 확장하는 것이 쉽습니다 그럼이 기사가 프로세서에 도착했다고 가정 해 봅시다 그런 다음 새 기사를 인스턴스화합니다

우리는 RSS 피드에 있던 것과 동일한 정보를 가지고 있습니다 정보가 Pub / Sub로 전송되었으므로, 우리는 Pub / Sub에서이 정보를 얻습니다 그래서 여기에 추가 된 것은 없습니다 그냥 URL입니다 원본 제목이 원본입니다

및 게시 날짜 이제 우리는 작업자에게 작업을 제공합니다 웹 사이트를 방문하여 시신을 수집하는 것 웹 사이트에서 당신이 여기에서 보는 것은 기사의 본문입니다 네덜란드어로되어있어

그리고 우리는 추가 처리를 위해 이것을 필요로합니다 이것 이후에 우리가하는 일은 물론, 우리는이 기사를 번역합니다 우리는 75 개의 언어를 처리하기 때문에 우리 모두는 영어로 필요합니다 Google Cloud Translator를 사용합니다 API는 기사의 제목과 본문을 번역합니다

이제는이 기사가 무엇인지 알 것입니다 Ad van Gils는 PwC Netherlands의 새로운 CEO입니다 그리고 우리는 시체를 번역해야합니다 자, 우리는 영어로 된 기사를 가지고 있습니다 Google Cloud Natural Language 용으로 사용할 수 있습니다

API 처리 중 이 API는 우리에게 세 가지 일을합니다 우선, 우리는 기사의 정서를 분석하고 싶다 따라서 신용 리스크 관리자는 주로 부정적인 뉴스 따라서 부정적인 감정은 신용 위험에 더 중요합니다

긍정적 인 정서보다는 매니저 그래서 우리는 단지 정서를 분석합니다 그리고 여기에 그것은 말하고 있습니다 좋습니다 일반적으로 매우 음수 인 마이너스 1 사이이며, 매우 긍정적 인 1은 0

26이다 그것은 아주 긍정적이었습니다 그리고 여기에 우리는 규모가 있습니다 크기는 다음을 나타내는 숫자입니다 이 텍스트에서 사용 된 감정 표현의 수

그것은 33입니다 NLP에서 두 번째로하는 것은 엔티티를 분석하는 것입니다 그리고 이것은 우리에게 중요한 부분입니다 왜냐하면 우리는 엔티티를 추출하기를 원하기 때문입니다

그리고 우리는이 기사가 어떤 주체인지 알고 싶습니다 그러니 실행 해 봅시다 글쎄, 여기에 Ad van Gils가 사람으로 추출 된 것을 볼 수 있습니다 또한 조직으로 PwC 네덜란드를 추출했습니다 그리고 여기 왜 Wikipedia가 보입니까? 우리에게 그렇게 중요합니다

우리가 가진 것이기 때문에 우리는 방금 PwC를 찾았습니다 PwC를 검색 할 때 우리는 결과가 우리가보고있는 PwC에 관한 것인지 확인하십시오 그러나 NLP가이를 처리하고 말하면, 이봐, 이건이 회사의 위키 백과 다 그리고 우리 데이터베이스에 위키 백과가 있다는 것을 압니다 이제 우리는 경기를 할 수 있습니다

이것은 정말로 우리가 관심을 가지고있는 회사입니다 그리고 저는이 예를 보았습니다 조금만 가자 여기 그것이 말합니다, Waterpolo Association PwC, 이것은 완전히 다른 존재입니다 텍스트가 일치합니다

그러나 아마도 NLP를 통과한다면, 이 엔티티를 인식하지 못한다 프라이스 워터 하우스 쿠퍼스 (PricewaterhouseCoopers) 정말 중요합니다 당신도 보시다시피, 돌출부가 있습니다 그리고 그 돌출은 매우 중요한 숫자입니다 그리고 그것은 엔티티의 중요성을 나타냅니다

이 기사 내에서 그래서 그것은 중요성에 의해 주문되었습니다 그래서 Ad van Gils가 가장 중요한 존재라고합니다 그리고 그 옆에는 PwC입니다 그리고 여기에서는 우리가 구별 할 수 있습니다

이 기사는이 실체에 관한 내용입니다 아니면 기사에서 어딘가에서 찾았습니까? 우리는 또한 엔티티마다 감정이 있습니다 우리는 점수와 규모와 같은 것을 가지고 있습니다 따라서 기사가 부정적 일 경우, 우리는 알고 싶습니다 좋아요, 그 주체에 대해 정말로 부정적입니까? 아니면 다른 주체에 관한 것인가? 우리는 두 개의 엔티티가 더 있습니다

여기에 적절한 유형의 엔티티 만 있습니다 모든 엔티티가 발견되는 것은 아닙니다 그리고 당신이 여기에서 보는 것은 타입 이벤트이기도합니다 그리고 이것은 나중에 클러스터링에 중요합니다 그래서 그것은 두 가지 사건을 인정합니다

그래서 Ad van Gils가 새로운 CEO로 임명 된 것이 었습니다 그리고 여기에 이벤트로 약속이 있습니다 NLP가 우리를 위해하는 마지막 일은 분석입니다 기사의 범주 그래서 Google은 수백 개의 카테고리를 구성합니다

그들은이 NLP 기능을 가지고 있습니다 어떤 카테고리의 기사인지 예측할 수 있습니다 예를 들어, PwC 스포츠 이벤트를 후원하고 기사 프로가 될거야 스포츠로 분류된다 그리고 그것은 우리가 관심이없는 범주입니다

그래서 우리는 화이트리스트 카테고리만을 사용합니다 비즈니스 및 산업 또는 회사 뉴스 그리고 여기에 그것은 90 %가이 기사 비즈니스 및 산업 카테고리에 속합니다 이제는이 기사를 계속 처리 할 수 ​​있습니다 그러나이 수백 개의 카테고리 아직도 아주 일반적이고 근거가 없다 또는 신용 위험 분야에 대해 명시되지 않은 경우, 우리는 몇 가지 주제를 스스로 정의했습니다

우리는 분류 할 수있는 몇 가지 모델을 훈련 시켰습니다 이 주제에 대한 기사 그래서 우리는 이보다 더 교육을 받았지만 [INAUDIBLE] 배우십시오 그리고 이것들은 예를 들어, 기사가 사기 또는 약 사기인지를 예측 파산, 정말 주제가 신용 리스크 관리자에게 중요합니다 그래서 여기에 그것은 11 %가 사기에 관한 것이고, 파산에 대해 8 % 확신

이제 완전히 새로 생성 된 요약을 생성합니다 개요 따라서 대시 보드에 표시 할 수 있습니다 그리고 나서, 우리는 원래의 몸을 제거 할 수 있습니다 우리가 더 이상 필요하지 않기 때문에 번역 된 몸

우리는 필요한 모든 정보를 추출했습니다 그리고 이제 마지막 부분 인 클러스터링이 있습니다 그래서 우리가 클러스터링을 할 때 우리는 모든 열이있는 하나의 큰 행렬을 만듭니다 발견 한 엔티티와 발견 한 모든 기사 그래서 수십만 명이 있습니다

행렬의 열 수는 수백만 개입니다 나는 모른다 행은 개별 기사입니다 그리고 여기서 당신은 가치로서 그 주체의 돌출 성을 봅니다 특정 기사에서

따라서이 예에서는 관련 기사를 예를 들어, 이것을 매트릭스에 추가하여 우리가 클러스터링을 어떻게하는지 그래서 우리는이 약속에 관한 관련 항목을 발견했습니다 그리고 그것을 매트릭스에 추가합니다 그래서 여러분이 볼 수있는 것은 여기에 몇 개의 엔티티가 추가 된 것입니다 그래서이 실체는 두 번째 기사에서 발견됩니다

그러나 첫 번째 기사에서는 그렇지 않습니다 또한이 엔티티는 처음에는 발견되지 않습니다 첫 번째 기사에는 있지만 두 번째 기사에는 없습니다 그리고 우리는 여전히 그것을 볼 수 있습니다, Ad van Gils 첫 번째 기사에서 가장 중요한 존재입니다 그리고 두 번째 기사

이제 우리가 할 수있는 것은 우리가 계산하는 것입니다 코사인 유사성은 그냥 계산할 수있는 수학 공식 두 벡터 사이의 거리, 그래서 이 벡터 및이 벡터 그리고이 거리에서, 우리는 말할 수 있습니다 좋습니다이 두 기사 같은 사건에 관한 것입니다

그래서 그것을 계산해 봅시다 여기에 그것은 말한다, OK, 나는 82 % 다 – 우리는 이것들이 82 % 일치합니다 – 이 두 벡터에 대해서 그리고 우리는 한계점을 가지고 놀 수 있습니다 우리가 말하는 곳에서, OK, 80 %로 임계 값을 설정하면, 이 두 기사는 함께 묶일 것입니다 임계 값을 85 %로 설정하면 그들은 함께 모여 있지 않을 것입니다

이제 데모 용이었습니다 이것은 내 생각에 15 분을 소비한다 직장에서 15 초 정도 걸릴 것 같습니다 그리고 우리는 하루에 10 만 번합니다 그리고 우리에게 실제로 도움이 된 것은 사실이었습니다

우리가 확장 할 수있는 Kubernetes Engine과 Pub / Sub를 사용했습니다 이제 우리는 250 명의 거래 상대방을 보유하고 있습니다 어쩌면 10 배까지 증가 할 것입니다 그리고 우리가 확장 할 수 있다고 확신합니다 그 거래 상대방에게 고맙습니다

나는 오토에게 다시 생각해 [박수 갈채] OTTO VERMEULEN : 훌륭한 데모로 Peter, 감사합니다 그리고 이제 우리 모두 이해합니다 왜 당신의 취미는 Kubernetes입니다 우리는 GCP의 구성 요소가 많이 있다는 것을 알았습니다

그리고 우리 자신을 코딩하는 것도 꽤 많이했습니다 그래서 지금은이 세션을 끝내야 할 때라고 생각합니다 그리고 나는 당신에게 세 가지 주요 테이크 아웃을하고 싶습니다 첫 번째는 적시에 적절한 정보입니다 우리는 국제 은행 적절한 순간에 전 세계의 정보가 필요합니다

그 정보는 기하 급수적으로 증가하고 있습니다 그래서 중요한 질문은 올바른 정보를 얻는 방법이었습니다 적시에 신용 위험 관리자에게 알려야합니까? 그리고 나는이 개념 증명으로, 우리는 당신이 그것을 할 수 있음을 보여주었습니다 두 번째 주요 테이크 아웃은 클라우드 및 기계 학습입니다 우리가 본 것을 감안할 때, 지난 3-5 년 전에 이것을 만들 수 없었을 것입니다

하지만 지금은 클라우드의 출현과 함께 또한 모든 종류의 API 및 기계 알고리즘 배우기– 자연어 처리와 같은 번역과 같은 이와 같은 시스템을 개발하는 것은 아주 쉽습니다 그리고 마지막으로 민첩한 작업과 빠른 실험 – 우리는 올바른 툴링으로 적절한 팀이면 개념 증명을 구축 할 수 있습니다 단 12 주 만에 처음부터 그리고 당신도 그렇게 할 수 있고 내일 시작할 수 있습니다 시간 내 주셔서 감사합니다 [박수 갈채] [음악 재생]