Natural Language Data Processing with Mito.ai – Stack Chat

MARK MIRCHANDANI : 정서 이해하기 언어 뒤에 의미는 아키텍처가 필요합니다 많은 데이터를 처리 할 수 ​​있습니다

우리가 Mitoai와 이야기 할 때 우리와 함께하십시오 이 에피소드에서 데이터 처리를 처리합니다 "스택 채팅" 오늘 우리와 함께 해줘서 고마워

미토에 대해 조금 더 알려 주실 수 있나요? 그리고 당신이하는 일? MARIT RODEVAND : 그래, 우리는 대기업들이 통찰력과 판매 촉진 요인을 발견하여 판매 기존 고객 및 잠재 고객에 대한 정보, 우리는 많은 양의 데이터를 분석하여이를 수행합니다 인터넷상의 구조화되지 않은 데이터 MARK MIRCHANDANI : 그럼 기술이란 무엇인가? AI 제작 방법 뒤에? 마릿 로덴 : 우리는 많은 일을해야합니다 이 모든 정보 제일 먼저 사과에서 사과를 분리하는 것입니다 사람들은 그것이 사소한 것이라고 생각하지만 실제로는 꽤 어렵습니다

그리고 우리는 언어에 구애받지 않는 방식으로 그것을합니다 즉, 우리의 데이터 처리 파이프 라인을 통해, 우리는 모든 언어를 처리 할 수 ​​있으며 사과뿐 아니라 모든 어려운 상황에 대해이 작업을 수행 할 수 있습니다 및 사과, 그러나 유사한 그들에서 노르웨이 그리고 스웨덴어 독일어 또한 이것이 우리 기술이 독창적 인 이유이기도합니다 언어에 구애받지 않는 지식을 가진이 조합 그래프, 그 위에 건물을 많이 짓는다

모든 모듈을 학습하는 기계 학습 모듈 이 정말로 어려운 질문 그리고 Apache Spark를 주요 데이터 처리로 사용하고 있습니다 플랫폼에 대해 더 자세히 이야기 할 수 있습니다 PATRICK SKJENNUM : Spark Streaming 응용 프로그램 Pub / Sub에서 모든 콘텐츠를 가져 왔으며, 그것은 우리의 NLP 파이프 라인을 통해 그것을 처리합니다 이것은 우리가 엔티티 추출을하는 곳입니다

우리는 콘텐츠를 클러스터링하고 상호 작용합니다 이러한 모든 기계 학습 모델 우리가 훈련 했어 이 모델들은 Apache Spark에서 교육을받습니다 또한, 배치 프로세싱 유닛에서, 선점 노드가있는 임시 클러스터에서 실행됩니다 우리가 1,000 개의 노드를 회전시킬 수 있기 때문에 굉장합니다

우리는 정말 비싼 모델을 훈련시킬 수 있습니다 짧은 시간 동안 그들을 떠나지 않아도됩니다 일단 우리가 그렇게하면, 마지막 단계 처리 파이프 라인의 스트림에서 데이터를 다시 지식 그래프로 색인화하는 것입니다 그리고이를 위해 Elasticsearch를 사용하고 있습니다 또한 소프트웨어의 정말 멋진 부분입니다

정말 훌륭한 검색 기능을 가지고 있습니다 우리는 "사과"를 검색하고 "사과"에 대한 조회수를 얻습니다 그런 종류의 일 일단 데이터가 Elasticsearch에 색인이 생성되면, GraphQL에서 실행되는 API에서 검색 가능하도록 만들어졌습니다 이러한 API는 Kubernetes의 마이크로 서비스 아키텍처에서 실행됩니다

그래서 그것은 생태계의 일종입니다 모든 데이터와 상호 작용합니다 Apache Spark에서 처리됩니다 MARIT RODEVAND : 우리는이 API를 고객이 액세스 할 수있게 만들고, 그것이 그들이 통합하는 방법이기 때문에, 또한, 우리의 서비스와 함께 우리로부터 데이터를 얻습니다 내부 CRM 및 탐사 시스템에 통합됩니다

또한 우리는 프로그래밍 언어를 순서대로 오픈 소스 화했습니다 GraphQL에서 API를 매우 쉽게 커스터마이징 할 수 있습니다 그래서 사람들은 그것을 원한다면 체크 아웃해야합니다 MIRCHANDANI MARK : 지난 몇 년 동안, 당신은 당신의 아키텍처에 대해 많은 것을 배웠습니다 돌아가서 다시 시작할 수 있다면, 네가 너와 함께 가져 가면 너 느꼈어

가장 중요한 것이 었나요? 패트릭 SKJENNUM : 하나 테이크 아웃 여기에 우리가 아파치 스파크를 아주 많이 사용하고 있다는 것입니다 이는 Apache Spark을 구성해야한다는 것을 의미합니다 클러스터 그리고 매 시간마다 1 달러를 얻으면 나는 스파크 클러스터를 구성하는데 소비한다 나는 부자가 될 것입니다

스파크 클러스터 구성은 아닙니다 과소 평가되어야하는 것 토폴로지를 구성해야합니다 필요한 노드 수를 구성해야합니다 그리고 모든 종류의 것들

당신이 스파크에서 얻는 것은 무엇입니까? 이 모든 기계 학습 라이브러리와 많은 것입니다 이 생태계에있는 유틸리티의 그러나 우리는 그것들을 어느쪽으로해도 사용할 수 있었고, 다른 종류의 시스템을 Python이나 이와 유사하게 사용합니다 우리가 아마도 고려해야 할 분명한 사실은 데이터 흐름, 이 관리 서비스를 사용할 수있는 모든 변환을 수행 할 수 있습니다 외부 API를 사용하여 기계 학습을 할 수 있습니다 물건

그런 다음 시스템을 분리합니다 한 장소와 기계에서 데이터 처리가 가능합니다 다른 서비스에 포함 된 학습 그래서 우리는 처음 시작할 때 하나의 메시징 대기열 우리는 모든 콘텐츠를 게시했습니다 즉, 해당 대기열 중 하나가 다운 된 경우 또는 대기열과 상호 작용하는 다른 서비스 내려 갔다, 우리는 대기열을 막고 있었다

우리는 백 로그 또는 처리되어야합니다 그리고 그것은 적어도 지속 가능하지 않았습니다 고객, 그들은 우리 시스템을 통한 지연이 필요합니다 가능한 한 낮습니다 그래서 그 해결책으로 Pub / Sub로 바꿨습니다

이 우선 순위 개념을 만들었습니다 어디에서, 기계 학습을 사용하여, 우선 순위 큐를 결정할 수있다 이 내용을 계속 써야합니다 그리고 그것은 고객의 피드백을 기반으로합니다 API를 통해 직접 고객은 관련성이있는 것을 선택할 수 있습니다

관련이없는 것 이를 바탕으로 가장 중요한 콘텐츠가 무엇인지 추측 할 수 있습니다 고객에게 그리고이를 바탕으로 이렇게하면 오른쪽 대기열을 통해 콘텐츠를 라우팅 할 수 있습니다 예를 들어, 주식 시장 업데이트가 우선 순위가 높은 대기열을 사용하십시오

우리 고객이 가능한 빨리 그것을 원한다는 것을 알아라 MIRCHANDANI MARK : 오늘 우리와 함께 해 주셔서 감사합니다 마릿 로덴 : 우리 주셔서 고마워요 PATRICK SKJENNUM : 그래, 우리를 가져 주셔서 고마워 MARK MIRCHANDANI : 데이터 흐름 시작하기 이 템플릿과 튜토리얼을 사용하여

시청 해 주셔서 감사 드리며 구독을 꼭하십시오 더 우수한 Google Cloud Platform 콘텐츠를 제공합니다 다음 번에 "스택 채트"에서 만나요 [음악 재생]