Google’s Text Reader AI: Almost Perfect | Two Minute Papers #228

친애하는 동료 학자,이의 Károly Zsolnai-Fehér와 두 분의 논문입니다 앞서 우리는 구글의 WaveNet, 학습 기반의 텍스트 음성 변환 엔진에 대해 이야기했다

이것은 우리가 그것을 기록 된 텍스트의 조각을주고 훈련 단계 이후에 다른 사람의를 사용하는 것을 의미한다 음성, 그것은으로 설득력 가능한 한이 사람의 음성을 사용하여 소리내어 읽어있다 그리고이 후속 작업은 약이 더 설득력하고있다 우리가 그것으로 이동하기 전에, 함께 새로운 결과에 감탄하자 흠 – 흠! 당신이들을 수 있습니다, 그것은 정말 믿을로 연결되는 운율, 스트레스와 억양에 중대하다 인간의 연설 원래 WaveNet 종이에 마법의 구성 요소는 팽창 회선을 도입했다 이 문제에 대한

우리는 그것의 더 나은 글로벌보기 때문에,이 입력 데이터에 큰 건너 뜁니다 있습니다 그것은 조금 우리가 전체를 볼 수 있도록 눈의 수용 필드를 증가 같다 풍경, 그리고 사진에뿐만 아니라 나무 이 새로운 일에 마법의 구성 요소는 WaveNet의 입력으로 멜 스펙트로 그램을 사용하고 있습니다 이 기록은 인간의 인식을 기반으로하는 중간 표현입니다 뿐만 아니라 어떻게 다른 단어로 볼륨과 억양을 발음하지만, 예상해야한다 잘 새로운 모델은 음성 데이터의 약 24 시간에 훈련을했다

그리고 물론, 어떤 연구 작업은 검증의 일종없이 어서는 안됩니다 첫 번째는 이전 알고리즘의 평균 의견 점수를 기록하고,이 실제, 전문 음성 녹음 평균 의견 점수는 사운드 샘플로 정품 인간을 통과 할 방법을 설명 숫자입니다 연설 새로운 알고리즘을 훌륭하게 통과했다 더욱 실제적인 평가는 사용자 연구의 형태로 이루어졌다 곳 사람들 합성 샘플 및 전문 음성 내레이터을 듣고 있었고,했다 이는 어느 생각합니다

대부분의 시간, 사람들이었다 몰랐다 때문에이 정말 대단하네요 당신이 그것을 믿지 않는다면, 우리는 순간이 자신을 시도 할 것이다 -있다 실제 영상을 선호하는쪽으로 매우 작지만 통계적으로 유의 한 경향 "메를로"와 같은 일부 단어가 잘못 발음하고 있기 때문에 가능성이 기록되었다 자동으로 오디오 북, 비디오 게임에 대한 자동 음성 나레이션 목소리를 냈다 덤벼 어떤 시간은 살아 있습니다! 이 파형을 생성하는 실시간하지 않고 여전히 꽤 시간이 걸립니다합니다

그 방향을 따라 진행하려면 DeepMind 같은 과학자들은 종이 곳의 지옥을 쓴 그들은 천 번을 WaveNet을주었습니다 당신이 미래의 에피소드에 대해 더 듣고 싶습니다 경우에 코멘트를 남겨주세요 물론,이 같은 새로운 발명은 또한 선 아래로 새로운 도전을 올릴 것이다 그것은 그 음성 녹음이 위조 덜 유용하다는 것을 훨씬 더 쉽게 될 것입니다 수 있습니다 증거 우리가 예를 들어, 자신의 진정성을 확인하는 새로운 방법을 발견하지 않는 한, 서명 그들은 우리가 소프트웨어처럼 끝으로, 몇 가지 오디오 샘플 쌍, 그들 중 하나는 그들 중 하나가 합성, 진짜입니다

당신은 어떤, 어떻게 생각하십니까? 아래에 댓글을 남겨주세요 난 그냥 웹 페이지에서 발견 여기에 빠른 힌트를 떠날거야 Hopp! 거기 당신은 간다 이 에피소드를 즐기면, Patreon에 우리를 지원하시기 바랍니다 이것은, 1 달러는 거의 우리가 쇼를 계속 운영 할 수 있으며,이 드릴을 알고 어떻게 아무것도하지만,이 논문오고 유지합니다

보고에 대한 당신의 관대 한 지원에 대한 감사합니다, 나는 당신에게 다음에 보자!