Google develops Audio-Visual model for isolating Single Voice in Crowd

사람들은 시끄러운 가운데 특정 인물에 집중하는 데 탁월합니다 환경, 정신적으로 다른 모든 목소리와 소리를 "음소거"

칵테일 파티 효과로 알려진이 기능은 자연스럽게 우리 인간에게 제공됩니다 그러나 자동 음성 분리 – 오디오 신호를 개별 음성으로 분리 소스 – 컴퓨터에 대한 중요한 과제로 남아 있습니다 Google 연구 팀은 단일 채널을 격리하기위한 심층 학습 시청각 모델을 제공합니다 다른 음성 및 배경 잡음과 같은 소리가 혼합 된 음성 신호 이 작품에서, 그들은 비디오를 산출 할 수있다

다른 모든 소리는 표시되지 않지만 사람들은 향상됩니다 이 방법은 단일 오디오 트랙이있는 일반 비디오에서 작동하며 필요한 것은 모두 사용자가 듣고 싶은 비디오에서 그 사람의 얼굴을 선택하는 것입니다 그러한 사람을 문맥에 따라 알고리즘 적으로 선택하게하는 것 이 기능은 음성 향상 및 인식에서부터 비디오, 화상 회의를 통한 보청기 개선, 특히 여러 사람이 말하고 있습니다