JKF 捷克論壇

搜尋
jeffreypai
公爵 | 2018-4-16 09:14:16

光聽聲音就能辨識出誰是說話者,只有人類能嫻熟地做到,機器與人工智慧雖沒麼聰明,但已漸有起色(如Google智慧喇叭能辨別同時說話的人),近期有開發者以Google深度學習(deep learning)工具研發了一個「神經網路模型」,可只靠人類講話的臉部表情、嘴型來挑出特定聲音,在辨別的過程中會將聲音片段(包含背景音)餵給AI人工智慧來分離,最後從多個聲音中「分離」出獨立音軌。而結果也令人驚訝,開發者實際拿康納脫口秀的影片來測試,影片中兩個不同藝人講同時講著相聲,藉由嘴型的辨識,AI就能清楚地分離音軌,而在麥克風擋住藝人臉部時,效果仍不打折扣。

Google試著將這個「辨識並分離特定音軌」的功能加入旗下的語音聊天服務,像是Hangouts或Duo,讓你在吵雜的聊天室也能聽清楚重要對象講的話,提升語音聊天的品質,同時,這也對錄影時的人聲增強很有用,有助於聽器的開發。雖然這個功能有潛在爭議,例如公開竊聽等,到時要如何規範與現制,也會是開發者未來的課題。

本文章中包含更多資源

您需要 登入 才可以下載或查看,沒有帳號?加入會員

x
分享分享 收藏收藏
FB分享
你送出的愛心是我發帖的動力
回覆 使用道具
您需要登入後才可以回覆 登入 | 加入會員

建議立即更新瀏覽器 Chrome 95, Safari 15, Firefox 93, Edge 94。為維護帳號安全,電腦作業系統建議規格使用Windows7(含)以上。
回頂部 下一篇文章 放大 正常倒序 快速回覆 回到列表