科學(xué)家開(kāi)發(fā)DIRFA:輸入圖片和音頻,可生成說(shuō)話(huà)視頻

IT之家 11 月 17 日消息,來(lái)自新加坡南洋理工大學(xué)(NTU Singapore)的科研團(tuán)隊(duì)近日開(kāi)發(fā)出了 DIRFA 工具,用戶(hù)給一張圖片以及音頻內(nèi)容,可以自動(dòng)生成 3D 視頻,并實(shí)現(xiàn)口型和聲音的同步協(xié)調(diào)。

DIRFA 的全稱(chēng)為 DIverse yet Realistic Facial Animations,訓(xùn)練了超過(guò) 6000 多人的 100 萬(wàn)個(gè)視頻片段,音頻片段來(lái)自一個(gè)名為 VoxCeleb2 數(shù)據(jù)集的開(kāi)源數(shù)據(jù)庫(kù),并關(guān)聯(lián)面部表情和頭部運(yùn)動(dòng)。

研究人員表示,DIRFA 可能會(huì)在包括醫(yī)療保健在內(nèi)的各個(gè)行業(yè)和領(lǐng)域帶來(lái)新的應(yīng)用,因?yàn)樗梢詫?shí)現(xiàn)更復(fù)雜和逼真的虛擬助手和聊天機(jī)器人,從而改善用戶(hù)體驗(yàn)。

DIRFA 還可以作為言語(yǔ)或面部殘疾人士的強(qiáng)大工具,幫助他們通過(guò)富有表現(xiàn)力的頭像或數(shù)字表示來(lái)傳達(dá)他們的想法和情感,從而增強(qiáng)他們的溝通能力。

IT之家附上論文參考地址:Rongliang Wu, Yingchen Yu, Fangneng Zhan, Jiahui Zhang, Xiaoqin Zhang, Shijian Lu. Audio-driven talking face generation with perse yet realistic facial animations. Pattern Recognition, 2023; 144: 109865 DOI: 10.1016/j.patcog.2023.109865

標(biāo)題:科學(xué)家開(kāi)發(fā)DIRFA:輸入圖片和音頻,可生成說(shuō)話(huà)視頻

地址:http://www.17168cn.cn/gzdm/44837.html