頻頻上新!國產(chǎn)視頻生成大模型迎多方布局

  新華社·客戶端   2024-10-06 07:56:09

近段時(shí)間,多個(gè)國產(chǎn)視頻生成大模型陸續(xù)上線、走向大眾。在業(yè)內(nèi)人士看來,視頻生成技術(shù)在人工智能領(lǐng)域正日益受到重視,并且正在快速進(jìn)步,未來可能會(huì)對(duì)影視制作、廣告設(shè)計(jì)等多個(gè)領(lǐng)域產(chǎn)生深遠(yuǎn)影響。

日前,字節(jié)跳動(dòng)旗下火山引擎發(fā)布了豆包視頻生成模型,具有一致性多鏡頭生成、動(dòng)態(tài)運(yùn)鏡、支持3D動(dòng)畫等功能?;鹕揭娣矫娼榻B,全新設(shè)計(jì)的擴(kuò)散模型訓(xùn)練方法,攻克了多鏡頭切換的一致性難題,在鏡頭切換時(shí)可同時(shí)保持主體、風(fēng)格、氛圍的一致性。

在對(duì)話框輸入“穿著滑冰鞋的小兔子在冰面上靈活移動(dòng)的可愛場景”,隨即一段高清、逼真的動(dòng)畫視頻呈現(xiàn)在眼前——近日,通義萬相發(fā)布視頻生成模型。阿里云CTO周靖人介紹,該視頻生成模型針對(duì)運(yùn)動(dòng)生成和物理模擬等難點(diǎn)優(yōu)化算法,實(shí)現(xiàn)了大幅度主體運(yùn)動(dòng)和運(yùn)鏡控制,并有效模擬真實(shí)世界物理特性,可應(yīng)用于影視創(chuàng)作、動(dòng)畫設(shè)計(jì)、廣告設(shè)計(jì)等領(lǐng)域。

今年初,文生視頻大模型Sora在全球人工智能業(yè)內(nèi)外引發(fā)廣泛關(guān)注。近期,快手、生數(shù)科技、智譜AI等多個(gè)中國科技企業(yè)自主研發(fā)的視頻生成產(chǎn)品加速上線。

在業(yè)內(nèi)人士看來,當(dāng)前大模型已經(jīng)具備文本、語音、視覺的多模態(tài)能力,能夠開始完成復(fù)雜指令,技術(shù)快速迭代使其可用性大幅提升。

賽智產(chǎn)業(yè)研究院副院長鄧道正對(duì)《經(jīng)濟(jì)參考報(bào)》記者表示,視頻生成大模型的發(fā)展將對(duì)傳媒娛樂、廣告營銷、教育培訓(xùn)、元宇宙等眾多行業(yè)產(chǎn)生深遠(yuǎn)影響,有利于大幅降低短視頻、直播、影視制作的成本和周期。

“例如,在影視制作領(lǐng)域,視頻生成大模型可根據(jù)導(dǎo)演或編劇的創(chuàng)意需求,生成具有個(gè)性和創(chuàng)意的視頻片段,為影視創(chuàng)作提供更多可能性;在廣告宣傳領(lǐng)域,視頻生成大模型能夠根據(jù)用戶的興趣和行為數(shù)據(jù)快速生成多種風(fēng)格和主題的視頻廣告,滿足不同客戶的需求,實(shí)現(xiàn)精準(zhǔn)投放和個(gè)性化推薦?!编嚨勒f。

不過不少業(yè)內(nèi)人士也表示,國產(chǎn)視頻生成大模型層出不窮,已解決了“有”的問題,需逐步向“優(yōu)”進(jìn)化。

生數(shù)科技聯(lián)合創(chuàng)始人兼CEO唐家渝表示,視頻生成大模型領(lǐng)域競爭激烈,盡管眾多模型層出不窮,但普遍存在一個(gè)核心問題——可控性不足,或者叫一致性的不足?!霸趯?shí)際視頻創(chuàng)作中,視頻內(nèi)容往往圍繞特定對(duì)象展開,這些對(duì)象在視頻中的形象需要保持連續(xù)一致。然而現(xiàn)有的視頻模型往往難以實(shí)現(xiàn)這一點(diǎn),常常是主體在生成過程中容易崩壞。尤其在涉及復(fù)雜動(dòng)作和交互時(shí),保持主體一致性更是一項(xiàng)挑戰(zhàn)?!?/p>

鄧道正認(rèn)為,盡管我國視頻生成大模型在技術(shù)上取得了顯著進(jìn)步,但生成的視頻質(zhì)量與連貫性仍有待提升,尤其是在處理復(fù)雜場景和動(dòng)作時(shí),模型容易出現(xiàn)畫面崩壞、動(dòng)作不連貫等問題。另外,模型對(duì)自然語言提示詞的理解能力也有限,難以完全捕捉和表達(dá)用戶的意圖,生成結(jié)果具有很大的隨機(jī)性,難以生成獨(dú)特、新穎的視頻內(nèi)容。

對(duì)此,不少企業(yè)也加快視頻大模型的迭代升級(jí)。例如,由生數(shù)科技和清華大學(xué)聯(lián)合研發(fā)的自研原創(chuàng)視頻大模型Vidu更新“主體參照”功能。據(jù)介紹,所謂“主體參照”,就是允許用戶上傳任意主體的一張圖片,Vidu就能夠鎖定該主體的形象,通過描述詞任意切換場景,輸出主體一致的視頻。

火山引擎總裁譚待也表示,視頻生成有很多難關(guān)亟待突破,豆包模型會(huì)持續(xù)演進(jìn),在解決關(guān)鍵問題上探索更多可能性,加速拓展AI視頻的創(chuàng)作空間和應(yīng)用落地。

面向下一步發(fā)展,鄧道正建議,加強(qiáng)技術(shù)創(chuàng)新與突破,要鼓勵(lì)企業(yè)、高校和研究機(jī)構(gòu)加強(qiáng)合作,加大在視頻生成技術(shù)上的創(chuàng)新研發(fā)投入和人才培養(yǎng),深入研究視頻生成的核心算法和模型結(jié)構(gòu),包括圖像生成、視頻幀間關(guān)系處理、運(yùn)動(dòng)估計(jì)與補(bǔ)償?shù)?,以提升視頻生成的質(zhì)量。加強(qiáng)高質(zhì)量視頻數(shù)據(jù)集建設(shè),要支持廣泛收集各類視頻數(shù)據(jù),以豐富數(shù)據(jù)集的規(guī)模和多樣性,同時(shí)也要加強(qiáng)數(shù)據(jù)標(biāo)注發(fā)展,提高數(shù)據(jù)的質(zhì)量和可用性,確保數(shù)據(jù)集的準(zhǔn)確性和完整性。拓展應(yīng)用場景,要積極深入挖掘視頻生成技術(shù)的應(yīng)用場景,加強(qiáng)產(chǎn)業(yè)鏈上下游企業(yè)的合作,不斷開發(fā)新的商業(yè)模式,共同推動(dòng)視頻生成技術(shù)的廣泛應(yīng)用和商業(yè)化發(fā)展。(記者 郭倩)

責(zé)編:于淼

一審:于淼

二審:曹嫻

三審:李偉鋒

來源:新華社·客戶端

我要問