草草久久久无码国产专区,欧美国产SE综合,日韩在线免费一区

頻頻上新！國產(chǎn)視頻生成大模型迎多方布局

新華社·客戶端 2024-10-06 07:56:09

近段時(shí)間，多個(gè)國產(chǎn)視頻生成大模型陸續(xù)上線、走向大眾。在業(yè)內(nèi)人士看來，視頻生成技術(shù)在人工智能領(lǐng)域正日益受到重視，并且正在快速進(jìn)步，未來可能會(huì)對(duì)影視制作、廣告設(shè)計(jì)等多個(gè)領(lǐng)域產(chǎn)生深遠(yuǎn)影響。

日前，字節(jié)跳動(dòng)旗下火山引擎發(fā)布了豆包視頻生成模型，具有一致性多鏡頭生成、動(dòng)態(tài)運(yùn)鏡、支持3D動(dòng)畫等功能?；鹕揭娣矫娼榻B，全新設(shè)計(jì)的擴(kuò)散模型訓(xùn)練方法，攻克了多鏡頭切換的一致性難題，在鏡頭切換時(shí)可同時(shí)保持主體、風(fēng)格、氛圍的一致性。

在對(duì)話框輸入“穿著滑冰鞋的小兔子在冰面上靈活移動(dòng)的可愛場景”，隨即一段高清、逼真的動(dòng)畫視頻呈現(xiàn)在眼前——近日，通義萬相發(fā)布視頻生成模型。阿里云CTO周靖人介紹，該視頻生成模型針對(duì)運(yùn)動(dòng)生成和物理模擬等難點(diǎn)優(yōu)化算法，實(shí)現(xiàn)了大幅度主體運(yùn)動(dòng)和運(yùn)鏡控制，并有效模擬真實(shí)世界物理特性，可應(yīng)用于影視創(chuàng)作、動(dòng)畫設(shè)計(jì)、廣告設(shè)計(jì)等領(lǐng)域。

今年初，文生視頻大模型Sora在全球人工智能業(yè)內(nèi)外引發(fā)廣泛關(guān)注。近期，快手、生數(shù)科技、智譜AI等多個(gè)中國科技企業(yè)自主研發(fā)的視頻生成產(chǎn)品加速上線。

在業(yè)內(nèi)人士看來，當(dāng)前大模型已經(jīng)具備文本、語音、視覺的多模態(tài)能力，能夠開始完成復(fù)雜指令，技術(shù)快速迭代使其可用性大幅提升。

賽智產(chǎn)業(yè)研究院副院長鄧道正對(duì)《經(jīng)濟(jì)參考報(bào)》記者表示，視頻生成大模型的發(fā)展將對(duì)傳媒娛樂、廣告營銷、教育培訓(xùn)、元宇宙等眾多行業(yè)產(chǎn)生深遠(yuǎn)影響，有利于大幅降低短視頻、直播、影視制作的成本和周期。

“例如，在影視制作領(lǐng)域，視頻生成大模型可根據(jù)導(dǎo)演或編劇的創(chuàng)意需求，生成具有個(gè)性和創(chuàng)意的視頻片段，為影視創(chuàng)作提供更多可能性；在廣告宣傳領(lǐng)域，視頻生成大模型能夠根據(jù)用戶的興趣和行為數(shù)據(jù)快速生成多種風(fēng)格和主題的視頻廣告，滿足不同客戶的需求，實(shí)現(xiàn)精準(zhǔn)投放和個(gè)性化推薦?！编嚨勒f。

不過不少業(yè)內(nèi)人士也表示，國產(chǎn)視頻生成大模型層出不窮，已解決了“有”的問題，需逐步向“優(yōu)”進(jìn)化。

生數(shù)科技聯(lián)合創(chuàng)始人兼CEO唐家渝表示，視頻生成大模型領(lǐng)域競爭激烈，盡管眾多模型層出不窮，但普遍存在一個(gè)核心問題——可控性不足，或者叫一致性的不足?！霸趯?shí)際視頻創(chuàng)作中，視頻內(nèi)容往往圍繞特定對(duì)象展開，這些對(duì)象在視頻中的形象需要保持連續(xù)一致。然而現(xiàn)有的視頻模型往往難以實(shí)現(xiàn)這一點(diǎn)，常常是主體在生成過程中容易崩壞。尤其在涉及復(fù)雜動(dòng)作和交互時(shí)，保持主體一致性更是一項(xiàng)挑戰(zhàn)?！?/p>

鄧道正認(rèn)為，盡管我國視頻生成大模型在技術(shù)上取得了顯著進(jìn)步，但生成的視頻質(zhì)量與連貫性仍有待提升，尤其是在處理復(fù)雜場景和動(dòng)作時(shí)，模型容易出現(xiàn)畫面崩壞、動(dòng)作不連貫等問題。另外，模型對(duì)自然語言提示詞的理解能力也有限，難以完全捕捉和表達(dá)用戶的意圖，生成結(jié)果具有很大的隨機(jī)性，難以生成獨(dú)特、新穎的視頻內(nèi)容。

對(duì)此，不少企業(yè)也加快視頻大模型的迭代升級(jí)。例如，由生數(shù)科技和清華大學(xué)聯(lián)合研發(fā)的自研原創(chuàng)視頻大模型Vidu更新“主體參照”功能。據(jù)介紹，所謂“主體參照”，就是允許用戶上傳任意主體的一張圖片，Vidu就能夠鎖定該主體的形象，通過描述詞任意切換場景，輸出主體一致的視頻。

火山引擎總裁譚待也表示，視頻生成有很多難關(guān)亟待突破，豆包模型會(huì)持續(xù)演進(jìn)，在解決關(guān)鍵問題上探索更多可能性，加速拓展AI視頻的創(chuàng)作空間和應(yīng)用落地。

面向下一步發(fā)展，鄧道正建議，加強(qiáng)技術(shù)創(chuàng)新與突破，要鼓勵(lì)企業(yè)、高校和研究機(jī)構(gòu)加強(qiáng)合作，加大在視頻生成技術(shù)上的創(chuàng)新研發(fā)投入和人才培養(yǎng)，深入研究視頻生成的核心算法和模型結(jié)構(gòu)，包括圖像生成、視頻幀間關(guān)系處理、運(yùn)動(dòng)估計(jì)與補(bǔ)償?shù)?，以提升視頻生成的質(zhì)量。加強(qiáng)高質(zhì)量視頻數(shù)據(jù)集建設(shè)，要支持廣泛收集各類視頻數(shù)據(jù)，以豐富數(shù)據(jù)集的規(guī)模和多樣性，同時(shí)也要加強(qiáng)數(shù)據(jù)標(biāo)注發(fā)展，提高數(shù)據(jù)的質(zhì)量和可用性，確保數(shù)據(jù)集的準(zhǔn)確性和完整性。拓展應(yīng)用場景，要積極深入挖掘視頻生成技術(shù)的應(yīng)用場景，加強(qiáng)產(chǎn)業(yè)鏈上下游企業(yè)的合作，不斷開發(fā)新的商業(yè)模式，共同推動(dòng)視頻生成技術(shù)的廣泛應(yīng)用和商業(yè)化發(fā)展。（記者郭倩）

責(zé)編：于淼

一審：于淼

二審：曹嫻

三審：李偉鋒

來源：新華社·客戶端

我要問