上海這家公司成全球最大AI視頻造夢者,用一張照片就能生成電影大片

  上觀新聞   2025-02-20 10:39:05

在人工智能這個快速迭代的行業(yè),民營科技企業(yè)展現(xiàn)出獨特價值。

作者:解放日報 孟群舒

DeepSeek的走紅,如同一顆超新星爆發(fā),釋放出巨大能量,瞬間照亮了中國的AI星系。在上海人工智能的群星中,MiniMax是頗為亮眼的那一顆。

DeepSeek以文字見長,MiniMax則在文本、視頻、語音多模態(tài)技術(shù)領(lǐng)域保持領(lǐng)先。今年1月的全球AI視頻排行榜中,MiniMax旗下海螺AI視頻網(wǎng)站全球訪問量位居榜首。截至2月上旬,MiniMax以每日生成數(shù)百萬條視頻占據(jù)全球第一寶座,每日生成語音量位居國內(nèi)前二,文本處理量也位居國內(nèi)前列。

在全世界競爭最激烈的領(lǐng)域,這家上海公司如何一步步提升競爭位次,在細分賽道超越頂尖同行?

用一張照片拍出電影

用人工智能生成視頻,是許多人樂于嘗試的應用。但AI的技術(shù)缺陷也引來很多吐槽:“上一段視頻中生成的是張三,下一段視頻就變成了另一張臉。無論怎么調(diào)整,都無法讓兩段視頻的主角變成同一人。”

人物角色一致性的難題,讓AI難以制作出同一人物角色、不同故事情節(jié)的短片,大大限制了AI生成視頻的應用場景。

直到今年1月MiniMax發(fā)布最新視頻模型,將這一難題徹底化解。用戶只需提供1張人物的正面照片,不論生成多少段風格迥異的視頻,主角都是這個人。這讓網(wǎng)友驚呼,一張照片就能做電影,這不是夢!

在創(chuàng)業(yè)過程中,MiniMax始終堅持技術(shù)驅(qū)動。動態(tài)視頻中如何保持人物面部多角度的真實度和穩(wěn)定性,如何保持人物角色高度一致……痛點就是MiniMax攻關(guān)的重點。開發(fā)團隊進行了大量技術(shù)探索,比選不同的技術(shù)路徑,最后開發(fā)出S2V模型——只需傳統(tǒng)方案1%的輸入和計算成本,“上傳1張圖片”的效果就足夠好。

在3年多時間里,一次次迭代升級,MiniMax不斷挖深加寬自己的護城河,文生視頻、圖生視頻、主體參考等功能持續(xù)優(yōu)化。這些創(chuàng)新,讓海螺AI視頻在激烈競爭中殺出重圍,使用量反超OpenAI的Sora,用戶分布在全球超200個國家和地區(qū)。

與之類似,在文生語音等功能上,MiniMax也走出了差異化路線。網(wǎng)友發(fā)現(xiàn),MiniMax的語音功能竟然帶有情緒調(diào)節(jié)和效果器功能,AI生成的語音可以帶上開心、難過、生氣等情緒,這一創(chuàng)新讓有聲書和廣播劇的生產(chǎn)力大幅提升。

“通用人工智能不是簡單的互聯(lián)網(wǎng)流量變化,而是計算范式的顛覆式創(chuàng)新,將會引領(lǐng)生產(chǎn)力、社會分工以及產(chǎn)業(yè)結(jié)構(gòu)的深刻變革?!鄙虾O∮羁萍迹∕iniMax)創(chuàng)始人閆俊杰說。

畫自己的圖紙建造大廈

閆俊杰曾在商湯科技帶隊負責通用智能技術(shù)。那時候,人工智能主要用于計算機視覺識別。2021年,看到通用人工智能的曙光,他帶領(lǐng)團隊二次創(chuàng)業(yè),MiniMax也成為少有的在ChatGPT誕生前就進入這一賽道的中國公司。

當下領(lǐng)先的大語言模型大多采用Transformer底層架構(gòu)。但它也有先天不足,比如“注意力機制”缺陷——隨著文本長度的增加,計算復雜度呈平方級增長。不僅會大幅降低處理效率,還會大大提高計算成本。

算力、算法和數(shù)據(jù)是人工智能發(fā)展的“鐵三角”。MiniMax創(chuàng)立之初,算力和數(shù)據(jù)十分有限,唯一選擇就是在算法上求突破。從2023年夏天開始,公司將80%的算力與研發(fā)資源投入底層架構(gòu)研發(fā),這在外人看來就像一場豪賭。

“我們在工程上遇到的很多問題,源于一片漆黑的未知。”公司技術(shù)團隊在沒有成熟經(jīng)驗可供借鑒的情況下,一次次試錯,持續(xù)進行摸索。一年后,公司成功推出國內(nèi)首個基于MoE架構(gòu)的模型,研發(fā)人員又向“注意力機制”難題發(fā)起沖擊。今年1月,大規(guī)模實現(xiàn)線性注意力機制的MiniMax-01模型誕生。這也是中國公司首次突破傳統(tǒng)Transformer架構(gòu),并逐漸為行業(yè)廣泛認可。

“底層模型能力是決定大模型應用成功與否的首要因素?!盡iniMax副總裁劉華告訴記者,雖然在現(xiàn)有圖紙上蓋樓相對容易,但圖紙的不足也會限制樓房的高度。我們選擇在自己的圖紙上構(gòu)筑大廈,一開始或許慢一些,但希望能更好應對未來的挑戰(zhàn)。

底層架構(gòu)如同AI“新基建”,01模型突破了長文本處理瓶頸,可高效處理最長400萬token的上下文。在工業(yè)領(lǐng)域,該模型可以快速解析百萬字設(shè)備日志,輔助故障診斷;在醫(yī)療場景,它可連續(xù)跟蹤患者數(shù)年病歷,生成個性化治療方案。

最近兩年,大模型技術(shù)快速迭代,國際國內(nèi)AI行業(yè)都在白熱化競爭。底層模型一次重大迭代對產(chǎn)品帶來的優(yōu)化效果,會遠超在工程實現(xiàn)層面對產(chǎn)品進行“雕花”。這也是MiniMax始終緊盯模型本身,加速迭代升級的重要原因。

借助上海優(yōu)勢加快發(fā)展

作為上海人工智能高地孵化的代表性企業(yè),MiniMax的成長離不開這座城市獨特的文化和基因。

上海匯聚了全球頂尖的AI人才,大量富有熱情的年輕人才,為產(chǎn)業(yè)快速發(fā)展提供了支撐。在MiniMax上??偛看髽牵邪l(fā)人員持續(xù)增多。2023年6月,還只是一層樓坐了半個樓面,后來很快坐滿兩層樓。從人工智能行業(yè)發(fā)展看,成功的模型,就脫胎于科學的做事方法、數(shù)百人技術(shù)團隊的有效組織、坦誠扎實的研發(fā)文化。

人工智能是上海三大先導產(chǎn)業(yè)之一。不久前,上海推出人工智能“模塑申城”工程,在算力、場景、數(shù)據(jù)、人才方面推出一批有力舉措,一手抓算力“燃料”,一手抓“語料”,更好滿足人工智能行業(yè)發(fā)展需求。

上海還積極推動大模型企業(yè)與場景企業(yè)對接。以MiniMax為例,他們與小紅書合作打造生成式智能搜索,與閱文集團合作將數(shù)千本小說變成超自然、高保真的有聲書等,通過相互賦能實現(xiàn)更快發(fā)展。

身處上海這個開放前沿,MiniMax也自帶海派風格。公司面向個人用戶的Talkie產(chǎn)品率先出海,短短幾年已擁有數(shù)千萬用戶,MiniMax也成為行業(yè)內(nèi)出海最早、海外覆蓋率最高的公司。

閆俊杰相信,“真正有價值的事,不是當前做得怎么樣,而是技術(shù)進化的速度。”一如多年前的移動互聯(lián)網(wǎng)行業(yè),在人工智能這個快速迭代的行業(yè),民營科技企業(yè)展現(xiàn)出獨特價值,那就是以技術(shù)驅(qū)動實現(xiàn)快速發(fā)展,以靈活機制捕捉前沿趨勢,以務實創(chuàng)新解決產(chǎn)業(yè)痛點。經(jīng)過團隊艱苦卓絕的努力,實現(xiàn)自我超越。

上海人工智能產(chǎn)業(yè)規(guī)模已突破4000億元,規(guī)模以上企業(yè)超350家。僅“模速空間”及周邊,就已聚集255家模型企業(yè)和34個備案大模型。上海的AI宇宙正在加速壯大,更多激動人心的故事正在續(xù)寫。

責編:張德會

一審:寧靜

二審:肖秀芬

三審:張德會

來源:上觀新聞

我要問