2025-12-04 23:46:36
年末視頻生成模型競爭激烈,海外Runway發(fā)布Gen-4.5超越谷歌Veo3,12月1日快手可靈AI上線“全球首個統(tǒng)一多模態(tài)視頻大模型”可靈O1。其支持多模態(tài)輸入,可綜合理解多種指令生成視頻細節(jié),還支持組合不同技能,拓寬應(yīng)用場景。此外,可靈宣布年收入將破10億元,目前以B端客戶為主,未來將加速C端商業(yè)化。
每經(jīng)記者|王郁彪 每經(jīng)編輯|余婷婷
一度被譽為“地表最強AI(人工智能)生圖模型”的谷歌Nano Banana Pro,其引發(fā)的新一輪技術(shù)熱潮尚有余溫,視頻生成模型“大混戰(zhàn)”又在年末迎來高潮。
先是海外AI視頻初創(chuàng)公司Runway發(fā)布了新一代視頻模型Gen-4.5,并在基準測試中超越谷歌的Veo3登頂。12月1日,快手可靈AI又丟出“王炸”,上線“全球首個統(tǒng)一多模態(tài)視頻大模型”可靈O1,再次強化了其作為“生產(chǎn)力工具”的一面。
火藥味很濃。
一般而言,普通C端(消費者)用戶想生成相對較復(fù)雜和精細的視頻,往往需要使用生圖模型、視頻生成模型以及剪輯軟件等進行制作。實際操作中,多模型、多軟件的切換比較耗時且繁瑣,視頻效果也可能會在流轉(zhuǎn)中出現(xiàn)主體一致性差、動作崩掉等情況,需要重新“抽卡”(需要通過反復(fù)嘗試、調(diào)整提示詞或參數(shù)來獲得理想作品的過程)。
“統(tǒng)一多模態(tài)視頻大模型”據(jù)稱主要解決的就是這個問題。
事實上,從去年開始,視頻生成領(lǐng)域的競爭就已進入白熱化。今年,國外的Sora2、Veo3逐漸確立統(tǒng)治地位,國內(nèi)有多輪大版本更新且商業(yè)化速度一騎絕塵的可靈不斷出招。時至年末,新一輪混戰(zhàn)來襲,誰是“地表最強視頻生成模型”,我們離答案還有多遠?《每日經(jīng)濟新聞》記者對可靈O1進行了實測。
支持多模態(tài),輸入文字指令就能“P視頻”
《每日經(jīng)濟新聞》記者實測發(fā)現(xiàn),可靈O1首次將參考生視頻、文生視頻、首尾幀生視頻、視頻內(nèi)容增刪及修改變換等多任務(wù),融合于大一統(tǒng)模型之中。
最重要的是,完成上述任務(wù)可以“全流程語義控制”,用一句話就可以生成或修改視頻。圖片、視頻、主體、文字等都可以被視為指令,可靈O1可綜合理解用戶上傳的照片、視頻或主體(一個角色的不同視角)的意圖,生成視頻的各種細節(jié)。
具體而言,記者實測發(fā)現(xiàn),在可靈O1模型的多模態(tài)指令輸入?yún)^(qū),可以上傳1到7張參考圖或主體,自由組合人物、角色、道具、服裝、場景等元素,讓靜態(tài)元素在視頻中動起來。
視頻生成后,也可以在輸入?yún)^(qū)進行指令的變換,對原視頻進行主體與背景的增加、修改、刪除,也可以修改風(fēng)格、顏色、材質(zhì)、視角等。由于支持多模態(tài)輸入,這個修改的過程可以由文字、圖片、主體的輸入語言任意組合。
比如,在輸入?yún)^(qū)輸入“刪除【視頻】中道路兩側(cè)的路人,保留馬車”,修改后的視頻保持了主體的一致性,對被刪除的內(nèi)容進行了相對干凈的抹除。
圖片來源:可靈O1測試截圖
除了用文字指令刪除、增加內(nèi)容外,還可以用圖片指令修改視頻的主體等。比如,輸入“將【視頻】中的雕像修改為【圖片】中的姜餅人”,生成的視頻保持了原視頻的運鏡邏輯、背景一致,主體也按要求進行了替換。
圖片來源:可靈O1測試截圖
此外,可靈O1還可以改變視頻的視角、景別,比如遠景變特寫、俯拍變仰拍等,并支持用參考視頻內(nèi)容進行新鏡頭的生成等。
如記者輸入圖片和視頻兩段素材,讓圖片中的靜態(tài)主體以視頻主體的舞蹈方式動起來,結(jié)果生成視頻對原圖片打光、色調(diào)以及主體形象的還原度相對較高,但也有一些小瑕疵,如手部細節(jié)模糊、人物身體比例不協(xié)調(diào)等,還需要重復(fù)“抽卡”。
視頻“一致性”有所提高,指令還可疊加使用
體驗時記者注意到,可靈O1強化了輸入圖像及視頻的理解,支持多視角圖創(chuàng)建主體。也就是說上傳一個角色的多視角照片,其可以在不同鏡頭、不同光照與風(fēng)格下保持“同一個人”的特征不變。
比如,記者輸入近期大熱電影《瘋狂動物城》主角“朱迪”的多張不同主體視角圖片,在后期進行視頻生成時,無論主角、道具、場景以及運鏡如何變化,朱迪的主體形象都能夠保持相對穩(wěn)定。
不過,當(dāng)記者添加了狐貍尼克的圖片參考并進行更復(fù)雜的視頻輸出時,主體之外的人物形象出現(xiàn)不合邏輯的動作、形態(tài)呈現(xiàn),甚至有一組舞會成員隨著鏡頭推移,從雙人跳舞變成了三人跳舞,需要重復(fù)“抽卡”。
圖片來源:可靈O1測試截圖
此外,記者體驗時還發(fā)現(xiàn),不僅限于單個角色或物品,可靈O1還具備多主體融合能力??梢宰杂山M合多個不同主體,或?qū)⒅黧w與參考圖混搭。這種能力適用于視頻里呈現(xiàn)復(fù)雜的群像戲或互動場景中,模型能夠獨立鎖定及保持每一個角色或道具的特征。不過,這個功能需要提供高清、主體明確的圖片,否則需要重復(fù)“抽卡”。而在復(fù)雜的互動場景下,多個主體的互動指令也需要更明確地描述,不然就難以避免重復(fù)“抽卡”。
在實際場景落地中,如宣傳視頻就可以直接上傳商品圖、場景圖等,通過多個主體相互組合快速完成視頻生成。
圖片來源:可靈O1測試截圖
記者發(fā)現(xiàn),除單點任務(wù)外,可靈O1還支持組合不同的技能,允許把各種指令疊加使用,一次性生成出來。比如,可以組合參考圖片和修改視頻風(fēng)格,兩個動作同時進行。
這些功能的升級,相對能夠拓寬可靈的場景應(yīng)用,特別是作為“生產(chǎn)力工具”,可應(yīng)用于影視創(chuàng)作、創(chuàng)意廣告、服裝穿搭參考視頻、視頻后期制作等。
不過,有不少網(wǎng)友表示,目前可靈視頻O1模型的使用價格較貴,視頻生成、修改成本高。據(jù)了解,視頻價格取決于輸入情況和生成視頻長度——無視頻輸入時,8靈感值/秒,有視頻輸入時,12靈感值/秒。以單次購買一個月的可靈黃金會員價格為例,66元/月、每月有660靈感值。如無視頻輸入,生成一個高品質(zhì)5秒視頻,大約需要40靈感值。
技術(shù)狂歡背后:可靈年收入即將破10億元,C端市場待墾
視頻、圖像O1模型上新后,12月3日,可靈又官宣推出視頻生成2.6模型。記者注意到,該模型提供了“音畫同出”能力,升級了文生音畫、圖生音畫兩大功能。目前,語音支持生成中文與英文,生成的視頻長度最長可達10秒。
12月4日晚,新一代可靈數(shù)字人2.0宣布即日起正式全量上線。上傳角色圖、添加配音內(nèi)容、描述角色表現(xiàn),三步即可生成。相對舊版,新版在表現(xiàn)力、手部及口型精準控制上有提升,且支持最長5分鐘的視頻時長。
除了在年末迎來“技術(shù)周”,前不久三季度財報披露時,可靈宣布2025年收入將達10億元的商業(yè)化進程,再次引起不小的市場反應(yīng)。
值得一提的是,目前可靈用戶構(gòu)成仍以B端客戶為主。而隨著Open AI正式發(fā)布的第二代AI視頻生成模型Sora 2等將視頻生成與社交互動深度融合,C端消費級應(yīng)用的落地進程明顯加快。
快手科技創(chuàng)始人兼首席執(zhí)行官程一笑在三季報電話會上也指出,“當(dāng)前我們的主要精力依然是面向?qū)I(yè)創(chuàng)作者,但未來也會將可靈的技術(shù)能力進一步產(chǎn)品化,與社交互動結(jié)合,加速C端應(yīng)用的商業(yè)化”。這也回答了可靈未來增長方向的問題。
工信部信息通信經(jīng)濟專家委員會委員盤和林此前接受《每日經(jīng)濟新聞》記者微信采訪時表示,視頻生成賽道的最終受益者,可能還是內(nèi)容創(chuàng)作平臺,因為這些平臺具備兩樣?xùn)|西:其一,是最相關(guān)的用戶群體,未來視頻生成可能更多還是為短視頻自媒體服務(wù);其二是最大規(guī)模的用戶受眾,生成式AI帶來的內(nèi)容創(chuàng)作上的升級,會進一步影響創(chuàng)作者和觀看者。
“未來,快手平臺上的創(chuàng)作者,需要借助可靈這樣的AI工具來生成內(nèi)容,或者至少輔助內(nèi)容創(chuàng)作,這會大大提高平臺內(nèi)容輸出的質(zhì)量,從而更好地吸引用戶,擴大快手在內(nèi)容平臺領(lǐng)域的影響力?!北P和林如此補充。
封面圖片來源:可靈AI公眾號
如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟新聞APP