要聞

文字指令就能“P視頻” 實測快手可靈O1：視頻版Nano Banana Pro來了？

2025-12-04 23:46:36

年末視頻生成模型競爭激烈，海外Runway發(fā)布Gen-4.5超越谷歌Veo3，12月1日快手可靈AI上線“全球首個統(tǒng)一多模態(tài)視頻大模型”可靈O1。其支持多模態(tài)輸入，可綜合理解多種指令生成視頻細節(jié)，還支持組合不同技能，拓寬應(yīng)用場景。此外，可靈宣布年收入將破10億元，目前以B端客戶為主，未來將加速C端商業(yè)化。

每經(jīng)記者｜王郁彪每經(jīng)編輯｜余婷婷

一度被譽為“地表最強AI（人工智能）生圖模型”的谷歌Nano Banana Pro，其引發(fā)的新一輪技術(shù)熱潮尚有余溫，視頻生成模型“大混戰(zhàn)”又在年末迎來高潮。

先是海外AI視頻初創(chuàng)公司Runway發(fā)布了新一代視頻模型Gen-4.5，并在基準測試中超越谷歌的Veo3登頂。12月1日，快手可靈AI又丟出“王炸”，上線“全球首個統(tǒng)一多模態(tài)視頻大模型”可靈O1，再次強化了其作為“生產(chǎn)力工具”的一面。

火藥味很濃。

一般而言，普通C端（消費者）用戶想生成相對較復(fù)雜和精細的視頻，往往需要使用生圖模型、視頻生成模型以及剪輯軟件等進行制作。實際操作中，多模型、多軟件的切換比較耗時且繁瑣，視頻效果也可能會在流轉(zhuǎn)中出現(xiàn)主體一致性差、動作崩掉等情況，需要重新“抽卡”（需要通過反復(fù)嘗試、調(diào)整提示詞或參數(shù)來獲得理想作品的過程）。

“統(tǒng)一多模態(tài)視頻大模型”據(jù)稱主要解決的就是這個問題。

事實上，從去年開始，視頻生成領(lǐng)域的競爭就已進入白熱化。今年，國外的Sora2、Veo3逐漸確立統(tǒng)治地位，國內(nèi)有多輪大版本更新且商業(yè)化速度一騎絕塵的可靈不斷出招。時至年末，新一輪混戰(zhàn)來襲，誰是“地表最強視頻生成模型”，我們離答案還有多遠？《每日經(jīng)濟新聞》記者對可靈O1進行了實測。

支持多模態(tài)，輸入文字指令就能“P視頻”

《每日經(jīng)濟新聞》記者實測發(fā)現(xiàn)，可靈O1首次將參考生視頻、文生視頻、首尾幀生視頻、視頻內(nèi)容增刪及修改變換等多任務(wù)，融合于大一統(tǒng)模型之中。

最重要的是，完成上述任務(wù)可以“全流程語義控制”，用一句話就可以生成或修改視頻。圖片、視頻、主體、文字等都可以被視為指令，可靈O1可綜合理解用戶上傳的照片、視頻或主體（一個角色的不同視角）的意圖，生成視頻的各種細節(jié)。

具體而言，記者實測發(fā)現(xiàn)，在可靈O1模型的多模態(tài)指令輸入?yún)^(qū)，可以上傳1到7張參考圖或主體，自由組合人物、角色、道具、服裝、場景等元素，讓靜態(tài)元素在視頻中動起來。

視頻生成后，也可以在輸入?yún)^(qū)進行指令的變換，對原視頻進行主體與背景的增加、修改、刪除，也可以修改風(fēng)格、顏色、材質(zhì)、視角等。由于支持多模態(tài)輸入，這個修改的過程可以由文字、圖片、主體的輸入語言任意組合。

比如，在輸入?yún)^(qū)輸入“刪除【視頻】中道路兩側(cè)的路人，保留馬車”，修改后的視頻保持了主體的一致性，對被刪除的內(nèi)容進行了相對干凈的抹除。

圖片來源：可靈O1測試截圖

除了用文字指令刪除、增加內(nèi)容外，還可以用圖片指令修改視頻的主體等。比如，輸入“將【視頻】中的雕像修改為【圖片】中的姜餅人”，生成的視頻保持了原視頻的運鏡邏輯、背景一致，主體也按要求進行了替換。

圖片來源：可靈O1測試截圖

此外，可靈O1還可以改變視頻的視角、景別，比如遠景變特寫、俯拍變仰拍等，并支持用參考視頻內(nèi)容進行新鏡頭的生成等。

如記者輸入圖片和視頻兩段素材，讓圖片中的靜態(tài)主體以視頻主體的舞蹈方式動起來，結(jié)果生成視頻對原圖片打光、色調(diào)以及主體形象的還原度相對較高，但也有一些小瑕疵，如手部細節(jié)模糊、人物身體比例不協(xié)調(diào)等，還需要重復(fù)“抽卡”。

視頻“一致性”有所提高，指令還可疊加使用

體驗時記者注意到，可靈O1強化了輸入圖像及視頻的理解，支持多視角圖創(chuàng)建主體。也就是說上傳一個角色的多視角照片，其可以在不同鏡頭、不同光照與風(fēng)格下保持“同一個人”的特征不變。

比如，記者輸入近期大熱電影《瘋狂動物城》主角“朱迪”的多張不同主體視角圖片，在后期進行視頻生成時，無論主角、道具、場景以及運鏡如何變化，朱迪的主體形象都能夠保持相對穩(wěn)定。

不過，當(dāng)記者添加了狐貍尼克的圖片參考并進行更復(fù)雜的視頻輸出時，主體之外的人物形象出現(xiàn)不合邏輯的動作、形態(tài)呈現(xiàn)，甚至有一組舞會成員隨著鏡頭推移，從雙人跳舞變成了三人跳舞，需要重復(fù)“抽卡”。

圖片來源：可靈O1測試截圖

此外，記者體驗時還發(fā)現(xiàn)，不僅限于單個角色或物品，可靈O1還具備多主體融合能力?？梢宰杂山M合多個不同主體，或?qū)⒅黧w與參考圖混搭。這種能力適用于視頻里呈現(xiàn)復(fù)雜的群像戲或互動場景中，模型能夠獨立鎖定及保持每一個角色或道具的特征。不過，這個功能需要提供高清、主體明確的圖片，否則需要重復(fù)“抽卡”。而在復(fù)雜的互動場景下，多個主體的互動指令也需要更明確地描述，不然就難以避免重復(fù)“抽卡”。

在實際場景落地中，如宣傳視頻就可以直接上傳商品圖、場景圖等，通過多個主體相互組合快速完成視頻生成。

圖片來源：可靈O1測試截圖

記者發(fā)現(xiàn)，除單點任務(wù)外，可靈O1還支持組合不同的技能，允許把各種指令疊加使用，一次性生成出來。比如，可以組合參考圖片和修改視頻風(fēng)格，兩個動作同時進行。

這些功能的升級，相對能夠拓寬可靈的場景應(yīng)用，特別是作為“生產(chǎn)力工具”，可應(yīng)用于影視創(chuàng)作、創(chuàng)意廣告、服裝穿搭參考視頻、視頻后期制作等。

不過，有不少網(wǎng)友表示，目前可靈視頻O1模型的使用價格較貴，視頻生成、修改成本高。據(jù)了解，視頻價格取決于輸入情況和生成視頻長度——無視頻輸入時，8靈感值/秒，有視頻輸入時，12靈感值/秒。以單次購買一個月的可靈黃金會員價格為例，66元/月、每月有660靈感值。如無視頻輸入，生成一個高品質(zhì)5秒視頻，大約需要40靈感值。

技術(shù)狂歡背后：可靈年收入即將破10億元，C端市場待墾

視頻、圖像O1模型上新后，12月3日，可靈又官宣推出視頻生成2.6模型。記者注意到，該模型提供了“音畫同出”能力，升級了文生音畫、圖生音畫兩大功能。目前，語音支持生成中文與英文，生成的視頻長度最長可達10秒。

12月4日晚，新一代可靈數(shù)字人2.0宣布即日起正式全量上線。上傳角色圖、添加配音內(nèi)容、描述角色表現(xiàn)，三步即可生成。相對舊版，新版在表現(xiàn)力、手部及口型精準控制上有提升，且支持最長5分鐘的視頻時長。

除了在年末迎來“技術(shù)周”，前不久三季度財報披露時，可靈宣布2025年收入將達10億元的商業(yè)化進程，再次引起不小的市場反應(yīng)。

值得一提的是，目前可靈用戶構(gòu)成仍以B端客戶為主。而隨著Open AI正式發(fā)布的第二代AI視頻生成模型Sora 2等將視頻生成與社交互動深度融合，C端消費級應(yīng)用的落地進程明顯加快。

快手科技創(chuàng)始人兼首席執(zhí)行官程一笑在三季報電話會上也指出，“當(dāng)前我們的主要精力依然是面向?qū)I(yè)創(chuàng)作者，但未來也會將可靈的技術(shù)能力進一步產(chǎn)品化，與社交互動結(jié)合，加速C端應(yīng)用的商業(yè)化”。這也回答了可靈未來增長方向的問題。

工信部信息通信經(jīng)濟專家委員會委員盤和林此前接受《每日經(jīng)濟新聞》記者微信采訪時表示，視頻生成賽道的最終受益者，可能還是內(nèi)容創(chuàng)作平臺，因為這些平臺具備兩樣?xùn)|西：其一，是最相關(guān)的用戶群體，未來視頻生成可能更多還是為短視頻自媒體服務(wù)；其二是最大規(guī)模的用戶受眾，生成式AI帶來的內(nèi)容創(chuàng)作上的升級，會進一步影響創(chuàng)作者和觀看者。

“未來，快手平臺上的創(chuàng)作者，需要借助可靈這樣的AI工具來生成內(nèi)容，或者至少輔助內(nèi)容創(chuàng)作，這會大大提高平臺內(nèi)容輸出的質(zhì)量，從而更好地吸引用戶，擴大快手在內(nèi)容平臺領(lǐng)域的影響力?！北P和林如此補充。

封面圖片來源：可靈AI公眾號

如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán)，嚴禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

上一篇文章

12月5日重要財經(jīng)事件

返回每經(jīng)網(wǎng)首頁

下一篇文章

易中天當(dāng)編劇也不行？電影票房崩盤，網(wǎng)友：整個廳就我一個人！上市公司：投資4000萬元，虧了4000萬元，將補拍重映

相關(guān)文章