久久婷婷国产免费天天,日本一区二区中文字幕,国产盗摄精品一区二区

Sora炸圈后啞火，國(guó)產(chǎn)視頻大模型接棒降門檻

來(lái)源：第一財(cái)經(jīng)作者：呂倩2024-09-12 08:16

視頻可能不是OpenAI當(dāng)下的第一優(yōu)先級(jí)，但國(guó)產(chǎn)視頻大模型忙著降低門檻、讓人人用上。

OpenAI旗下文生視頻模型Sora推出時(shí)引發(fā)的行業(yè)爆炸仿佛還在昨日，但至今Sora也未對(duì)外正式開(kāi)放使用。與之相對(duì)的是國(guó)內(nèi)視頻大模型在2024年密集發(fā)布，雖然技術(shù)更新不斷，但成品多數(shù)仍需后期人工剪輯合成，影響技術(shù)在應(yīng)用端的落地速度。

基于此，9月11日，生數(shù)科技披露功能更新，全球首發(fā)“主體參照”（SubjectConsistency）功能，實(shí)現(xiàn)對(duì)任意主體的一致性生成，讓視頻生成更加穩(wěn)定與可控。所謂“主體參照”，就是允許用戶上傳任意主體的一張圖片，AI能夠鎖定該主體形象，通過(guò)描述詞任意切換場(chǎng)景，輸出主體一致的視頻。

在生數(shù)科技CEO唐家渝看來(lái)，短視頻、動(dòng)畫作品、廣告片等影視作品，在敘事的藝術(shù)中均要求敘事體系“主體一致、場(chǎng)景一致、風(fēng)格一致”，視頻模型要達(dá)到敘事的完整性，就必須在這些核心元素上實(shí)現(xiàn)全面可控。

一鍵生成32秒視頻

生數(shù)科技上一次對(duì)外發(fā)聲是在今年4月，清華大學(xué)人工智能研究院副院長(zhǎng)、生數(shù)科技聯(lián)合創(chuàng)始人兼首席科學(xué)家朱軍教授發(fā)布了長(zhǎng)時(shí)長(zhǎng)、高一致性、高動(dòng)態(tài)性視頻大模型Vidu，可以一鍵生成長(zhǎng)達(dá)16秒的視頻。此次技術(shù)更新，Vidu視頻最長(zhǎng)可以生成32秒。

2024年，整個(gè)大模型賽道經(jīng)過(guò)前一年的瘋狂，逐漸冷靜，視頻大模型被視為邁向多模態(tài)大模型或AGI的必經(jīng)之路。以快手、字節(jié)旗下抖音為代表的短視頻公司，以阿里、騰訊為代表的互聯(lián)網(wǎng)大廠，以生數(shù)科技、智譜AI、愛(ài)詩(shī)科技等為代表的創(chuàng)業(yè)公司，均先后發(fā)布視頻大模型產(chǎn)品。

據(jù)德邦證券統(tǒng)計(jì)，自Sora發(fā)布以來(lái)，國(guó)內(nèi)外已有十多家公司發(fā)布或更新視頻生成模型。客觀來(lái)看，國(guó)內(nèi)外之間的差距正在逐步縮小，視頻時(shí)長(zhǎng)、分辨率等基礎(chǔ)功能具有復(fù)制性，未來(lái)競(jìng)爭(zhēng)或向搶占用戶、提升黏性等方向遷移。從主觀角度對(duì)比，德邦證券認(rèn)為大模型生成的視頻質(zhì)量提升顯著，但離物理世界模擬器仍有距離。文生視頻領(lǐng)域視頻畫面普遍清晰，但在動(dòng)作幅度與物理還原度方面差異較大。這也是此次生數(shù)進(jìn)行功能升級(jí)的考慮之一。

唐家渝表示，目前Vidu生成時(shí)長(zhǎng)32秒是一鍵端到端生成，不是拼接插幀生成的。不同之處在于模型對(duì)更長(zhǎng)時(shí)間信息的壓縮，包括信息表現(xiàn)的能力更強(qiáng)，這實(shí)際上更本質(zhì)地與物理世界的理解和語(yǔ)義輸入的關(guān)系相關(guān)。所以提高時(shí)長(zhǎng)需要提升模型對(duì)世界的抽象理解能力、壓縮能力、理解能力，包括生成能力。

創(chuàng)作了動(dòng)畫短片《夏日的禮物》AIGC藝術(shù)家石宇翔認(rèn)為，目前行業(yè)目前對(duì)AI視頻的包容度比較高，細(xì)節(jié)上可提升的地方比如對(duì)復(fù)雜鏡頭的處理、對(duì)多人物鏡頭的處理，以及一些帶有場(chǎng)面調(diào)度的處理等。與基礎(chǔ)的圖生視頻功能相比，“主體參照”功能擺脫了靜態(tài)圖片的束縛，提升創(chuàng)作連貫性，節(jié)約了近七成的生圖工作量。

光馳矩陣的發(fā)起人、青年導(dǎo)演李寧利用Vidu預(yù)創(chuàng)作了一段電影男主的視頻片段，其中所有人物畫面僅通過(guò)男主近景、中景、遠(yuǎn)景三張定妝照生成。李寧表示，之前的AI電影創(chuàng)作過(guò)程多采用傳統(tǒng)的文生圖、圖生視頻流程，在分鏡的連貫上很難掌控，人物的整體造型很難保持一致，前期需要耗費(fèi)大量的精力去調(diào)試圖片，同時(shí)畫面還容易產(chǎn)生鏡頭光影失控、圖像模糊甚至變形等一系列問(wèn)題，且隨著視頻篇幅的增加，這些問(wèn)題被進(jìn)一步放大。Vidu“主體參照”功能讓人物的整體一致性顯著提升，不再需要前期生成大量的圖片，人物運(yùn)動(dòng)和畫面過(guò)渡也更加自然，可助力長(zhǎng)篇敘事創(chuàng)作。

本質(zhì)上通過(guò)“主體參照”功能的升級(jí)是為了提高視頻大模型生成質(zhì)量、技術(shù)結(jié)合具體產(chǎn)業(yè)落地效率，加速AI在具體應(yīng)用上的落地。目前生數(shù)科技推出合作伙伴計(jì)劃，邀請(qǐng)廣告、影視、動(dòng)漫、游戲等行業(yè)機(jī)構(gòu)加入。

目前生數(shù)科技視頻模型的商業(yè)模式分為SaaS訂閱模式與API接口的方式，這也是目前大模型領(lǐng)域普遍采取的商業(yè)化試水方式。具體在B端與C端的分布占比情況，唐家渝稱，從收入角度來(lái)看，B端市場(chǎng)的收入更大。C端產(chǎn)品上線一個(gè)月以來(lái)，增長(zhǎng)曲線非常高。綜合判斷下來(lái)，B端比較明確、比較直接，包含了較為穩(wěn)定的需求，所以B端會(huì)是公司長(zhǎng)期重點(diǎn)的方向。而C端產(chǎn)品目前還處在不斷探索過(guò)程中。

智譜CEO張鵬此前發(fā)布智譜清影（Ying）時(shí)談及行業(yè)商業(yè)化探索，他稱，從現(xiàn)在這個(gè)階段來(lái)說(shuō)，無(wú)論ToC還是ToB，純粹走向大規(guī)模商業(yè)化還比較早期。所謂收費(fèi)策略更多是一種早期嘗試，也觀察下市場(chǎng)和用戶的反饋，進(jìn)行及時(shí)調(diào)整。

視頻大模型的下一步在哪里？

除了具體功能層面的升級(jí)更新，目前行業(yè)普遍共識(shí)于多模態(tài)是大勢(shì)所趨，而視頻大模型是階段性狀態(tài)。

對(duì)此，張鵬表示，視頻生成并非孤立存在，而是放到整個(gè)技術(shù)和產(chǎn)品發(fā)展路線當(dāng)中，智譜認(rèn)為它是多模態(tài)或者AGI多模態(tài)路徑當(dāng)中的一環(huán)。從產(chǎn)品角度來(lái)講，視頻生成也會(huì)單獨(dú)成為一個(gè)獨(dú)立產(chǎn)品去實(shí)現(xiàn)商業(yè)化落地，進(jìn)而產(chǎn)生價(jià)值。唐家渝也對(duì)記者表示，生數(shù)的底層是通用大模型，視頻生成只是一個(gè)中間階段。

邁向多模態(tài)的過(guò)程中，多款視頻模型密集發(fā)布的狀態(tài)會(huì)否造成同質(zhì)化問(wèn)題？對(duì)此，唐家渝對(duì)記者稱，在技術(shù)路線上，生數(shù)現(xiàn)在處于收斂狀態(tài)，但同質(zhì)化并不代表所有進(jìn)展與能力都相同。如現(xiàn)在的語(yǔ)言模型都會(huì)涉及Transformer架構(gòu)，但現(xiàn)實(shí)來(lái)看，OpenAI還是明顯領(lǐng)先的。因?yàn)樵诩軜?gòu)基礎(chǔ)上，中間仍有非常多環(huán)節(jié)，如如何有效進(jìn)行Scaleup、視頻如何有效壓縮等，都存在非常多技巧與實(shí)踐經(jīng)驗(yàn)。算法技巧、算法難點(diǎn)，包括算法工程化難點(diǎn)等，都是導(dǎo)致目前視頻大模型差異性的原因。

至于商業(yè)化方面，唐家渝認(rèn)為行業(yè)在商業(yè)選擇上比較類似，即便是像Sora、Runway等企業(yè)也都在積極擁抱好萊塢，或進(jìn)行廣告合作等，因?yàn)檫@些領(lǐng)域?qū)儆诩夹g(shù)天然容易落地的領(lǐng)域。整個(gè)行業(yè)正在利用自身特點(diǎn)向前走，整體AI生成視頻領(lǐng)域還在發(fā)展的前期，國(guó)際頭部玩家在齊頭并進(jìn)，共同擴(kuò)大市場(chǎng)。

對(duì)于視頻模型領(lǐng)域的密集發(fā)布情況，張鵬認(rèn)為可控性是行業(yè)需要花大力氣去做的事情。一方面在技術(shù)層面，視頻本身的可控是非常大的要求。其次從安全性角度來(lái)看，因?yàn)橐曨l信號(hào)里包括的內(nèi)容和細(xì)節(jié)更多，需要保證生成出來(lái)的東西符合要求；最后，生成的內(nèi)容要做到商業(yè)化應(yīng)用，可控也是必要的條件——既要精準(zhǔn)表達(dá)創(chuàng)作者意圖，且讓大家買單。

在基礎(chǔ)條件滿足之后，目前行業(yè)自Sora面世后，對(duì)視頻大模型的期待更多聚焦于AI取代長(zhǎng)視頻拍攝手段。張鵬認(rèn)為從技術(shù)發(fā)展角度來(lái)看，這是一個(gè)重要方向，對(duì)影視行業(yè)的變化也有積極意義。但目前來(lái)講，視頻大模型還不足以直接用在面向觀眾的生產(chǎn)過(guò)程中，但可以用來(lái)做輔助工作，甚至是小規(guī)模創(chuàng)作，距離真正改變電影制作等高要求還有一段路要走。

至于出場(chǎng)即高潮、至今未對(duì)外開(kāi)放的Sora，行業(yè)仍將其視為追趕標(biāo)的，但由于技術(shù)細(xì)節(jié)上不透明，很多地方需要企業(yè)自己摸索。至于Sora的“銷聲匿跡”，唐家渝對(duì)記者分析稱，原因可能在幾方面：視頻不是OpenAI目前的主線；部分?jǐn)?shù)據(jù)版權(quán)問(wèn)題未得到解決；生成過(guò)程中產(chǎn)生了其他問(wèn)題，需要花費(fèi)一定時(shí)間與成本解決，不符合公司的優(yōu)先級(jí)。

張鵬與智譜一直客觀正視與世界頂級(jí)水平之間的差距，同時(shí)他認(rèn)為這條路還是得自己走，很多時(shí)候中國(guó)企業(yè)也是在用自己的方式向前追趕，比如如何將視頻生成算力成本降下來(lái)，將響應(yīng)速度提升上去，讓所有人可以用等。“我們?cè)谧非蠹夹g(shù)高度的同時(shí)，也在同步追求技術(shù)的可普及性。”張鵬稱。

責(zé)任編輯：李志強(qiáng)

機(jī)構(gòu)

視頻

證券

聲明：證券時(shí)報(bào)力求信息真實(shí)、準(zhǔn)確，文章提及內(nèi)容僅供參考，不構(gòu)成實(shí)質(zhì)性投資建議，據(jù)此操作風(fēng)險(xiǎn)自擔(dān)

下載“證券時(shí)報(bào)”官方APP，或關(guān)注官方微信公眾號(hào)，即可隨時(shí)了解股市動(dòng)態(tài)，洞察政策信息，把握財(cái)富機(jī)會(huì)。

網(wǎng)友評(píng)論

登錄后可以發(fā)言

發(fā)送

網(wǎng)友評(píng)論僅供其表達(dá)個(gè)人看法，并不表明證券時(shí)報(bào)立場(chǎng)