欧美一级亚洲视频,久久观看午夜精品,九九re热国产精品视频,国产精品视频人人做人人

Sora炸圈后啞火,國(guó)產(chǎn)視頻大模型接棒降門檻
來(lái)源:第一財(cái)經(jīng)作者:呂倩2024-09-12 08:16

視頻可能不是OpenAI當(dāng)下的第一優(yōu)先級(jí),但國(guó)產(chǎn)視頻大模型忙著降低門檻、讓人人用上。

OpenAI旗下文生視頻模型Sora推出時(shí)引發(fā)的行業(yè)爆炸仿佛還在昨日,但至今Sora也未對(duì)外正式開(kāi)放使用。與之相對(duì)的是國(guó)內(nèi)視頻大模型在2024年密集發(fā)布,雖然技術(shù)更新不斷,但成品多數(shù)仍需后期人工剪輯合成,影響技術(shù)在應(yīng)用端的落地速度。

基于此,9月11日,生數(shù)科技披露功能更新,全球首發(fā)“主體參照”(SubjectConsistency)功能,實(shí)現(xiàn)對(duì)任意主體的一致性生成,讓視頻生成更加穩(wěn)定與可控。所謂“主體參照”,就是允許用戶上傳任意主體的一張圖片,AI能夠鎖定該主體形象,通過(guò)描述詞任意切換場(chǎng)景,輸出主體一致的視頻。

在生數(shù)科技CEO唐家渝看來(lái),短視頻、動(dòng)畫作品、廣告片等影視作品,在敘事的藝術(shù)中均要求敘事體系“主體一致、場(chǎng)景一致、風(fēng)格一致”,視頻模型要達(dá)到敘事的完整性,就必須在這些核心元素上實(shí)現(xiàn)全面可控。

一鍵生成32秒視頻

生數(shù)科技上一次對(duì)外發(fā)聲是在今年4月,清華大學(xué)人工智能研究院副院長(zhǎng)、生數(shù)科技聯(lián)合創(chuàng)始人兼首席科學(xué)家朱軍教授發(fā)布了長(zhǎng)時(shí)長(zhǎng)、高一致性、高動(dòng)態(tài)性視頻大模型Vidu,可以一鍵生成長(zhǎng)達(dá)16秒的視頻。此次技術(shù)更新,Vidu視頻最長(zhǎng)可以生成32秒。

2024年,整個(gè)大模型賽道經(jīng)過(guò)前一年的瘋狂,逐漸冷靜,視頻大模型被視為邁向多模態(tài)大模型或AGI的必經(jīng)之路。以快手、字節(jié)旗下抖音為代表的短視頻公司,以阿里、騰訊為代表的互聯(lián)網(wǎng)大廠,以生數(shù)科技、智譜AI、愛(ài)詩(shī)科技等為代表的創(chuàng)業(yè)公司,均先后發(fā)布視頻大模型產(chǎn)品。

據(jù)德邦證券統(tǒng)計(jì),自Sora發(fā)布以來(lái),國(guó)內(nèi)外已有十多家公司發(fā)布或更新視頻生成模型。客觀來(lái)看,國(guó)內(nèi)外之間的差距正在逐步縮小,視頻時(shí)長(zhǎng)、分辨率等基礎(chǔ)功能具有復(fù)制性,未來(lái)競(jìng)爭(zhēng)或向搶占用戶、提升黏性等方向遷移。從主觀角度對(duì)比,德邦證券認(rèn)為大模型生成的視頻質(zhì)量提升顯著,但離物理世界模擬器仍有距離。文生視頻領(lǐng)域視頻畫面普遍清晰,但在動(dòng)作幅度與物理還原度方面差異較大。這也是此次生數(shù)進(jìn)行功能升級(jí)的考慮之一。

唐家渝表示,目前Vidu生成時(shí)長(zhǎng)32秒是一鍵端到端生成,不是拼接插幀生成的。不同之處在于模型對(duì)更長(zhǎng)時(shí)間信息的壓縮,包括信息表現(xiàn)的能力更強(qiáng),這實(shí)際上更本質(zhì)地與物理世界的理解和語(yǔ)義輸入的關(guān)系相關(guān)。所以提高時(shí)長(zhǎng)需要提升模型對(duì)世界的抽象理解能力、壓縮能力、理解能力,包括生成能力。

創(chuàng)作了動(dòng)畫短片《夏日的禮物》AIGC藝術(shù)家石宇翔認(rèn)為,目前行業(yè)目前對(duì)AI視頻的包容度比較高,細(xì)節(jié)上可提升的地方比如對(duì)復(fù)雜鏡頭的處理、對(duì)多人物鏡頭的處理,以及一些帶有場(chǎng)面調(diào)度的處理等。與基礎(chǔ)的圖生視頻功能相比,“主體參照”功能擺脫了靜態(tài)圖片的束縛,提升創(chuàng)作連貫性,節(jié)約了近七成的生圖工作量。

光馳矩陣的發(fā)起人、青年導(dǎo)演李寧利用Vidu預(yù)創(chuàng)作了一段電影男主的視頻片段,其中所有人物畫面僅通過(guò)男主近景、中景、遠(yuǎn)景三張定妝照生成。李寧表示,之前的AI電影創(chuàng)作過(guò)程多采用傳統(tǒng)的文生圖、圖生視頻流程,在分鏡的連貫上很難掌控,人物的整體造型很難保持一致,前期需要耗費(fèi)大量的精力去調(diào)試圖片,同時(shí)畫面還容易產(chǎn)生鏡頭光影失控、圖像模糊甚至變形等一系列問(wèn)題,且隨著視頻篇幅的增加,這些問(wèn)題被進(jìn)一步放大。Vidu“主體參照”功能讓人物的整體一致性顯著提升,不再需要前期生成大量的圖片,人物運(yùn)動(dòng)和畫面過(guò)渡也更加自然,可助力長(zhǎng)篇敘事創(chuàng)作。

本質(zhì)上通過(guò)“主體參照”功能的升級(jí)是為了提高視頻大模型生成質(zhì)量、技術(shù)結(jié)合具體產(chǎn)業(yè)落地效率,加速AI在具體應(yīng)用上的落地。目前生數(shù)科技推出合作伙伴計(jì)劃,邀請(qǐng)廣告、影視、動(dòng)漫、游戲等行業(yè)機(jī)構(gòu)加入。

目前生數(shù)科技視頻模型的商業(yè)模式分為SaaS訂閱模式與API接口的方式,這也是目前大模型領(lǐng)域普遍采取的商業(yè)化試水方式。具體在B端與C端的分布占比情況,唐家渝稱,從收入角度來(lái)看,B端市場(chǎng)的收入更大。C端產(chǎn)品上線一個(gè)月以來(lái),增長(zhǎng)曲線非常高。綜合判斷下來(lái),B端比較明確、比較直接,包含了較為穩(wěn)定的需求,所以B端會(huì)是公司長(zhǎng)期重點(diǎn)的方向。而C端產(chǎn)品目前還處在不斷探索過(guò)程中。

智譜CEO張鵬此前發(fā)布智譜清影(Ying)時(shí)談及行業(yè)商業(yè)化探索,他稱,從現(xiàn)在這個(gè)階段來(lái)說(shuō),無(wú)論ToC還是ToB,純粹走向大規(guī)模商業(yè)化還比較早期。所謂收費(fèi)策略更多是一種早期嘗試,也觀察下市場(chǎng)和用戶的反饋,進(jìn)行及時(shí)調(diào)整。

視頻大模型的下一步在哪里?

除了具體功能層面的升級(jí)更新,目前行業(yè)普遍共識(shí)于多模態(tài)是大勢(shì)所趨,而視頻大模型是階段性狀態(tài)。

對(duì)此,張鵬表示,視頻生成并非孤立存在,而是放到整個(gè)技術(shù)和產(chǎn)品發(fā)展路線當(dāng)中,智譜認(rèn)為它是多模態(tài)或者AGI多模態(tài)路徑當(dāng)中的一環(huán)。從產(chǎn)品角度來(lái)講,視頻生成也會(huì)單獨(dú)成為一個(gè)獨(dú)立產(chǎn)品去實(shí)現(xiàn)商業(yè)化落地,進(jìn)而產(chǎn)生價(jià)值。唐家渝也對(duì)記者表示,生數(shù)的底層是通用大模型,視頻生成只是一個(gè)中間階段。

邁向多模態(tài)的過(guò)程中,多款視頻模型密集發(fā)布的狀態(tài)會(huì)否造成同質(zhì)化問(wèn)題?對(duì)此,唐家渝對(duì)記者稱,在技術(shù)路線上,生數(shù)現(xiàn)在處于收斂狀態(tài),但同質(zhì)化并不代表所有進(jìn)展與能力都相同。如現(xiàn)在的語(yǔ)言模型都會(huì)涉及Transformer架構(gòu),但現(xiàn)實(shí)來(lái)看,OpenAI還是明顯領(lǐng)先的。因?yàn)樵诩軜?gòu)基礎(chǔ)上,中間仍有非常多環(huán)節(jié),如如何有效進(jìn)行Scaleup、視頻如何有效壓縮等,都存在非常多技巧與實(shí)踐經(jīng)驗(yàn)。算法技巧、算法難點(diǎn),包括算法工程化難點(diǎn)等,都是導(dǎo)致目前視頻大模型差異性的原因。

至于商業(yè)化方面,唐家渝認(rèn)為行業(yè)在商業(yè)選擇上比較類似,即便是像Sora、Runway等企業(yè)也都在積極擁抱好萊塢,或進(jìn)行廣告合作等,因?yàn)檫@些領(lǐng)域?qū)儆诩夹g(shù)天然容易落地的領(lǐng)域。整個(gè)行業(yè)正在利用自身特點(diǎn)向前走,整體AI生成視頻領(lǐng)域還在發(fā)展的前期,國(guó)際頭部玩家在齊頭并進(jìn),共同擴(kuò)大市場(chǎng)。

對(duì)于視頻模型領(lǐng)域的密集發(fā)布情況,張鵬認(rèn)為可控性是行業(yè)需要花大力氣去做的事情。一方面在技術(shù)層面,視頻本身的可控是非常大的要求。其次從安全性角度來(lái)看,因?yàn)橐曨l信號(hào)里包括的內(nèi)容和細(xì)節(jié)更多,需要保證生成出來(lái)的東西符合要求;最后,生成的內(nèi)容要做到商業(yè)化應(yīng)用,可控也是必要的條件——既要精準(zhǔn)表達(dá)創(chuàng)作者意圖,且讓大家買單。

在基礎(chǔ)條件滿足之后,目前行業(yè)自Sora面世后,對(duì)視頻大模型的期待更多聚焦于AI取代長(zhǎng)視頻拍攝手段。張鵬認(rèn)為從技術(shù)發(fā)展角度來(lái)看,這是一個(gè)重要方向,對(duì)影視行業(yè)的變化也有積極意義。但目前來(lái)講,視頻大模型還不足以直接用在面向觀眾的生產(chǎn)過(guò)程中,但可以用來(lái)做輔助工作,甚至是小規(guī)模創(chuàng)作,距離真正改變電影制作等高要求還有一段路要走。

至于出場(chǎng)即高潮、至今未對(duì)外開(kāi)放的Sora,行業(yè)仍將其視為追趕標(biāo)的,但由于技術(shù)細(xì)節(jié)上不透明,很多地方需要企業(yè)自己摸索。至于Sora的“銷聲匿跡”,唐家渝對(duì)記者分析稱,原因可能在幾方面:視頻不是OpenAI目前的主線;部分?jǐn)?shù)據(jù)版權(quán)問(wèn)題未得到解決;生成過(guò)程中產(chǎn)生了其他問(wèn)題,需要花費(fèi)一定時(shí)間與成本解決,不符合公司的優(yōu)先級(jí)。

張鵬與智譜一直客觀正視與世界頂級(jí)水平之間的差距,同時(shí)他認(rèn)為這條路還是得自己走,很多時(shí)候中國(guó)企業(yè)也是在用自己的方式向前追趕,比如如何將視頻生成算力成本降下來(lái),將響應(yīng)速度提升上去,讓所有人可以用等。“我們?cè)谧非蠹夹g(shù)高度的同時(shí),也在同步追求技術(shù)的可普及性。”張鵬稱。

責(zé)任編輯: 李志強(qiáng)
聲明:證券時(shí)報(bào)力求信息真實(shí)、準(zhǔn)確,文章提及內(nèi)容僅供參考,不構(gòu)成實(shí)質(zhì)性投資建議,據(jù)此操作風(fēng)險(xiǎn)自擔(dān)
下載“證券時(shí)報(bào)”官方APP,或關(guān)注官方微信公眾號(hào),即可隨時(shí)了解股市動(dòng)態(tài),洞察政策信息,把握財(cái)富機(jī)會(huì)。
網(wǎng)友評(píng)論
登錄后可以發(fā)言
發(fā)送
網(wǎng)友評(píng)論僅供其表達(dá)個(gè)人看法,并不表明證券時(shí)報(bào)立場(chǎng)
暫無(wú)評(píng)論
為你推薦
時(shí)報(bào)熱榜
換一換
    熱點(diǎn)視頻
    換一換