精品人妻一区二区乱码_欧美涩爱一区二区_国产精品高清在线观看93_成人爽成人免费视频_国产欧美中文字幕_好硬好湿好爽好深视频_久久大香香蕉国产_少妇一级婬片免费放真人_全黄性高视频_色狠狠一区二区三区香蕉,国产片在线观看天堂av,国产亚洲欧美日韩在线一区二区三区 ,国产亚洲中文在线字幕

財經(jīng)

豆包視頻生成大模型正式發(fā)布,首次突破多主體互動難關(guān)

2024/09/24 21:03 來源:中國新聞網(wǎng) 閱讀:5.3萬

      字節(jié)跳動正式宣告進(jìn)軍AI視頻生成,。9月24日,,字節(jié)跳動旗下火山引擎在深圳舉辦AI創(chuàng)新巡展,一舉發(fā)布了豆包視頻生成-PixelDance,、豆包視頻生成-Seaweed兩款大模型,,面向企業(yè)市場開啟邀測。

  活動現(xiàn)場展示的視頻生成效果令人驚嘆,。無論是語義理解能力,,多個主體運動的復(fù)雜交互畫面,還是多鏡頭切換的內(nèi)容一致性,,豆包視頻生成大模型均達(dá)到業(yè)界先進(jìn)水平,。火山引擎總裁譚待表示,,“視頻生成有很多難關(guān)亟待突破,。豆包兩款模型會持續(xù)演進(jìn),,在解決關(guān)鍵問題上探索更多可能性,加速拓展AI視頻的創(chuàng)作空間和應(yīng)用落地,?!?/span>

  此前視頻生成模型大多只能完成簡單指令,豆包視頻生成模型則能實現(xiàn)自然連貫的多拍動作與多主體復(fù)雜交互,。有創(chuàng)作者在搶鮮體驗豆包視頻生成模型時發(fā)現(xiàn),,其生成的視頻不僅能夠遵循復(fù)雜指令,讓不同人物完成多個動作指令的互動,,人物樣貌,、服裝細(xì)節(jié)甚至頭飾在不同運鏡下也保持一致,接近實拍效果,。

  據(jù)火山引擎介紹,,豆包視頻生成模型基于DiT架構(gòu),通過高效的DiT融合計算單元,,讓視頻在大動態(tài)與運鏡中自由切換,,擁有變焦、環(huán)繞,、平搖,、縮放、目標(biāo)跟隨等多鏡頭語言能力,。全新設(shè)計的擴(kuò)散模型訓(xùn)練方法更是攻克了多鏡頭切換的一致性難題,,在鏡頭切換時可同時保持主體、風(fēng)格,、氛圍的一致性,,這也是豆包視頻生成模型獨樹一幟的技術(shù)創(chuàng)新。

  經(jīng)過剪映,、即夢AI等業(yè)務(wù)場景打磨和持續(xù)迭代,,豆包視頻生成模型具備專業(yè)級光影布局和色彩調(diào)和,畫面視覺極具美感和真實感,。深度優(yōu)化的Transformer結(jié)構(gòu),,則大幅提升了豆包視頻生成的泛化能力,,支持3D動畫,、2D動畫、國畫,、黑白,、厚涂等多種風(fēng)格,適配電影,、電視,、電腦,、手機(jī)等各種設(shè)備的比例,不僅適用于電商營銷,、動畫教育,、城市文旅、微劇本等企業(yè)場景,,也能為專業(yè)創(chuàng)作者和藝術(shù)家們提供創(chuàng)作輔助,。

  目前,新款豆包視頻生成模型正在即夢AI內(nèi)測版小范圍測試,,未來將逐步開放給所有用戶,。剪映和即夢AI市場負(fù)責(zé)人陳欣然認(rèn)為,AI能夠和創(chuàng)作者深度互動,,共同創(chuàng)作,,帶來很多驚喜和啟發(fā),即夢AI希望成為用戶最親密和有智慧的創(chuàng)作伙伴,。

  此次活動中,,豆包大模型不僅新增視頻生成模型,還發(fā)布了豆包音樂模型和同聲傳譯模型,,已全面覆蓋語言,、語音、圖像,、視頻等全模態(tài),,全方位滿足不同行業(yè)和領(lǐng)域的業(yè)務(wù)場景需求。

  在產(chǎn)品能力日益完善的同時,,豆包大模型的使用量也在極速增長,。據(jù)火山引擎披露,截至9月,,豆包語言模型的日均tokens使用量超過1.3萬億,,相比5月首次發(fā)布時猛增十倍,多模態(tài)數(shù)據(jù)處理量也分別達(dá)到每天5000萬張圖片和85萬小時語音,。

  此前,,豆包大模型公布低于行業(yè)99%的定價,引領(lǐng)國內(nèi)大模型開啟降價潮,。譚待認(rèn)為,,大模型價格已不再是阻礙創(chuàng)新的門檻,隨著企業(yè)大規(guī)模應(yīng)用,,大模型支持更大的并發(fā)流量正在成為行業(yè)發(fā)展的關(guān)鍵因素,。

  據(jù)譚待介紹,業(yè)內(nèi)多家大模型目前最高僅支持300K甚至100K的TPM(每分鐘token數(shù)),難以承載企業(yè)生產(chǎn)環(huán)境流量,。例如某科研機(jī)構(gòu)的文獻(xiàn)翻譯場景,,TPM峰值為360K,某汽車智能座艙的TPM峰值為420K,,某AI教育公司的TPM峰值更是達(dá)到630K,。為此,豆包大模型默認(rèn)支持800K的初始TPM,,遠(yuǎn)超行業(yè)平均水平,,客戶還可根據(jù)需求靈活擴(kuò)容。

  “在我們努力下,,大模型的應(yīng)用成本已經(jīng)得到很好解決,。大模型要從卷價格走向卷性能,卷更好的模型能力和服務(wù),?!弊T待表示。



責(zé)任編輯:郜奇英

社區(qū)文化網(wǎng)