当前位置:首页 > 清远分析 > 正文内容

字节豆包直面AI视频降本难题,压力给到了谁?

admin7个月前 (10-22)清远分析923

每经记者 杨昕怡    每经编辑 魏官红    

自Sora横空出世开辟AI视频的新纪元以来,国内外各大玩家陆续加入AI视频的竞逐赛。但是,当进入这一更交互、更沉浸的视频新时代,又该如何应对成本、质量和性能方面的挑战?

10月15日,火山引擎联合英特尔共同在视频云技术大会上发布了大模型训练视频预处理方案。《每日经济新闻》记者在发布会现场了解到,目前该技术方案已应用于豆包视频生成模型。

发布会上,Bytedance Research负责人李航介绍,豆包视频生成模型PixelDance在训练过程中采用了火山引擎的大模型训练视频预处理方案,充分利用了大量潮汐资源,为模型训练提供了有力支撑。

此外,抖音集团视频架构负责人王悦透露了字节自研视频编解码芯片的最新进展:经过抖音集团内部的实践验证,该芯片在同等视频压缩效率下,成本节省了95%以上。

“首先,超大规模视频训练数据集导致计算和处理成本激增。”王悦指出,大模型厂商在预处理过程中面临诸多挑战,“其次是视频样本数据参差不齐,然后是处理链路环节多、工程复杂,最后还面临着对GPU、CPU、ARM等多种异构算力资源的调度部署。”

自研多媒体处理框架

在9月24日的火山引擎AI创新巡展上,PixelDance和Seaweed两款豆包视频生成大模型一并发布,吸引业内外人士关注。其实,字节跳动在视频生成模型上下的功夫不止于此。

10月15日,火山引擎发布了大模型训练视频预处理方案,致力于解决视频大模型训练的成本、质量和性能等方面的技术挑战。

据介绍,对训练视频进行预处理是保障大模型训练效果的重要前提。预处理过程可以统一视频的数据格式、提高数据质量、实现数据标准化、减少数据量以及处理标注信息,从而使模型能更高效地学习视频中的特征和知识,提升训练效果和效率。

在视频生成模型的训练中,算力成本无疑是首屈一指的挑战。

一位国内视频生成模型的算法工程师在接受《每日经济新闻》记者采访时表示,在拥有高质量数据后,视频模型会比大语言模型更难训练,有更多的算力需求,“目前已知的开源视频模型没有特别大,主要是目前很多视频模型处于不知道如何使用数据的阶段,(用于训练的)高质量数据也没有特别多”。

计算机科学家 Matthias Plappert的研究也显示,Sora的训练对算力规模需求巨大,在训练环节大约需要在4200~10500张NVIDIA H100上训练1个月,且当模型生成到推理环节以后,计算成本将迅速超过训练环节。

为了解决降本难题,火山引擎借助Intel的CPU等资源,将大模型训练视频预处理方案依托于自研的多媒体处理框架。王悦表示,该方案还在算法和工程方面进行了调优,可以对海量视频数据进行高质量预处理,短时间内实现处理链路的高效协同,提高模型训练效率。

对于该方案的应用,李航在发布会现场透露,豆包视频生成模型PixelDance在训练过程中已采用该方案。同时,火山引擎视频云团队提供的点播解决方案还为PixelDance生产的视频提供了从编辑、上传、转码、分发、播放的全生命周期一站式服务,让模型的商业化应用有了保障。

此外,在此次发布会上,火山引擎还发布了跨语言同声复刻直播方案、多模态视频理解与生成方案、对话式AI实时交互方案和AIG3D&大场景重建方案,从视频的生产端、交互端到消费端,全链路融入AI能力。

AI视频去向何方?

AI正全方位重塑人们生产、传播和接受信息的路径。其中,不断涌现的视频新技术将人们从流畅、高清的数据世界带入了更加智能、更具交互体验的AI世界。

今年7月,商汤推出了首个面向C端用户的可控人物视频生成大模型Vimi;8月,MiniMax发布了视频生成模型video-1;9月,可灵AI完成第九次迭代,发布“可灵1.5模型”,阿里云在云栖大会上推出全新的视频生成模型,字节也发布了2款视频生成模型。AI视频产品的诞生和迭代几乎是以月来计时的。

对于AI视频产品的“爆发”,北京市社会科学院副研究员王鹏在接受《每日经济新闻》记者采访时表示,国内AI视频产品正处于快速发展和不断迭代的阶段,主要因为市场需求旺盛、应用场景广泛和商业化模式多样等。

目前市场上AI视频产品的落地大多在影视、电商营销等领域,例如今年7月,即梦AI和博纳影业合作推出了全国首部AIGC生成式连续性叙事科幻短剧集《三星堆:未来启示录》;今年9月,快手联合贾樟柯、李少红等9位知名导演启动“可灵AI”导演共创计划。

工信部信息通信经济专家委员会委员盘和林向《每日经济新闻》记者指出,如今部分AI视频产品处于导入期,因为技术或合规性,很难在市场上铺开,“目前感觉开源(AI视频产品)比闭源的更受欢迎,因为AI视频生成的成本很高,而视频制作者往往缺少资金,所以利用开源的、下载到终端的AI算法可以更好地制作生成视频”。

在他看来,现阶段AI视频产品主要有算力和合规风险两方面的障碍。“算法、算力和数据方面都需要企业投入较多的资源和时间;另一难点在于合规风险,如今对隐私越来越重视,合规是绕不过去的话题,而AI视频有时可能会侵犯个人隐私。”他解释称。

此外,易观分析研究合伙人陈晨也在接受《每日经济新闻》记者采访时表达了对视频生成大模型短期变现能力的担忧,“由于AI大模型高昂的模型训练与推理成本,加之C端用户对AI工具的需求相对分散,付费意愿不足,视频大模型在C端市场的商业化仍然会面临一个较长的培育期”。

AI视频的时代来到了,但如何降本增效、拿下更多市场也将成为互联网大厂和科技企业面对的重要命题。

海量资讯、精准解读,尽在新浪财经APP

责任编辑:何松琳

扫描二维码推送至手机访问。

版权声明:本文由清远中大创新发布,如需转载请注明出处。

本文链接:https://idrdc.com/post/681.html

分享给朋友:

“字节豆包直面AI视频降本难题,压力给到了谁?” 的相关文章

摩根资产王琼慧:“A系列”指数开启配置A股新篇章,坚定看好中证“A系列”指数

摩根资产王琼慧:“A系列”指数开启配置A股新篇章,坚定看好中证“A系列”指数

炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!9月10日起,摩根中证A500 ETF正式发行,证券简称:A500ETF,证券代码:560530,认购代码:560533。发行前夕,摩根中证A500 ETF发布会在上海举行,摩根资产管理海内外的重磅嘉宾共同发表了精彩观点。摩根资...

估值1500亿美元!OpenAI据称正洽谈新一轮融资

估值1500亿美元!OpenAI据称正洽谈新一轮融资

财联社9月12日讯(编辑 黄君芝)据知情人士透露,全球人工智能(AI)领军企业OpenAI正在商谈以1,500亿美元的公司估值向投资者筹集65亿美元。据悉,新的估值(不包括筹集的资金)明显高于该公司今年早些时候要约收购中的860亿美元估值,巩固了其作为全球最有价值初创公司之一的地位。与此同时,其中一...

启迪环境研究院:“构建全面创新体制机制,实现产业深度转型升级”系列报道之创新力量篇

启迪环境研究院:“构建全面创新体制机制,实现产业深度转型升级”系列报道之创新力量篇

炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!一、国重技术转化新质生产力赋能产业高质量发展新格局近日,由启迪环境研究院承担技术服务的山西省孝义市餐厨垃圾制备生物质碳源项目开工建设。这是继今年6月份启迪环境研究院完成为期四年的国家重点研发计划“固废资源化”专项课题“城镇湿垃圾...

4.41亿元!巨头被顶格处罚,暂停经营业务6个月

4.41亿元!巨头被顶格处罚,暂停经营业务6个月

据财政部官网13日消息自2024年1月起财政部组织检查组对普华永道中天会计师事务所及其广州分所的恒大地产集团有限公司审计项目执业质量开展了专项检查财政部对普华永道做出行政处罚决定↓↓↓根据行政处罚决定,在会计师事务所方面,财政部依据《中华人民共和国注册会计师法》,对普华永道涉及恒大地产2018年审计...

事关以旧换新!河南加力支持→

事关以旧换新!河南加力支持→

河南:加力支持!大河财立方记者获悉,9月13日,河南省人民政府办公厅发布《河南省加力支持大规模设备更新和消费品以旧换新实施方案》。到2024年年底,力争完成个人消费者汽车报废和置换更新30万辆左右,家电产品以旧换新超过200万台,推动淘汰报废老旧营运货车、农业机械3000台套左右,新增新能源中重型营...

2024香港今期开奖号码马会,最新诗意解释落实_ZZ3.79.0

2024香港今期开奖号码马会,最新诗意解释落实_ZZ3.79.0

2024年对于香港来说将是重要的一年。作为中国的特别行政区,香港正处于一个历史性的转型期。作为一个国际金融中心,香港的发展更是牵动着全世界的目光。在这关键时刻,香港今期开奖号码马会的走势备受关注。除了博彩角度的分析,我们还可以从诗意、落实等多个角度来解读这个重要的事件。让我们一起探讨这个话题。诗意角...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。