当前位置:首页 > 清远分析 > 正文内容

字节豆包直面AI视频降本难题,压力给到了谁?

admin1个月前 (10-22)清远分析761

每经记者 杨昕怡    每经编辑 魏官红    

自Sora横空出世开辟AI视频的新纪元以来,国内外各大玩家陆续加入AI视频的竞逐赛。但是,当进入这一更交互、更沉浸的视频新时代,又该如何应对成本、质量和性能方面的挑战?

10月15日,火山引擎联合英特尔共同在视频云技术大会上发布了大模型训练视频预处理方案。《每日经济新闻》记者在发布会现场了解到,目前该技术方案已应用于豆包视频生成模型。

发布会上,Bytedance Research负责人李航介绍,豆包视频生成模型PixelDance在训练过程中采用了火山引擎的大模型训练视频预处理方案,充分利用了大量潮汐资源,为模型训练提供了有力支撑。

此外,抖音集团视频架构负责人王悦透露了字节自研视频编解码芯片的最新进展:经过抖音集团内部的实践验证,该芯片在同等视频压缩效率下,成本节省了95%以上。

“首先,超大规模视频训练数据集导致计算和处理成本激增。”王悦指出,大模型厂商在预处理过程中面临诸多挑战,“其次是视频样本数据参差不齐,然后是处理链路环节多、工程复杂,最后还面临着对GPU、CPU、ARM等多种异构算力资源的调度部署。”

自研多媒体处理框架

在9月24日的火山引擎AI创新巡展上,PixelDance和Seaweed两款豆包视频生成大模型一并发布,吸引业内外人士关注。其实,字节跳动在视频生成模型上下的功夫不止于此。

10月15日,火山引擎发布了大模型训练视频预处理方案,致力于解决视频大模型训练的成本、质量和性能等方面的技术挑战。

据介绍,对训练视频进行预处理是保障大模型训练效果的重要前提。预处理过程可以统一视频的数据格式、提高数据质量、实现数据标准化、减少数据量以及处理标注信息,从而使模型能更高效地学习视频中的特征和知识,提升训练效果和效率。

在视频生成模型的训练中,算力成本无疑是首屈一指的挑战。

一位国内视频生成模型的算法工程师在接受《每日经济新闻》记者采访时表示,在拥有高质量数据后,视频模型会比大语言模型更难训练,有更多的算力需求,“目前已知的开源视频模型没有特别大,主要是目前很多视频模型处于不知道如何使用数据的阶段,(用于训练的)高质量数据也没有特别多”。

计算机科学家 Matthias Plappert的研究也显示,Sora的训练对算力规模需求巨大,在训练环节大约需要在4200~10500张NVIDIA H100上训练1个月,且当模型生成到推理环节以后,计算成本将迅速超过训练环节。

为了解决降本难题,火山引擎借助Intel的CPU等资源,将大模型训练视频预处理方案依托于自研的多媒体处理框架。王悦表示,该方案还在算法和工程方面进行了调优,可以对海量视频数据进行高质量预处理,短时间内实现处理链路的高效协同,提高模型训练效率。

对于该方案的应用,李航在发布会现场透露,豆包视频生成模型PixelDance在训练过程中已采用该方案。同时,火山引擎视频云团队提供的点播解决方案还为PixelDance生产的视频提供了从编辑、上传、转码、分发、播放的全生命周期一站式服务,让模型的商业化应用有了保障。

此外,在此次发布会上,火山引擎还发布了跨语言同声复刻直播方案、多模态视频理解与生成方案、对话式AI实时交互方案和AIG3D&大场景重建方案,从视频的生产端、交互端到消费端,全链路融入AI能力。

AI视频去向何方?

AI正全方位重塑人们生产、传播和接受信息的路径。其中,不断涌现的视频新技术将人们从流畅、高清的数据世界带入了更加智能、更具交互体验的AI世界。

今年7月,商汤推出了首个面向C端用户的可控人物视频生成大模型Vimi;8月,MiniMax发布了视频生成模型video-1;9月,可灵AI完成第九次迭代,发布“可灵1.5模型”,阿里云在云栖大会上推出全新的视频生成模型,字节也发布了2款视频生成模型。AI视频产品的诞生和迭代几乎是以月来计时的。

对于AI视频产品的“爆发”,北京市社会科学院副研究员王鹏在接受《每日经济新闻》记者采访时表示,国内AI视频产品正处于快速发展和不断迭代的阶段,主要因为市场需求旺盛、应用场景广泛和商业化模式多样等。

目前市场上AI视频产品的落地大多在影视、电商营销等领域,例如今年7月,即梦AI和博纳影业合作推出了全国首部AIGC生成式连续性叙事科幻短剧集《三星堆:未来启示录》;今年9月,快手联合贾樟柯、李少红等9位知名导演启动“可灵AI”导演共创计划。

工信部信息通信经济专家委员会委员盘和林向《每日经济新闻》记者指出,如今部分AI视频产品处于导入期,因为技术或合规性,很难在市场上铺开,“目前感觉开源(AI视频产品)比闭源的更受欢迎,因为AI视频生成的成本很高,而视频制作者往往缺少资金,所以利用开源的、下载到终端的AI算法可以更好地制作生成视频”。

在他看来,现阶段AI视频产品主要有算力和合规风险两方面的障碍。“算法、算力和数据方面都需要企业投入较多的资源和时间;另一难点在于合规风险,如今对隐私越来越重视,合规是绕不过去的话题,而AI视频有时可能会侵犯个人隐私。”他解释称。

此外,易观分析研究合伙人陈晨也在接受《每日经济新闻》记者采访时表达了对视频生成大模型短期变现能力的担忧,“由于AI大模型高昂的模型训练与推理成本,加之C端用户对AI工具的需求相对分散,付费意愿不足,视频大模型在C端市场的商业化仍然会面临一个较长的培育期”。

AI视频的时代来到了,但如何降本增效、拿下更多市场也将成为互联网大厂和科技企业面对的重要命题。

海量资讯、精准解读,尽在新浪财经APP

责任编辑:何松琳

扫描二维码推送至手机访问。

版权声明:本文由清远中大创新发布,如需转载请注明出处。

本文链接:https://idrdc.com/post/681.html

分享给朋友:

“字节豆包直面AI视频降本难题,压力给到了谁?” 的相关文章

德银:非农“断崖式”转负,才是经济衰退的开始

德银:非农“断崖式”转负,才是经济衰退的开始

华尔街见闻在德意志银行看来,经济衰退的开始通常与非农就业首次转为负值的月份高度一致。当前还未出现新增就业10万以下的情况,无需担心衰退。然而,新增就业转为负增长时往往毫无征兆,并将开启一个经济下行周期。美国8月非农新增就业人口14.2万人低于预期的16.5万人,前值也被大幅下修,再添劳动力市场放缓迹...

特朗普威胁要将“作弊者”关进监狱,遭到美国选举官员的痛批

特朗普威胁要将“作弊者”关进监狱,遭到美国选举官员的痛批

财联社9月10日讯(编辑 夏军雄)美国前总统、共和党总统候选人特朗普近日再次发表争议言论,他声称若自己赢得大选,将把那些在选举中“作弊”的人关进监狱。美国选举官员当地时间周一谴责了特朗普的言论。特朗普上周六在他的社交媒体平台Truth Social上发布警告,威胁要将那些在2024年大选中“参与不道...

美国8月核心CPI意外反弹 美联储降息50基点概率几乎“归零”

美国8月核心CPI意外反弹 美联储降息50基点概率几乎“归零”

美国劳工统计局发布数据显示,8月份美国 CPI 同比上升2.5%,连续第五个月回落,符合市场预期,低于前值的2.9%;8月CPI环比上升0.2%,与市场预期和前值持平。美国劳工统计局表示,住房是整体经济增长的“主要因素”。由于住房和旅游价格上涨,美国八月份基本通胀意外上升,削弱了美联储下周大幅降息的...

五年七任总裁,华林证券高管之最

五年七任总裁,华林证券高管之最

炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!来源:券业行家在上市券商中“市净率”最高的华林证券,近期宣布主要高管离任。这家民营背景的上市券商,自2019年敲钟上市以来,已有七任首席执行官(总裁)。又一位高管离开9月6日晚间,华林证券(002945.SZ)官宣:常屹峰先生因...

全香港最快最准的资料,仔细诠释解释落实_正式版89.42.49

全香港最快最准的资料,仔细诠释解释落实_正式版89.42.49

介绍文章的背景和目的。 一、经济繁荣 介绍香港的经济特点和优势。 二、文化融合 介绍香港的文化特色和文化融合现象。 三、教育优势 介绍香港的教育体系和优势。 四、社会治理 介绍香港的社会治理体系和特点。 落实细节与创新规划 介绍相关政策和规划的重要性。 “正式版”标识及数字编号解读 解...

2024年新澳资料免费大全,精选解释解析落实_福音版43.88.51

2024年新澳资料免费大全,精选解释解析落实_福音版43.88.51

2024年即将到来,对于许多人而言,这无疑是一个崭新的开始。在这个充满希望的新时代,澳大利亚正在掀起一股积极向上的浪潮。作为一个充满活力的国家,澳大利亚正在努力推动各项改革,以期为其公民创造更加美好的生活。而在这个过程中,政府和民间团体都在积极参与,共同探寻新的发展道路。 首先,让我们来看看202...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。