当前位置:首页 > 清远分析 > 正文内容

字节豆包直面AI视频降本难题,压力给到了谁?

admin9个月前 (10-22)清远分析952

每经记者 杨昕怡    每经编辑 魏官红    

自Sora横空出世开辟AI视频的新纪元以来,国内外各大玩家陆续加入AI视频的竞逐赛。但是,当进入这一更交互、更沉浸的视频新时代,又该如何应对成本、质量和性能方面的挑战?

10月15日,火山引擎联合英特尔共同在视频云技术大会上发布了大模型训练视频预处理方案。《每日经济新闻》记者在发布会现场了解到,目前该技术方案已应用于豆包视频生成模型。

发布会上,Bytedance Research负责人李航介绍,豆包视频生成模型PixelDance在训练过程中采用了火山引擎的大模型训练视频预处理方案,充分利用了大量潮汐资源,为模型训练提供了有力支撑。

此外,抖音集团视频架构负责人王悦透露了字节自研视频编解码芯片的最新进展:经过抖音集团内部的实践验证,该芯片在同等视频压缩效率下,成本节省了95%以上。

“首先,超大规模视频训练数据集导致计算和处理成本激增。”王悦指出,大模型厂商在预处理过程中面临诸多挑战,“其次是视频样本数据参差不齐,然后是处理链路环节多、工程复杂,最后还面临着对GPU、CPU、ARM等多种异构算力资源的调度部署。”

自研多媒体处理框架

在9月24日的火山引擎AI创新巡展上,PixelDance和Seaweed两款豆包视频生成大模型一并发布,吸引业内外人士关注。其实,字节跳动在视频生成模型上下的功夫不止于此。

10月15日,火山引擎发布了大模型训练视频预处理方案,致力于解决视频大模型训练的成本、质量和性能等方面的技术挑战。

据介绍,对训练视频进行预处理是保障大模型训练效果的重要前提。预处理过程可以统一视频的数据格式、提高数据质量、实现数据标准化、减少数据量以及处理标注信息,从而使模型能更高效地学习视频中的特征和知识,提升训练效果和效率。

在视频生成模型的训练中,算力成本无疑是首屈一指的挑战。

一位国内视频生成模型的算法工程师在接受《每日经济新闻》记者采访时表示,在拥有高质量数据后,视频模型会比大语言模型更难训练,有更多的算力需求,“目前已知的开源视频模型没有特别大,主要是目前很多视频模型处于不知道如何使用数据的阶段,(用于训练的)高质量数据也没有特别多”。

计算机科学家 Matthias Plappert的研究也显示,Sora的训练对算力规模需求巨大,在训练环节大约需要在4200~10500张NVIDIA H100上训练1个月,且当模型生成到推理环节以后,计算成本将迅速超过训练环节。

为了解决降本难题,火山引擎借助Intel的CPU等资源,将大模型训练视频预处理方案依托于自研的多媒体处理框架。王悦表示,该方案还在算法和工程方面进行了调优,可以对海量视频数据进行高质量预处理,短时间内实现处理链路的高效协同,提高模型训练效率。

对于该方案的应用,李航在发布会现场透露,豆包视频生成模型PixelDance在训练过程中已采用该方案。同时,火山引擎视频云团队提供的点播解决方案还为PixelDance生产的视频提供了从编辑、上传、转码、分发、播放的全生命周期一站式服务,让模型的商业化应用有了保障。

此外,在此次发布会上,火山引擎还发布了跨语言同声复刻直播方案、多模态视频理解与生成方案、对话式AI实时交互方案和AIG3D&大场景重建方案,从视频的生产端、交互端到消费端,全链路融入AI能力。

AI视频去向何方?

AI正全方位重塑人们生产、传播和接受信息的路径。其中,不断涌现的视频新技术将人们从流畅、高清的数据世界带入了更加智能、更具交互体验的AI世界。

今年7月,商汤推出了首个面向C端用户的可控人物视频生成大模型Vimi;8月,MiniMax发布了视频生成模型video-1;9月,可灵AI完成第九次迭代,发布“可灵1.5模型”,阿里云在云栖大会上推出全新的视频生成模型,字节也发布了2款视频生成模型。AI视频产品的诞生和迭代几乎是以月来计时的。

对于AI视频产品的“爆发”,北京市社会科学院副研究员王鹏在接受《每日经济新闻》记者采访时表示,国内AI视频产品正处于快速发展和不断迭代的阶段,主要因为市场需求旺盛、应用场景广泛和商业化模式多样等。

目前市场上AI视频产品的落地大多在影视、电商营销等领域,例如今年7月,即梦AI和博纳影业合作推出了全国首部AIGC生成式连续性叙事科幻短剧集《三星堆:未来启示录》;今年9月,快手联合贾樟柯、李少红等9位知名导演启动“可灵AI”导演共创计划。

工信部信息通信经济专家委员会委员盘和林向《每日经济新闻》记者指出,如今部分AI视频产品处于导入期,因为技术或合规性,很难在市场上铺开,“目前感觉开源(AI视频产品)比闭源的更受欢迎,因为AI视频生成的成本很高,而视频制作者往往缺少资金,所以利用开源的、下载到终端的AI算法可以更好地制作生成视频”。

在他看来,现阶段AI视频产品主要有算力和合规风险两方面的障碍。“算法、算力和数据方面都需要企业投入较多的资源和时间;另一难点在于合规风险,如今对隐私越来越重视,合规是绕不过去的话题,而AI视频有时可能会侵犯个人隐私。”他解释称。

此外,易观分析研究合伙人陈晨也在接受《每日经济新闻》记者采访时表达了对视频生成大模型短期变现能力的担忧,“由于AI大模型高昂的模型训练与推理成本,加之C端用户对AI工具的需求相对分散,付费意愿不足,视频大模型在C端市场的商业化仍然会面临一个较长的培育期”。

AI视频的时代来到了,但如何降本增效、拿下更多市场也将成为互联网大厂和科技企业面对的重要命题。

海量资讯、精准解读,尽在新浪财经APP

责任编辑:何松琳

扫描二维码推送至手机访问。

版权声明:本文由清远中大创新发布,如需转载请注明出处。

本文链接:http://idrdc.com/post/681.html

分享给朋友:

“字节豆包直面AI视频降本难题,压力给到了谁?” 的相关文章

周杰伦概念股,突然重挫近80%!

周杰伦概念股,突然重挫近80%!

每经编辑 毕陆名今天上午港股市场再度出现个股暴跌,这只港股为巨星传奇。行情数据显示,巨星传奇上午开盘后不久快速下行,盘中出现数轮急跌。截至发稿,巨星传奇(HK06683)一度重挫超78%,目前跌72.78%。值得注意的是,巨星传奇目前为港股通标的股。巨星传奇自今年8月起一度进入横盘震荡阶段,在长达一...

估值1500亿美元!OpenAI据称正洽谈新一轮融资

估值1500亿美元!OpenAI据称正洽谈新一轮融资

财联社9月12日讯(编辑 黄君芝)据知情人士透露,全球人工智能(AI)领军企业OpenAI正在商谈以1,500亿美元的公司估值向投资者筹集65亿美元。据悉,新的估值(不包括筹集的资金)明显高于该公司今年早些时候要约收购中的860亿美元估值,巩固了其作为全球最有价值初创公司之一的地位。与此同时,其中一...

香港月饼香港买不到?小杨哥、曾志伟带货,罗永浩“退一赔三”!美国大幅上调对华产品关税,电动汽车上调至100%

香港月饼香港买不到?小杨哥、曾志伟带货,罗永浩“退一赔三”!美国大幅上调对华产品关税,电动汽车上调至100%

01香港月饼香港买不到?小杨哥、曾志伟带货,罗永浩“退一赔三”!据证券时报,最近,一款“香港美诚月饼”在网上火了。但这款爆火的月饼,被网友扒出并非香港生产,且在香港还买不到。“月销5000万元的香港月饼香港买不到”话题一度冲上热搜。近期多家媒体报道,知名主播疯狂小杨哥及其旗下各大主播直播间均有在售一...

2024年新澳门历史开奖记录,最新释义解释落实_模拟版4.3.61

2024年新澳门历史开奖记录,最新释义解释落实_模拟版4.3.61

2024年,澳门正式迎来了新的一轮历史开奖纪录,这不仅标志着澳门经济发展的新篇章,更彰显了这座城市多元文化的魅力。作为一个独特的行政特区,澳门自1999年回归祖国以来,一直致力于推动经济、社会、文化的全面发展,在保护传统文化的同时,积极吸收和融合各种新兴文化元素,形成了独特的文化格局。传统文化的传承...

2024年澳门码历史记录,详细解释落实_RM40.95.35

2024年澳门码历史记录,详细解释落实_RM40.95.35

澳门作为一个独特的城市,其历史发展经历了多个不同时期,从葡萄牙殖民时期到回归中国,再到现今的特别行政区,这座城市一直在不断变化和发展。其中,澳门码的历史记录更是一个极其重要的组成部分,它见证了这座城市经济、社会以及文化的变迁。2024年,澳门码的历史记录再次引起了人们的关注。这一年,澳门特别行政区政...

2024正版资料大全免费,成语解答落实_iPad51.33.37

2024正版资料大全免费,成语解答落实_iPad51.33.37

在瞬息万变的信息时代,及时掌握正版资料、准确解读成语含义,无疑是保持信息优势、提高工作效率的关键所在。《2024正版资料大全免费,成语解答落实等多要素》就是这样一部集多元知识于一身的工具书,为读者提供了一站式的信息查询服务。正版资料大全 保持信息优势信息时代瞬息万变,获取最新、最权威的资讯对个人和企...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。