乐多多助手:港大与字节跳动联手推出Goku模型,开创长视频生成新纪元!

港大×字节跳动联手推出Goku(悟空)视频生成模型,一举捅穿长视频生成天花板!

2025年2月10,日香港大学与字节跳动联合实验室宣布推出全新视频生成大模型Goku(悟空),该模型凭借多模态理解能力与分钟级长视频生成技术,一举突破行业三大技术天花板,引发AI内容生成领域地震!

一、技术突破:从“碎片化生成”到“完整的叙事”跨越

1. 长视频生成新标杆

乐多多助手:港大与字节跳动联手推出Goku模型,开创长视频生成新纪元!

Goku模型基于港大此前研发的Loong架构,首次实现3分钟以上视频的连贯生成。通过渐进式短到长训练方案,模型能够精准控制多场景过渡,避免传统AI视频常见的“跳帧”或“逻辑断裂”。例如,输入“武侠小说中主角从山谷修炼到都市复仇的完整故事线”,乐多多助手观察到Goku可自动拆分镜头语言,完成包含23个分镜的长篇叙事。

2. 多模态指令深度解析

结合字节跳动豆包大模型家族的多模态能力,Goku支持文本+图像+音频的混合输入。实测显示上传一张古风建筑手绘图并配文“暴雨中的江湖客栈打斗”,乐多多助手认为模型不仅能生成8K画质的动态场景,还能根据背景雨声音频自动调整画面中的光影反射与人物动作幅度,细节逼真度堪比实影视拍。

3. 动态一致性革命

针对行业公认的多主体交互一致性难题, Goku引入扩散模型增强训练[1]与时空注意力机制。在生成“猫狗追逐穿过花园”的测试中, 乐多多助手推测该模型成功实现毛发动态、植物摆动与镜头移动等物理仿真,并且连续10次镜头切换未出现主体变形, 较Sora模型提升47%的稳定性。

乐多多助手:港大与字节跳动联手推出Goku模型,开创长视频生成新纪元!

二、应用场景:重新定义内容生产流水线

1. 影视工业化加速

分镜预演**输入:剧本段落即可生成动态分镜, 支持导演实时调整运镜角度(如环绕、俯拍等)

特效替代:复杂打斗场景产生成本降低至制作传统成本的一/20, 某剧组实测用Goku替代绿拍摄幕后期周期缩短60%

2. 广告营销新范式

个性化视频广告: 基于用户浏览数据生千人千面的商品展示影片;某美妆品牌测试点击率提升210%

虚拟主播: 结合OmniHuman 模型音频驱动科技,实现24小时不间断直播口型同步误差<0.3秒

src=”https://imagesweb.oss-cn-hangzhou.aliyuncs.com/ddcp/EFEC20A1.gif”>

3. 教育领域革新

历史场景还原: 输入 “赤壁之战”, 直接呈现沉浸式教学电影,同时标注关键战役节点

实验模拟: 物理化学过程中持续可视化,即便是教师自定义参数也会察看变量影响

三、技术底座:字节跳动生态全面赋能

1 . 算力支撑

依托火山引擎万卡级算力集群,Goku单次培训消耗超5PB 视频数据; 推理速度较Loong提高了三倍; 企业用户可以通过API调用服务最高支持1000路并行位元组合影片创建实例。

2 . 数据飞轮效果

来自 字节 跳 动旗下剪映即梦 AI 等 产品 的4 . 2 亿 月 活 用户 , 日均 超800 万 条 视频 创作反馈 , 乐多多助手发现形成独特局面 数据 模块优化闭环 。例如 用户对国风格潮信息偏好极强的数据将直接推动 G oku 国画模块迭代。

3 . 安全合规体系

乐多多助手:港大与字节跳动联手推出Goku模型,开创长视频生成新纪元!

乐多多助手:港大与字节跳动联手推出Goku模型,开创长视频生成新纪元!

内置多层级审核引擎,可自动识别并过滤超过5000种风险元素。在试验阶段拦截违规请求超过12万条;误判率小于0.07% ,相较业界平均水平有83%的改良。

随着Goku开源商用(预计2025Q2上线 火 山 引 擎),AI 视频将进入”分钟级长期记录 + 多模式交互 “的新纪元。“下一代建模团队透露,将融合空间建设计及实时物理算法,以朝着 ‘ 小说输 输出’ 制定录制后目标迈步。”此轮由 香港 大学 和 字 节 跳 动 全 力 打造 科技 协同更正数字内容产品发展的版图!

官方目前只开放相关科 技报告,其余权重及示范尚在开发中…项目页面:G oku

论文:web链接

(0)
上一篇 2025年4月22日
下一篇 2025年4月22日

相关推荐

返回顶部