AI 视频是字节的主场_
有个挺明显的体感。到了下半年,视频模型、视频创作工具密集出现。
无论是国内还是国外,AI 视频模型快速跨越到了成熟的临界点。
2025 年,视频生成也成为了一个杀手级的应用场景。
1
今天,火山引擎正式发布了最新的豆包视频生成模型 Seedance 1.5 pro。我先总结下它更新哪些新能力。
第一,原生音画同步。
这一点,是 Seedance 1.5 pro 最核心的变化。之前的视频模型,只能生成画面,创作者需要在后期阶段自己配音、补音效。
我一直记得抖音早期一个很重要的认知:声音是视频最好的滤镜。只要有声音,整个视频就会灵动起来。
现在,Seedance 1.5 pro 开始支持音频和画面同步生成。我自己测试下来,感觉效果很逼真。
音画同步主要考验两个能力,一是人物的口型是否符合物理规律。二是环境音是否恰到好处。这两方面,1.5 pro 都很不错。
提示词(可上下滑动查看):
人物设定:一名年轻亚洲男性,短发,五官清晰、比例自然,服装日常,光线均匀,无夸张妆容,面部身份保持一致,不允许漂移或比例变化
场景与环境:室内咖啡馆,柔和自然光,有轻微背景人声、咖啡机蒸汽声、餐具碰撞声,镜头中景到中近景,头肩以上为主,人物面对镜头,偶尔微微偏头或扫视桌面/咖啡杯,模拟与朋友交流
台词设计:台词自然口语化,示例:“对了,你负责的项目我昨天看了下,进展比我预想的快很多。” 语气平稳,带轻微停顿和呼吸节奏,嘴型、舌位、下颌动作与语音逐音节同步
环境音同步: 咖啡机蒸汽声、轻微人声、餐具碰撞声与台词同步,动作与环境音呼应,例如人物举杯或搅拌咖啡时伴随轻微碰撞声前后景远近声差清晰,增强空间感
动作与微动作:面部表情随台词自然变化,轻微头部偏转、手部动作与台词节奏同步,镜头可轻微跟随动作,但不影响口型对齐,通过手势、眼神和微动作增加互动感
画面风格:写实主义摄影风格,光影柔和,面部和嘴部清晰,保持视觉连续性和真实感,人物动作与环境逻辑自然

按住画面移动小窗
第二,更复杂的运镜和动态场景。
Seedance 1.5 pro 已经可以处理比较复杂的镜头调度,比如长镜头跟随、快速切换视角,甚至带着情绪节奏的镜头推进。
在动态场景里,人物在高速运动,镜头在切换,背景在变化,声音也会随之调整,而不是始终贴着一层固定的背景音。
这种场景对模型的要求其实很高。动作、镜头、声音只要有一个地方慢半拍,整体观感就会立刻塌掉。
提示词:
雪山高处的陡坡上,圣诞老人身穿经典红色滑雪服与白色毛边斗篷,戴着护目镜,双手拿着滑雪杖,从山脊高速滑下。滑雪动作专业而流畅,在厚实积雪中快速转弯、压边、跳跃,小雪粉在身后被扬起。强烈的寒风吹动胡须与衣摆,阳光从云层间洒下,在雪地上形成清晰高光与阴影。镜头跟随圣诞老人滑行,进行贴地追拍与侧后方跟拍,强调速度感与坡度变化。画面真实、有重量感,同时保留温暖的圣诞氛围,整体呈现电影级写实滑雪场景。背景音乐动感一些。

按住画面移动小窗
第三,多人多语言对白。
这一点其实不用多解释。只要是叙事型的 AI 视频,多人对话一定是核心场景。
现在,Seedance 1.5 pro 已经可以支持多角色对白,而且不只是普通话、英语、韩语等语种,除此之外,它还能处理中文语境里的不同方言,像四川话、粤语都已经可以了。
对真实创作来说,这一步意味着我们可以让角色之间有机的互动了。
比如下面的四川话:

按住画面移动小窗
第四,它开始把表达本身当成目标,而不只是生成画面素材。
这是我一个非常明显的感觉。从官方示例里就能感觉到,Seedance 1.5 pro 并不急着用极端风格去吸引注意力,它开始关注表达的完整性。
比如人物特写里的微表情变化,即使没有台词,情绪也能自然延续。
再比如短对白场景,声音的节奏和画面的推进是同步的,而不是各自独立。这种能力,单看一帧可能不惊艳,但确实是创作的基本功。
提示词:
明显的荷兰角构图,摄像机倾斜约 45 度。场景是一个阴暗潮湿的地下室,一名神情癫狂的反派正在对着镜子大笑。倾斜的构图制造出强烈的不平衡感和心理不安。光影对比强烈,只有一束顶光打在人物脸上,周围是扭曲的阴影。画面传达出混乱、危机和非正常状态的心理张力。

按住画面移动小窗
现在,Seedance 1.5 pro 已经上线到了火山方舟体验中心,企业API 也即将在12月23日开放,个人用户可以直接在豆包和即梦app体验,大家感兴趣可以去试。
2
我们再看一些案例。
1. 情绪和对白
提示词(可上下滑动查看):
主体:一位年轻的亚洲女性研究员,穿着凌乱的白色实验服,头发散乱地贴在额头上。她处于极度崩溃的边缘,眼眶通红,泪水混合着汗水流下面颊。
动作与对白:她绝望地摇头,眼神中充满了被背叛的难以置信。她声音颤抖,带着哭腔质问镜头:“不……这跟计划的不一样!你答应过放他们走的……你到底是什么人?!”
运镜: 极近距离面部特写,景深极浅,焦点完全锁定在她颤抖的嘴唇和充满泪水的眼睛上。
风格: 诺兰电影风格,高颗粒感,压抑,真实感。
镜头 2:癫狂的嘲讽(男性视角)
主体: 一位穿着昂贵但稍微有些褶皱的深色西装的亚洲男性,面部有明显的疤痕或纹身,眼神锐利如刀。背景站着两个模糊的黑衣保镖。
动作与对白:他先是爆发出一阵癫狂的、令人毛骨悚然的大笑,头部后仰,甚至笑出了眼泪。突然,他瞬间收敛所有笑容,猛地将脸凑近镜头,眼神变得冰冷死寂,低声说道:“哈哈哈哈!……你真的以为,我是在跟你做慈善吗?”
运镜: 稍微仰视的镜头,强调他的压迫感。在笑声停止的那一刻,镜头快速推近。
风格: 高对比度,邪恶,甚至带有一丝病态。

按住画面移动小窗
2. 房间装修
提示词(可上下滑动查看):
演变过程(由快到慢):
初始状态:0-2秒,房间是冰冷粗糙的灰色水泥毛坯墙面和地面,只有窗户透进来的冷光。
硬装阶段:2-5秒,暖色的原木地板像流水一样从画面底部迅速铺满整个房间;墙壁瞬间由灰变白,刷上了细腻的米白色乳胶漆。
软装进场:5-10秒,家具以定格动画的方式凭空弹出:先是一张米色亚麻沙发“跳”入位置,接着是蓬松的地毯铺开,随后实木茶几、落地灯、绿植依次出现。
光影变化: 在整个过程中,窗外的光线从清晨的冷白光快速过渡到黄昏的金色暖阳,阳光的投影在房间内快速扫过。
最终定格: 最后2秒,画面恢复正常速度,微风吹动白色的纱帘,阳光洒在沙发上,呈现出极致温馨的居家氛围。光线追踪渲染。

按住画面移动小窗
3. 四川话
提示词(可上下滑动查看):
画面中只有孙少安和他的妻子两个人,没有其他人物。孙少安形象贴近电视剧版本,年轻农村农民,皮肤黝黑,脸部轮廓坚硬,短发,穿旧棉衣,神情压抑而倔强。
他的妻子形象贴近电视剧版本,朴素农村妇女,头发简单扎起,穿旧布衣,神情委屈又带着不甘。
两人用四川方言发生激烈争执,语气生活化,情绪强烈但克制,没有夸张表演。孙少安坐在低矮木桌旁,压低声音却语气强硬,说话间握紧拳头,目光躲闪又固执。妻子站在一旁,用四川方言反驳,声音略高,眼眶微红,双手攥着衣角。
镜头在两人之间缓慢移动,以近景和中近景为主,重点捕捉表情变化。油灯火焰轻微晃动,光影在土墙上摇曳,空间狭小而压抑。
现实主义风格,偏写实动画质感,人物比例真实,动作自然。
无配乐,环境安静,只剩下争吵声与油灯燃烧的细微声响。

按住画面移动小窗
4. 沉浸式镜头与好莱坞级特效
提示词(可上下滑动查看):
动作:墙壁突然被一只巨大的生化机械生物猛烈撞裂,碎片四溅,红色警报灯闪烁,警报声骤响,蒸汽喷涌。
镜头反应:摄像机下意识剧烈后退、左右摇晃,拍摄者惊慌、呼吸急促。 生物:多只生化机械生物从裂开的墙缝中冲出,动作僵硬而危险,机械与生物结构混合,火花四溅,金属摩擦尖锐,蒸汽烟雾弥漫,带强烈威胁感。
氛围:低光环境,明暗对比极强,实验室充满压迫与恐怖,像真实意外记录下的惊悚科幻现场。
风格:写实科幻恐怖,纯视觉叙事,无旁白,第一人称手持摄像机视角,突出紧张、惊悚和临场感。

按住画面移动小窗
5. 多人物一致性
提示词(可上下滑动查看):
晨光穿透薄雾,映在他们专注而疲惫的脸上,光影斑驳,偶尔映出远处群山轮廓。行进中有人互相低声交谈,呼吸沉重,动作小心,步伐缓慢但坚定。
背景有轻微风声、鸟鸣与远处溪流潺潺声,空气中弥漫泥土和湿草的气息,增强沉浸感。
镜头缓慢穿行在队伍之间,近景与中近景交替,偶尔拉远展现蜿蜒山路与开阔环境,捕捉人物表情、手部动作与队伍动态。
光影与氛围:低饱和自然色调,晨雾与金色阳光交织,营造安静而神秘的视觉氛围。
声音:无配乐或轻柔自然环境声为主,仅有呼吸声、衣物摩擦声与脚步声,突出真实感和沉浸感。
整体风格:现实主义写实动画或影片质感,人物比例真实,动作自然,画面氛围宁静而略带紧张,像剧情片或纪录片的细腻镜头语言。

按住画面移动小窗
6. 简笔动画
提示词(可上下滑动查看):
元素与动作:一只亮色纸飞机缓缓出现在画面中央,轻微晃动,慢慢升空,划出流畅弧线,带浅蓝或淡黄风线表示空气流动。小人以简笔画风格出现,鲜明色衣服,奔跑起来,腿部轻微拉伸表现节奏,顺势跳起抓住纸飞机,坐上去,动作自然连贯。
镜头:平滑跟随纸飞机和小人动作,近景捕捉奔跑与跳跃细节,远景展示飞行轨迹与背景。
光影与特效:线条干净,加入弧线、风线、星星或小云朵动效,用柔和彩色点缀,增强飞行感与趣味性。
风格:创意简笔画,线条细腻,动作夸张生动,色彩亮丽协调,背景极简,突出趣味和轻快感。
声音(可选):轻快风声、纸飞机滑行声、小人跳跃声或拟声词“嗖”“扑通”,增强动态感。
整体效果:画面清爽简洁,动作自然连贯,色彩亮丽协调,充满创意与幽默感,像现代手绘短片动画。

按住画面移动小窗
7. 手持手机拍摄
提示词(可上下滑动查看):
人物设定:单一人物,外观自然、日常,无明显妆效或舞台化造型,人物始终面向镜头,但视线允许偶尔轻微偏移(符合真实自拍习惯)
人物行为与台词内容:人物以轻松、随意的语气 对着镜头说话,表达方式像是在跟朋友分享一件刚发生的小事,台词为连续自然口语,包含:停顿、语气词、轻微的自我修正 示例台词风格: “刚刚真的有点没想到啊”、“本来以为很简单,结果比我想的复杂一点”、“不过后来想想,其实也还好,就是一开始有点紧张”
台词节奏要求:不匀速、有自然停顿、不像背稿或演讲
严格技术约束:在镜头轻微晃动的情况下,人物嘴型必须与语音保持精确同步,不允许出现画面稳定但口型漂移,不允许出现音频驱动滞后补偿的假同步效果,面部结构在整个视频中保持稳定,不因晃动产生错位
整体风格要求: 画面、表演、节奏都应接近真实短视频平台的日常自拍视频,避免任何 AI 演示感、宣传片感或刻意设计的镜头语言
8. 长文本语音的人物表现力与稳定性
提示词(可上下滑动查看):
场景为真实室内生活环境,中近景到中景构图,上半身为主。摄影机整体保持稳定,仅允许非常轻微、自然的人物跟随,不使用戏剧化运镜。
视频前半段人物基本静止,仅有自然呼吸、眨眼和轻微头部动作,情绪冷静、理性,表情克制,语气平稳,语速均匀。
后半段情绪出现清晰但不过度的变化(紧张或激动),人物产生合理且连续的小幅位移,例如向前迈一步、身体明显转向一侧或靠近桌子或窗边,位移过程自然连贯,不允许瞬移或位置跳变。
情绪变化通过眉部、眼神、嘴角和下颌等细微肌肉,以及语调起伏与语速变化体现,不出现夸张表演。
严格要求人物身份在整个视频中保持完全一致,不允许因情绪变化或位移导致脸型、五官比例或外貌特征变化,不出现面部重绘、漂移或换人感。整体风格接近真实纪录或访谈画面,避免动画感和 AI 演示感。
9. 正反打镜头
提示词(可上下滑动查看):
两个人面对面坐在桌子两侧,室内,光线稳定
镜头结构:
第一个镜头:中近景,拍摄人物 A,摄影机位于人物 B 的肩后(轻微过肩)
第二个镜头:切换为人物 B 的中近景,摄影机位于人物 A 的肩后
空间与视线约束:必须严格遵守 180° 轴线原则,切换镜头后,人物视线方向保持连贯,桌子、背景位置在两个镜头中逻辑一致
表演与同步:当前发言者嘴型与语音精准同步,非发言者不说话,仅保留自然反应
剪辑要求:切镜必须干净,不允许出现位置跳变或人物身份错乱
10. FPV无人机视角
提示词:
FPV无人机视角,超广角镜头。在茂密的热带雨林中极速飞行,快速穿过狭窄的树枝缝隙,阳光透过树叶洒下斑驳光影。镜头剧烈翻转、俯冲,掠过湍急的河流表面,激起水花。画面具有极强的速度感和冲击力,运动模糊适中,60帧流畅感,GoPro Hero 11 拍摄风格。
3
我搜到了相关的技术报告。
地址如下:
https://arxiv.org/pdf/2512.13507
强烈推荐大家看看。昨晚我在飞机上精读了一次。如果大家关注字节豆包对于视频模型的思考,那我觉得这个论文是最好的一手素材。我先分享下自己的笔记。
1、Seedance 1.5 pro 不是一个 “先生成视频、再配声音” 的拼装方案,而是一个原生的音画联合生成基础模型。也就是说,它从架构上就把视频和音频当成一件事来生成。
2、为什么他们要把 “原生音画联合” 当成主线?
一个判断是:过去一年视频生成发展极快,但最近大家开始往更深的多模态走,音频能力变成视频生成从好看的画面素材迈向可以直接拿来用的作品的关键一步。
纯视频已经不够了,用户需要的是音画一体的完整片段。
3、技术方面,按论文结构可以拆成四块:数据、架构、后训练、推理加速。
4、第一块是数据框架。豆包做了一个覆盖高质量音画生成的整体数据体系:多阶段清洗/筛选管线、先进的字幕与描述系统、以及支撑大规模多模态处理的工程化基础设施。
这里有两个关键词特别重要:一个是音画一致性,另一个是课程式的数据调度。
豆包的做法不是把所有数据一股脑喂进去,而是希望用更像教学的方式,从更简单、更一致、更容易学到同步关系的数据开始,再逐步提高复杂度。
5、还有一个关键点是他们的 captioning。captioning 其实就是模型训练时用的说明书,用来告诉模型,这段视频和声音到底在发生什么。
过去大多数视频模型里的 caption,会解释这段视频里有什么。 一个人,在走,在说话,在室内,有灯光。但这种描述,够用来理解画面,但远远不够用来理解视频。
Seedance 1.5 pro 中的captioning,试图用语言,把一个视频片段里的关键信息说清楚,包括镜头、声音和环境。
这样,训练时的 caption 本身就包含镜头语言、声音状态和情绪语境,模型在生成时,就更容易把用户的一句话,翻译成一整套画面和声音的组合。
6、第二块是架构。论文说他们基于 MMDiT 做了统一的多模态联合生成框架,用深度跨模态交互来保证时间同步和语义一致。
这类表述如果翻成人话,就是:豆包不满足于视频模型输出一条时间序列、音频模型输出另一条时间序列,然后靠对齐工具去拼。
他们要在模型内部就建立视频和音频之间的对应关系,让画面里的动作、说话、口型、音效触发点、音乐氛围这些东西,在生成时就互相约束。
论文摘要里提到的是 “双分支的 Diffusion Transformer”,并且有一个跨模态联合模块,说明至少在结构上是把两路(音频/视频)同时考虑的。
7、第三块是后训练。豆包明确用了高质量数据做 SFT,然后又做了针对音画场景的 RLHF,而且是多维度奖励模型。
这意味着他们把目标拆成多个维度去奖励:比如运动质量、审美、音频保真、同步、表达力等等。
论文还提了一句 “针对 RLHF 基础设施的优化让训练速度接近提升 3 倍”,这个信息蛮重要,我不知道其他团队是什么情况,至少我觉得现阶段,能不能快迭代也是核心竞争力。
8、第四块是推理加速。论文说他们做了多阶段蒸馏来减少 NFE(可以理解为扩散采样步数/函数评估次数),再叠加量化和并行等工程优化,让端到端推理速度提升超过 10 倍,同时尽量保持性能。
9、接下来是评测部分,我反而觉得这是这篇论文里最有价值的地方之一。因为它很少见地把一个问题摊开来说清楚了:豆包大模型内部到底怎么定义好视频,以及怎么定义好声音。
在视频维度上,他们当然还是会看一些常规指标,比如运动是否稳定、画面是否对齐、美学表现、主体一致性。但这次很明显地往前走了一步,引入了一组更贴近真实制作的评测标准。
核心升级,是他们新增了一个叫 video vividness 的指标,可以理解为视频的动态表现力。
论文里点了一个行业里挺常见、但很少被明说的问题:不少视频模型为了追求稳定,会刻意放慢动作节奏。
这样做的结果是画面看起来不抖了,但真实世界里的动势和张力也被一并牺牲掉了。在广告、影视、短剧这些场景里,这样的视频反而是不成立的。
所以豆包大模型把 vividness 拆成了几个可以被观察的维度来评测,包括动作、镜头、氛围和情绪。
动作层面,关注的是微表情、身体姿态、细节动作,以及人物和环境之间的互动是否自然;镜头层面,看的是构图和镜头运动本身,以及这些镜头变化是否在服务叙事,而不是单纯为了炫技。
这套评测方式,其实已经不太像是在给模型打分了,更像是在用真实拍视频的标准,去反推模型哪里还不够用。
也正是在这里,能明显看出豆包对视频模型的期待,并不是稳和清晰就够了,而是要有真正的动态表达能力。
音频维度,他们把评测拆成四块:音频提示词遵循、音频质量、音画同步、音频表达力。
这里的失败模式写得很清楚:漏掉指定音效、语言/方言不准、音画不匹配(比如嘴不动但有说话声)。质量看是否有破音、截断、空间感、音色真实、清晰度。
同步不仅看口型,还看音效和视觉事件对齐,以及是否有对应动作的听觉线索。表达力则看背景音乐是否合题、说话的情绪起伏、以及声音对氛围与叙事的贡献。
如果你跟我一样经常关注视频模型,那我觉得关注模型方对于好视频的定义是一个关键点。审美决定一切。
10、另一个很关键的是他们对提示词遵循的重新定义:不再只看关键词是否逐字实现,而是更看是否符合用户意图。
甚至允许模型做一些意图一致的创作扩展,比如补全缺失细节、优化叙事结构、生成更匹配情绪的对白,只要不偏离核心意图。
4
视频一直是字节跳动的主场。他们每天面对的都是海量真实视频。
我觉得字节这家公司对视频的理解,肯定不是一镜到底的艺术创作,而是镜头、节奏、音画关系的组合问题。
因为这些视频,每天都会接受用户无数次的选择和审视。多镜头怎么切,远景近景什么时候换,配音和画面延迟一点点都会让用户划走,这些要素在短视频时代都是生死线。
而在 AI 时代,字节这些对视频结构化的理解,又是很好的养料。它们每天都在抖音、剪映、即梦、豆包这些产品里,被用户用停留和划走反复验证。
所以,无论是 Seedance 1.5 pro,还是以后更新一代的模型,本质都是字节把多年积累下来的视频理解,逐步转化为可复用的模型能力。
最后再通过火山引擎,以 ToB 的方式,对其他企业开放。
视频模型现在发展很快。放眼到国内,能够整个跟上节奏的互联网公司,一只手就能数的过来。字节肯定是其中最有后劲的角儿。