vLLM Omni AI视频生成接口全解｜/v1/videos 异步视频创作接口实操指南

10次阅读

没有评论

当下AI 视频生成已经成为内容创作、短视频工具、AI应用开发的核心能力，很多开发者在对接视频生成接口时，常常面临参数繁杂、配置模糊、调用逻辑不清晰的问题。

今天给大家完整拆解 /v1/videos 异步视频生成接口，涵盖接口能力、全参数详解、优先级规则、实操调用案例，零基础也能快速上手对接AI视频生成服务。

全程干货，建议收藏留存！

一、接口核心能力概述

接口地址：POST /v1/videos

这是一个异步AI视频生成任务接口，也是主流AI视频服务的核心底层接口。区别于同步生成，该接口不会即时返回视频，而是提交任务、入队排队、后台异步渲染，适配长时长、高画质的视频生成场景，稳定性和并发能力更强。

核心特性：

请求格式固定为 multipart/form-data
支持文生视频、图生视频、视频续写、素材参考复刻
支持自定义画质、时长、帧率、AI推理参数
自带音频生成、帧插补丝滑优化、LoRA微调能力
任务化队列机制，支持状态查询、批量任务处理

二、核心参数分层详解（全覆盖）

为了方便大家理解和使用，我把数十个参数按业务场景分层归类，告别杂乱的参数列表。

1. 唯一必填参数（核心创作依据）

prompt（正向提示词）

整个视频生成的核心，用于描述画面内容、风格、光影、运镜、场景细节，无默认值，必须自定义填写，直接决定视频最终效果。

2. 多素材参考参数（复刻/续写必备）

所有参数可选，支持多素材融合，适配各类生成场景：

image_reference：参考图片地址，核心用于「图生视频」，复刻图片构图、风格、场景
video_reference：参考视频地址，用于视频续写、镜头风格复刻、动态效果模仿
audio_reference：参考音频地址，让视频画面匹配音频节奏、卡点、曲风
input_reference：通用素材参考位，兼容各类参考资源

3. 视频基础配置（尺寸/时长/帧率）

日常开发最常用的基础参数，可自由组合适配不同短视频、宣传片场景。

model：选择AI视频生成模型，不传则使用系统默认模型
seconds：视频时长（秒），仅支持正整数，是最直观的时长配置
size：快捷尺寸参数，格式如 1080×1920、720×1280
width / height：精准自定义宽高像素，优先级高于size
fps：视频帧率，常规24/30/60帧，数值越高画面越流畅
num_frames：自定义视频总帧数，可替代时长配置

4. AI推理高阶参数（画质精细化调优）

想要提升视频质感、贴合提示词、减少画面崩坏，重点调整这部分参数：

num_inference_steps：推理步数，数值越高细节越丰富、生成速度越慢
guidance_scale：提示词贴合度系数，数值越大，画面越遵循prompt描述
guidance_scale_2 / true_cfg_scale：双层CFG微调，优化画面一致性、减少畸变
flow_shift：光流偏移系数，控制镜头运动、物体动态流畅度
boundary_ratio：边缘融合比例，解决视频帧闪烁、边缘撕裂问题
seed：随机种子，固定种子可100%复现同款视频画面

5. 音频生成配置

generate_sound：是否自动生成配套音效/背景音乐（布尔值）
sound_duration：自定义音频时长，默认跟随视频时长

6. 负面优化参数

negative_prompt：负面提示词，用于规避模糊、水印、畸形、低画质、闪烁等画面瑕疵，是提升成片质量的关键参数。

7. 丝滑补帧参数（高阶流畅度优化）

专门解决AI视频卡顿、掉帧问题，开启后大幅提升成片质感：

enable_frame_interpolation：开启/关闭帧插补补帧功能
frame_interpolation_exp：插补倍率，最小为1，倍率越高画面越丝滑
frame_interpolation_scale：补帧清晰度缩放系数
frame_interpolation_model_path：自定义补帧模型路径

8. 扩展自定义参数

lora：加载LoRA模型，自定义视频风格、人物、特效、场景
user：用户唯一标识，用于任务归属、计费、权限隔离
extra_params：自定义扩展参数，可传入JSON字符串适配个性化高阶配置

三、关键参数优先级规则（避坑重点）

很多人调用接口效果异常，都是因为不懂参数优先级！整理核心规则：

画面尺寸：精准宽高（width+height） > 快捷尺寸size
视频时长：seconds优先级最高，无seconds则通过总帧数/帧率计算
补帧功能：必须开启enable_frame_interpolation，其余插补参数才会生效
音频配置：generate_sound为true时，sound_duration才生效
素材融合：多参考素材同时传入，模型会自动融合所有素材特征生成画面

四、实操调用示例（CURL可直接复用）

标准化通用调用案例，覆盖文生视频、高清画质、自动配乐、负面优化，可直接修改参数使用：

curl --location --request POST 'http://你的接口域名/v1/videos' \
--form 'prompt="赛博朋克雨夜街道，动态霓虹灯光，缓慢推拉运镜，8k超高清，电影质感，景深效果"' \
--form 'model="video-sd-xl-v2"' \
--form 'seconds="5"' \
--form 'size="1080x1920"' \
--form 'fps="30"' \
--form 'num_inference_steps="25"' \
--form 'guidance_scale="7.5"' \
--form 'generate_sound="true"' \
--form 'negative_prompt="模糊，水印，畸形，低分辨率，画面闪烁，构图失衡"' \
--form 'seed="123456"' \
--form 'user="user_001"'