HunyuanVideo

分类: 网络架构

HunyuanVideo

定义

腾讯混元团队提出的大规模文生视频模型,基于 DiT 架构,支持高分辨率长时长视频生成

核心要点

采用 Diffusion Transformer (DiT) 作为去噪骨干,而非传统 UNet

支持文本到视频、图像到视频等多种生成模式

在视频质量、时间一致性和运动合理性方面表现突出

开源权重,推动了社区在视频生成领域的研究

代表工作

Tencent (2024): HunyuanVideo: A Systematic Framework For Large Video Generative Models

相关概念

DiT