A Survey on Video Diffusion Models

Zhen Xing, Qijun Feng, Haoran Chen, Qi Dai, Han Hu, Hang Xu, Zuxuan Wu, Yu-Gang Jiang

(Source: Make-A-Video, SimDA, PYoCo, Video LDM and Tune-A-Video)

[News] The Chinese translation is available on Zhihu. Special thanks to Dai-Wenxun for this.

Open-source Toolboxes and Foundation Models

Methods	Task	Github
GEN-2	T2V Generation & Editing	-
ModelScope	T2V Generation
ZeroScope	T2V Generation	-
T2V Synthesis Colab	T2V Genetation
VideoCraft	T2V Genetation & Editing
Diffusers (T2V synthesis)	T2V Genetation	-
AnimateDiff	Personalized T2V Genetation
Text2Video-Zero	T2V Genetation
HotShot-XL	T2V Genetation
Genmo	T2V Genetation	-
Fliki	T2V Generation	-

Video Generation
- Data
- - Caption-level
- - Category-level
- T2V Generation
- - Training-based
- - Training-free
- Video Generation with other Condtions
- - Pose-gudied
- - Instruct-guided
- - Sound-guided
- - Brain-guided
- - Multi-Modal guided
- Unconditional Video Generation
- - U-Net based
- - Transformer-based
- Video Completion
- - Video Enhance and Restoration
- - Video Prediction
Video Editing
- Text guided Video Editing
- - Training-based Editing
- - One-shot Editing
- - Traning-free
- Modality-guided Video Editing
- - Motion-guided
- - Instruct-guided
- - Sound-guided
- - Multi-Modal Control
- Domain-specific editing
- Non-diffusion editing
Video Understanding
Contact

Video Generation

Data

Caption-level

Title	Github	WebSite	Pub. & Date
CelebV-Text: A Large-Scale Facial Text-Video Dataset		-	CVPR, 2023
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation		-	May, 2023
VideoFactory: Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation	-	-	May, 2023
Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions	-	-	Nov, 2021
Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval	-	-	ICCV, 2021
MSR-VTT: A Large Video Description Dataset for Bridging Video and Language	-	-	CVPR, 2016

Category-level

Title	Github	WebSite	Pub. & Date
UCF101: A Dataset of 101 Human Actions Classes From Videos in The Wild	-	-	Dec., 2012
First Order Motion Model for Image Animation	-	-	May, 2023
Learning to Generate Time-Lapse Videos Using Multi-Stage Dynamic Generative Adversarial Networks	-	-	CVPR,2018

Metric

Title	Github	WebSite	Pub. & Date
CVPR 2023 Text Guided Video Editing Competition	-	-	Oct., 2023
EvalCrafter: Benchmarking and Evaluating Large Video Generation Models	-	-	Oct., 2023
Measuring the Quality of Text-to-Video Model Outputs: Metrics and Dataset	-	-	Sep., 2023

Text-to-Video Generation

Training-based

Title	arXiv	Github	WebSite	Pub. & Date
DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors			-	Oct., 2023
LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation				Oct., 2023
DrivingDiffusion: Layout-Guided multi-view driving scene video generation with latent diffusion model		-	-	Oct, 2023
MotionDirector: Motion Customization of Text-to-Video Diffusion Models				Oct, 2023
VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning		-		Sep., 2023
Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation				Sep., 2023
LaVie: High-Quality Video Generation with Cascaded Latent Diffusion Models		-		Sep., 2023
Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation		-		Sep., 2023
VideoGen: A Reference-Guided Latent Diffusion Approach for High Definition Text-to-Video Generation		-	-	Sep., 2023
Text2Performer: Text-Driven Human Video Generation				Apr., 2023
AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning				Jul., 2023
Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with Large Language Models		-		Aug., 2023
SimDA: Simple Diffusion Adapter for Efficient Video Generation				Aug., 2023
Dual-Stream Diffusion Net for Text-to-Video Generation		-	-	Aug., 2023
ModelScope Text-to-Video Technical Report		-		Aug., 2023
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation			-	Jul., 2023
VideoFactory: Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation		-	-	May, 2023
Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models		-		May, 2023
Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models		-		-
Latent-Shift: Latent Diffusion with Temporal Shift		-		-
Probabilistic Adaptation of Text-to-Video Models		-		Jun., 2023
NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation		-		Mar., 2023
ED-T2V: An Efficient Training Framework for Diffusion-based Text-to-Video Generation	-	-	-	IJCNN, 2023
MagicVideo: Efficient Video Generation With Latent Diffusion Models		-		-
Imagen Video: High Definition Video Generation With Diffusion Models		-		-
VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation		-		-
Make-A-Video: Text-to-Video Generation without Text-Video Data		-		-
Latent Video Diffusion Models for High-Fidelity Video Generation With Arbitrary Lengths				Nov., 2022
Video Diffusion Models		-		-

Training-free

Title	Github	WebSite	Pub. & Date
FreeNoise: Tuning-Free Longer Video Diffusion Via Noise Rescheduling			Oct, 2023
ConditionVideo: Training-Free Condition-Guided Text-to-Video Generation			Oct, 2023
LLM-grounded Video Diffusion Models	-	-	Oct, 2023
Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM Animator		-	NeurIPS, 2023
DiffSynth: Latent In-Iteration Deflickering for Realistic Video Synthesis	-	-	Aug, 2023
Large Language Models are Frame-level Directors for Zero-shot Text-to-Video Generation		-	May, 2023
Text2video-Zero: Text-to-Image Diffusion Models Are Zero-Shot Video Generators			Mar., 2023

Video Generation with other conditions

Pose-guided Video Generation

Title	Github	WebSite	Pub. & Date
DisCo: Disentangled Control for Referring Human Dance Generation in Real World			Jul., 2023
Dancing Avatar: Pose and Text-Guided Human Motion Videos Synthesis with Image Diffusion Model	-	-	Aug., 2023
DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion			Apr., 2023
Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos			Apr., 2023

Motion-guided Video Generation

Title	arXiv	Github	WebSite	Pub. & Date
Motion-Conditioned Diffusion Model for Controllable Video Synthesis		-		Apr., 2023
DragNUWA: Fine-grained Control in Video Generation by Integrating Text, Image, and Trajectory		-	-	Aug., 2023

Sound-guided Video Generation

Title	Github	WebSite	Pub. & Date
The Power of Sound (TPoS): Audio Reactive Video Generation with Stable Diffusion	-	-	ICCV, 2023
Generative Disco: Text-to-Video Generation for Music Visualization	-	-	Apr., 2023
AADiff: Audio-Aligned Video Synthesis with Text-to-Image Diffusion	-	-	CVPRW, 2023

Image-guided Video Generation

Title	Github	WebSite	Pub. & Date
Make-It-4D: Synthesizing a Consistent Long-Term Dynamic Scene Video from a Single Image	-	-	MM, 2023
Generative Image Dynamics	-		Sep., 2023
LaMD: Latent Motion Diffusion for Video Generation	-	-	Apr., 2023
Conditional Image-to-Video Generation with Latent Flow Diffusion Models		-	CVPR 2023

Brain-guided Video Generation

Title	arXiv	Github	WebSite	Pub. & Date
Cinematic Mindscapes: High-quality Video Reconstruction from Brain Activity				May, 2023

Depth-guided Video Generation

Title	arXiv	Github	WebSite	Pub. & Date
Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation				Jul., 2023
Make-Your-Video: Customized Video Generation Using Textual and Structural Guidance				Jun., 2023

Multi-modal guided Video Generation

Title	Github	WebSite	Pub. & Date
VideoComposer: Compositional Video Synthesis with Motion Controllability			Jun., 2023
NExT-GPT: Any-to-Any Multimodal LLM	-	-	Sep, 2023
MovieFactory: Automatic Movie Creation from Text using Large Generative Models for Language and Images	-		Jun, 2023
Any-to-Any Generation via Composable Diffusion			May, 2023
Mm-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation		-	CVPR 2023

Unconditional Video Generation

U-Net based

Title	WebSite	Pub. & Date
Video Probabilistic Diffusion Models in Projected Latent Space		CVPR 2023
VIDM: Video Implicit Diffusion Models		AAAI 2023
GD-VDM: Generated Depth for better Diffusion-based Video Generation	-	Jun., 2023
LEO: Generative Latent Image Animator for Human Video Synthesis		May., 2023

Transformer based

Title	arXiv	Github	WebSite	Pub. & Date
VDT: An Empirical Study on Video Diffusion with Transformers			-	May, 2023

Video Completion

Video Enhancement and Restoration

Title	Github	Pub. & Date
LDMVFI: Video Frame Interpolation with Latent Diffusion Models	-	Mar., 2023
CaDM: Codec-aware Diffusion Modeling for Neural-enhanced Video Streaming	-	Nov., 2022
Look Ma, No Hands! Agent-Environment Factorization of Egocentric Videos	-	-

Video Prediction

Title	Github	Website	Pub. & Date
Video Diffusion Models with Local-Global Context Guidance		-	IJCAI, 2023
Seer: Language Instructed Video Prediction with Latent Diffusion Models	-		Mar., 2023
Diffusion Models for Video Prediction and Infilling			TMLR 2022
McVd: Masked Conditional Video Diffusion for Prediction, Generation, and Interpolation			NeurIPS 2022
Diffusion Probabilistic Modeling for Video Generation		-	Mar., 2022
Flexible Diffusion Modeling of Long Videos			May, 2022
Control-A-Video: Controllable Text-to-Video Generation with Diffusion Models			May, 2023

Video Editing

General Editing Model

Title	Github	Website	Pub. Date
MagicProp: Diffusion-based Video Editing via Motion-aware Appearance Propagation	-	-	Sep, 2023
MagicEdit: High-Fidelity and Temporally Coherent Video Editing	-	-	Aug, 2023
Edit Temporal-Consistent Videos with Image Diffusion Model	-	-	Aug, 2023
Structure and Content-Guided Video Synthesis With Diffusion Models	-		ICCV, 2023
Dreamix: Video Diffusion Models Are General Video Editors	-		Feb, 2023

Training-free Editing Model

Title	Github	Website	Pub. Date
Fuse Your Latents: Video Editing with Multi-source Latent Diffusion Models	-	-	Oct., 2023
LOVECon: Text-driven Training-Free Long Video Editing with ControlNet		-	Oct., 2023
FLATTEN: optical FLow-guided ATTENtion for consistent text-to-video editing	-		Oct., 2023
Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image Diffusion Models	-		Oct., 2023
MeDM: Mediating Image Diffusion Models for Video-to-Video Translation with Temporal Correspondence Guidance	-	-	Aug., 2023
EVE: Efficient zero-shot text-based Video Editing with Depth Map Guidance and Temporal Consistency Constraints	-	-	Aug., 2023
ControlVideo: Training-free Controllable Text-to-Video Generation		-	May, 2023
TokenFlow: Consistent Diffusion Features for Consistent Video Editing			Jul., 2023
VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing	-		Jun., 2023
Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation	-		Jun., 2023
Zero-Shot Video Editing Using Off-the-Shelf Image Diffusion Models			Mar., 2023
FateZero: Fusing Attentions for Zero-shot Text-based Video Editing			Mar., 2023
Pix2video: Video Editing Using Image Diffusion	-		Mar., 2023
InFusion: Inject and Attention Fusion for Multi Concept Zero Shot Text based Video Editing	-		Aug., 2023
Gen-L-Video: Multi-Text to Long Video Generation via Temporal Co-Denoising			May, 2023

One-shot Editing Model

Title	Github	Website	Pub. & Date
StableVideo: Text-driven Consistency-aware Diffusion Video Editing			ICCV, 2023
Shape-aware Text-driven Layered Video Editing	-	-	CVPR, 2023
SAVE: Spectral-Shift-Aware Adaptation of Image Diffusion Models for Text-guided Video Editing		-	May, 2023
Towards Consistent Video Editing with Text-to-Image Diffusion Models	-	-	Mar., 2023
Edit-A-Video: Single Video Editing with Object-Aware Consistency	-		Mar., 2023
Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation			ICCV, 2023
ControlVideo: Adding Conditional Control for One Shot Text-to-Video Editing			May, 2023
Video-P2P: Video Editing with Cross-attention Control			Mar., 2023
SinFusion: Training Diffusion Models on a Single Image or Video			Nov., 2022

Instruct-guided Video Editing

Title	arXiv	Github	Website	Pub. Date
InstructVid2Vid: Controllable Video Editing with Natural Language Instructions		-	-	May, 2023
Collaborative Score Distillation for Consistent Visual Synthesis		-	-	July, 2023

Motion-guided Video Editing

Title	arXiv	Github	Website	Pub. Date
VideoControlNet: A Motion-Guided Video-to-Video Translation Framework by Using Diffusion Model with ControlNet		-		July, 2023

Sound-guided Video Editing

Title	arXiv	Github	Website	Pub. Date
Speech Driven Video Editing via an Audio-Conditioned Diffusion Model		-	-	May., 2023
Soundini: Sound-Guided Diffusion for Natural Video Editing				Apr., 2023

Multi-modal Control Editing Model

Title	arXiv	Github	Website	Pub. Date
CCEdit: Creative and Controllable Video Editing via Diffusion Models		-	-	Sep, 2023
Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts				May, 2023

Domain-specific Editing Model

Title	Github	Website	Pub. Date
Multimodal-driven Talking Face Generation via a Unified Diffusion-based Generator	-	-	May, 2023
DiffSynth: Latent In-Iteration Deflickering for Realistic Video Synthesis	-	-	Aug, 2023
Style-A-Video: Agile Diffusion for Arbitrary Text-based Video Style Transfer		-	May, 2023
Instruct-Video2Avatar: Video-to-Avatar Generation with Instructions		-	Jun, 2023
Video Colorization with Pre-trained Text-to-Image Diffusion Models			Jun, 2023
Diffusion Video Autoencoders: Toward Temporally Consistent Face Video Editing via Disentangled Video Encoding			CVPR 2023

Non-diffusion Editing model

Title	Github	Pub. Date
DynVideo-E: Harnessing Dynamic NeRF for Large-Scale Motion- and View-Change Human-Centric Video Editing	-	Oct., 2023
INVE: Interactive Neural Video Editing	-	Jul., 2023
Shape-Aware Text-Driven Layered Video Editing	-	Jan., 2023

Video Understanding

Title	Github	Website	Pub. Date
DiffusionVMR: Diffusion Model for Video Moment Retrieval	-	-	Aug., 2023
DiffPose: SpatioTemporal Diffusion Model for Video-Based Human Pose Estimation	-	-	Aug., 2023
Unsupervised Video Anomaly Detection with Diffusion Models Conditioned on Compact Motion Representations	-	-	ICIAP, 2023
Exploring Diffusion Models for Unsupervised Video Anomaly Detection	-	-	Apr., 2023
Multimodal Motion Conditioned Diffusion Model for Skeleton-based Video Anomaly Detection	-	-	ICCV, 2023
Diffusion Action Segmentation	-	-	Mar., 2023
DiffTAD: Temporal Action Detection with Proposal Denoising Diffusion			Mar., 2023
DiffusionRet: Generative Text-Video Retrieval with Diffusion Model	-	-	Mar., 2023
MomentDiff: Generative Video Moment Retrieval from Random to Real			Jul., 2023
Refined Semantic Enhancement Towards Frequency Diffusion for Video Captioning	-	-	Nov., 2022
A Generalist Framework for Panoptic Segmentation of Images and Videos			Oct., 2022
DAVIS: High-Quality Audio-Visual Separation with Generative Diffusion Models	-	-	Jul., 2023
CaDM: Codec-aware Diffusion Modeling for Neural-enhanced Video Streaming	-	-	Mar., 2023
Spatial-temporal Transformer-guided Diffusion based Data Augmentation for Efficient Skeleton-based Action Recognition	-	-	Jul., 2023
PDPP: Projected Diffusion for Procedure Planning in Instructional Videos		-	CVPR 2023

Contact

If you have any suggestions or find our work helpful, feel free to contact us

Homepage: Zhen Xing

Email: zhenxingfd@gmail.com

If you find our work useful, please consider citing it:

@article{vdmsurvey,
  title={A Survey on Video Diffusion Models},
  author={Zhen Xing and Qijun Feng and Haoran Chen and Qi Dai and Han Hu and Hang Xu and Zuxuan Wu and Yu-Gang Jiang}, 
  journal={arXiv preprint arXiv:2310.10647},
  year={2023}
}

Name		Name	Last commit message	Last commit date
Latest commit History 61 Commits
asset		asset
README.md		README.md

taikai-zz/Awesome-Video-Diffusion-Models

Folders and files

Latest commit

History

Repository files navigation

A Survey on Video Diffusion Models

Open-source Toolboxes and Foundation Models

Table of Contents

Video Generation

Data

Caption-level

Category-level

Metric

Text-to-Video Generation

Training-based

Training-free

Video Generation with other conditions

Pose-guided Video Generation

Motion-guided Video Generation

Sound-guided Video Generation

Image-guided Video Generation

Brain-guided Video Generation

Depth-guided Video Generation

Multi-modal guided Video Generation

Unconditional Video Generation

U-Net based

Transformer based

Video Completion

Video Enhancement and Restoration

Video Prediction

Video Editing

General Editing Model

Training-free Editing Model

One-shot Editing Model

Instruct-guided Video Editing

Motion-guided Video Editing

Sound-guided Video Editing

Multi-modal Control Editing Model

Domain-specific Editing Model

Non-diffusion Editing model

Video Understanding

Contact

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages