Emu3-community

community

AI & ML interests

None defined yet.

Recent Activity

ryanzhangfan authored a paper 25 days ago

Uniform Discrete Diffusion with Metric Path for Video Generation

ryanzhangfan authored a paper 25 days ago

Emu3.5: Native Multimodal Models are World Learners

ryanzhangfan authored a paper 7 months ago

End-to-End Vision Tokenizer Tuning

View all activity

ryanzhangfan

authored 2 papers 25 days ago

Uniform Discrete Diffusion with Metric Path for Video Generation

Paper • 2510.24717 • Published Oct 28 • 39

Emu3.5: Native Multimodal Models are World Learners

Paper • 2510.26583 • Published 30 days ago • 104

ryanzhangfan

authored a paper 7 months ago

End-to-End Vision Tokenizer Tuning

Paper • 2505.10562 • Published May 15 • 22

RaushanTurganbay

updated a model 11 months ago

BAAI/Emu3-Gen-hf

Image-Text-to-Text • 9B • Updated May 23 • 621 • 1

RaushanTurganbay

updated a model about 1 year ago

BAAI/Emu3-Chat-hf

Image-Text-to-Text • 9B • Updated Jan 15 • 26.1k

RaushanTurganbay

updated a Space about 1 year ago

Emu3-Community

ryanzhangfan

authored 7 papers about 1 year ago

CapsFusion: Rethinking Image-Text Data at Scale

Paper • 2310.20550 • Published Oct 31, 2023 • 27

Generative Multimodal Models are In-Context Learners

Paper • 2312.13286 • Published Dec 20, 2023 • 37

Generative Pretraining in Multimodality

Paper • 2307.05222 • Published Jul 11, 2023 • 22

EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters

Paper • 2402.04252 • Published Feb 6, 2024 • 29

DenseFusion-1M: Merging Vision Experts for Comprehensive Multimodal Perception

Paper • 2407.08303 • Published Jul 11, 2024 • 19

Diffusion Feedback Helps CLIP See Better

Paper • 2407.20171 • Published Jul 29, 2024 • 36

Emu3: Next-Token Prediction is All You Need

Paper • 2409.18869 • Published Sep 27, 2024 • 95