Jaeyoon Jung's picture

Jaeyoon Jung

lastdefiance20

·

AI & ML interests

multimodal

Recent Activity

upvoted a paper 15 days ago

KORMo: Korean Open Reasoning Model for Everyone

authored a paper 15 days ago

D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

authored a paper 15 days ago

Exploring Fine-Tuning of Large Audio Language Models for Spoken Language Understanding under Limited Speech data

View all activity

Organizations

upvoted 3 papers 15 days ago

KORMo: Korean Open Reasoning Model for Everyone

Paper • 2510.09426 • Published 18 days ago • 74

Exploring Fine-Tuning of Large Audio Language Models for Spoken Language Understanding under Limited Speech data

Paper • 2509.15389 • Published Sep 18 • 3

D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

Paper • 2510.05684 • Published 21 days ago • 133

upvoted a paper 19 days ago

Less is More: Recursive Reasoning with Tiny Networks

Paper • 2510.04871 • Published 22 days ago • 453

upvoted a paper 4 months ago

Multi-Granular Spatio-Temporal Token Merging for Training-Free Acceleration of Video LLMs

Paper • 2507.07990 • Published Jul 10 • 45

upvoted 3 papers 5 months ago

Don't Look Only Once: Towards Multimodal Interactive Reasoning with Selective Visual Revisitation

Paper • 2505.18842 • Published May 24 • 36

Let's Predict Sentence by Sentence

Paper • 2505.22202 • Published May 28 • 19

Visual Planning: Let's Think Only with Images

Paper • 2505.11409 • Published May 16 • 56

upvoted 2 papers 6 months ago

TesserAct: Learning 4D Embodied World Models

Paper • 2504.20995 • Published Apr 29 • 22

VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models

Paper • 2504.15279 • Published Apr 21 • 76

upvoted a collection 6 months ago

Qwen3

84 items • Updated Aug 6 • 1.37k

upvoted 5 papers 7 months ago

SmolVLM: Redefining small and efficient multimodal models

Paper • 2504.05299 • Published Apr 7 • 200

R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model

Paper • 2503.05132 • Published Mar 7 • 57

KOFFVQA: An Objectively Evaluated Free-form VQA Benchmark for Large Vision-Language Models in the Korean Language

Paper • 2503.23730 • Published Mar 31 • 3

Gemma 3 Technical Report

Paper • 2503.19786 • Published Mar 25 • 54

JARVIS-VLA: Post-Training Large-Scale Vision Language Models to Play Visual Games with Keyboards and Mouse

Paper • 2503.16365 • Published Mar 20 • 40

upvoted 2 papers 8 months ago

SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features

Paper • 2502.14786 • Published Feb 20 • 152

Magma: A Foundation Model for Multimodal AI Agents

Paper • 2502.13130 • Published Feb 18 • 58

upvoted 2 papers 9 months ago

Scaling Pre-training to One Hundred Billion Data for Vision Language Models

Paper • 2502.07617 • Published Feb 11 • 29

Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks

Paper • 2501.08326 • Published Jan 14 • 33