new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Mar 13

Submitted by

Liuff23

Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training

Tencent-Hunyuan

Tencent Hunyuan

Submitted by

Borchmann

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Snowflake

Submitted by

bys0318

IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse

zai-org

Submitted by

linxinso

Video-Based Reward Modeling for Computer-Use Agents

lime-nlp

Language, Intelligence, and Model Evaluation Lab

Submitted by

EddieYang428

ShotVerse: Advancing Cinematic Camera Control for Text-Driven Multi-Shot Video Creation

tencent

Submitted by

weilllllls

DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

AlibabaTongyiLab

2

Submitted by

zpy777

Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation

VisionXLab

SJTU VisionXLab

Submitted by

DjangoJungle

XSkill: Continual Learning from Experience and Skills in Multimodal Agents

·
5 authors

Submitted by

Harold328

DVD: Deterministic Video Depth Estimation with Generative Priors

·
15 authors

Submitted by

taesiri

WeEdit: A Dataset, Benchmark and Glyph-Guided Framework for Text-centric Image Editing

·
7 authors

Submitted by

yangxue

GRADE: Benchmarking Discipline-Informed Reasoning in Image Editing

·
16 authors

Submitted by

taesiri

One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers

Snapchat

Submitted by

wadhma

CREATE: Testing LLMs for Associative Creativity

newyorkuniversity

New York University

Submitted by

YuuTennYi

EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

hkuhk

The University of Hong Kong

Submitted by

yuhangzang

EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models

internlm

Intern Large Models

Submitted by

zihengh1

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

apple

Submitted by

StreamFormer

OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams

·
5 authors

Submitted by

xiaobiaodu

Mobile-GS: Real-time Gaussian Splatting for Mobile Devices

·
4 authors

Submitted by

jaehong31

Are Video Reasoning Models Ready to Go Outside?

nanyang-technological-university-singapore

Nanyang Technological University Singapore

Submitted by

xianbao

The Curse and Blessing of Mean Bias in FP4-Quantized LLM Training

·
18 authors

Submitted by

TTTXXX01

Meta-Reinforcement Learning with Self-Reflection for Agentic Search

allenai

Submitted by

taesiri

Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining

ByteDance-Seed

Submitted by

henryL7

Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

Submitted by

Luka-Wang

Coarse-Guided Visual Generation via Weighted h-Transform Sampling

The Hong Kong University of Science and Technology

Submitted by

sheep33333

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

Fudan-University

Fudan University

Submitted by

milkkarten

Automatic Generation of High-Performance RL Environments

princetonu

Princeton University

2

Submitted by

xuyd16

PACED: Distillation at the Frontier of Student Competence

·
5 authors

2

Submitted by

FireRedTeam

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

·
9 authors

Submitted by

GK50

Geometric Autoencoder for Diffusion Models

sii-research

Shanghai Innovation Institute

Submitted by

AdinaY

Training Language Models via Neural Cellular Automata

·
4 authors

3

Submitted by

yulu2

Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

MIT

Massachusetts Institute of Technology

Submitted by

taesiri

Multi-Task Reinforcement Learning for Enhanced Multimodal LLM-as-a-Judge

Submitted by

jehuhuhuhu

Simple Recipe Works: Vision-Language-Action Models are Natural Continual Learners with Reinforcement Learning

·
7 authors

Submitted by

taesiri

Tiny Aya: Bridging Scale and Multilingual Depth

CohereLabs

Submitted by

n3il666

Neural Field Thermal Tomography: A Differentiable Physics Framework for Non-Destructive Evaluation

princetonu

Princeton University

2

Submitted by

slionar

TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size

sail

Submitted by

jormungandr2017

SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving

illinois

University of Illinois at Urbana-Champaign

3

Submitted by

savengg

Accent Vector: Controllable Accent Manipulation for Multilingual TTS Without Accented Data

UniversityofSouthernCalifornia

University of Southern California

Submitted by

nandan523

NerVE: Nonlinear Eigenspectrum Dynamics in LLM Feed-Forward Networks

newyorkuniversity

New York University

2

Submitted by

snoroozi

SurvHTE-Bench: A Benchmark for Heterogeneous Treatment Effect Estimation in Survival Analysis

CarnegieMellonU

Carnegie Mellon University

Submitted by

billhdzhao

EmbTracker: Traceable Black-box Watermarking for Federated Language Models

SJTU

Shanghai Jiao Tong University

Submitted by

hisoka94

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

ImperialCollegeLondon

Imperial College London

Submitted by

YuvMil

Attention Sinks Are Provably Necessary in Softmax Transformers: Evidence from Trigger-Conditional Tasks

tau

Tel Aviv University

Submitted by

rkabra

A Mixed Diet Makes DINO An Omnivorous Vision Encoder

deepmind

Submitted by

stefanos50

HyPER-GAN: Hybrid Patch-Based Image-to-Image Translation for Real-Time Photorealism Enhancement

·
2 authors

Submitted by

luoxue-star

4DEquine: Disentangling Motion and Appearance for 4D Equine Reconstruction from Monocular Video

·
5 authors

Submitted by

gudaochangsheng

WaDi: Weight Direction-aware Distillation for One-step Image Synthesis

·
6 authors

Submitted by

sandyherho

Causal Attribution of Coastal Water Clarity Degradation to Nickel Processing Expansion at the Indonesia Morowali Industrial Park, Sulawesi

ITB

Institut Teknologi Bandung