Shizhe Diao's picture

Shizhe Diao

shizhediao2

·

https://shizhediao.github.io/

AI & ML interests

LLM pre-training and reasoning

Recent Activity

upvoted a paper 4 days ago

Unified Reinforcement and Imitation Learning for Vision-Language Models

updated a dataset 6 days ago

nvidia/Nemotron-ClimbMix

upvoted a paper 6 days ago

DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning

View all activity

Organizations

models 3

shizhediao2/ToolOrchestrator-8B

Updated 12 days ago

shizhediao2/Llama-Nemotron-8B-v1-Prorl

shizhediao2/Nemotron-Research-Reasoning-Qwen-1.5B

datasets 0

None public yet