Jack's picture

4 2

Jack

SixPlusSeven13

AI & ML interests

None yet

Recent Activity

upvoted a paper about 1 month ago

Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning

upvoted a paper about 1 month ago

BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping

new activity 3 months ago

AgentGym/AgentGym-RL-Data-ID:Upload webarena_train.json

View all activity

Organizations

None yet

SixPlusSeven13 's models

None public yet