66 29 33

Shenzhi Wang

shenzhi-wang

https://shenzhi-wang.netlify.app/

ShenzhiWang_THU

AI & ML interests

Large Language Model, Reinforcement Learning, and AI Agents

Recent Activity

upvoted a paper about 1 month ago

Soft Adaptive Policy Optimization

upvoted a paper 3 months ago

IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance

upvoted a paper 3 months ago

Variational Reasoning for Language Models

View all activity

Organizations

commented a paper 7 months ago

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

Paper • 2506.01939 • Published Jun 2, 2025 • 187 •

commented a paper about 1 year ago

LLM-based Optimization of Compound AI Systems: A Survey

Paper • 2410.16392 • Published Oct 21, 2024 • 16 •

New activity in shenzhi-wang/Llama3.1-70B-Chinese-Chat over 1 year ago

部署了一下试用，非常感谢这样的工作

#2 opened over 1 year ago by

WEI21321

New activity in shenzhi-wang/Llama3-8B-Chinese-Chat-GGUF-8bit over 1 year ago

中文模型很弱智

#10 opened over 1 year ago by

Jerry-SDUA

New activity in shenzhi-wang/Llama3.1-8B-Chinese-Chat over 1 year ago

根本没法用，它认为 ”你好吗“有5个汉字

#15 opened over 1 year ago by

Jerry-SDUA

这个是训练的词库特地指定的？

#13 opened over 1 year ago by

roamerxv

坐等70b chinese

#1 opened over 1 year ago by

iwaitu

遇到了无穷回复问题

#4 opened over 1 year ago by

Orion-zhen

训练数据模板是什么

#6 opened over 1 year ago by

Libraone

感觉效果不如之前orpo的llama3

#8 opened over 1 year ago by

ztyl-tech

大佬。啥时候出3.1的4bit版本啊

#9 opened over 1 year ago by

shenbushou

config.json中的rope_scaling字段为什么没有包含type和factor？

#11 opened over 1 year ago by

Alexcccn

Train data?

#5 opened over 1 year ago by

yyq90

New activity in shenzhi-wang/Llama3.1-70B-Chinese-Chat over 1 year ago

遇到了和8b版本一样的无限输出问题

#5 opened over 1 year ago by

Orion-zhen

希望有一个30G左右的量化版本

#1 opened over 1 year ago by

yxh0774

New activity in shenzhi-wang/Llama3-70B-Chinese-Chat over 1 year ago

请问加载这个模型要多少GPU？我24000+的提示out of memory

#10 opened over 1 year ago by

zyc1128

[AUTOMATED] Model Memory Requirements

#12 opened over 1 year ago by

model-sizer-bot

New activity in shenzhi-wang/Gemma-2-9B-Chinese-Chat over 1 year ago

Better formatting for CAUTION

#1 opened over 1 year ago by

mishig

New activity in shenzhi-wang/Gemma-2-27B-Chinese-Chat over 1 year ago

Default to eager attention

#1 opened over 1 year ago by

lysandre

New activity in shenzhi-wang/Llama3-70B-Chinese-Chat-GGUF-4bit over 1 year ago

中文理解有点差

#2 opened over 1 year ago by

chaochaoli

Shenzhi Wang

AI & ML interests

Recent Activity

Organizations

shenzhi-wang's activity

部署了一下试用，非常感谢这样的工作

中文模型很弱智

根本没法用，它认为 ”你好吗“有5个汉字

这个是训练的词库特地指定的？

坐等70b chinese

遇到了无穷回复问题

训练数据模板是什么

感觉效果不如之前orpo的llama3

大佬。啥时候出3.1的4bit版本啊

config.json中的rope_scaling字段为什么没有包含type和factor？

Train data?

遇到了和8b版本一样的无限输出问题

希望有一个30G左右的量化版本

请问加载这个模型要多少GPU？我24000+的提示out of memory

[AUTOMATED] Model Memory Requirements

Better formatting for CAUTION

Default to eager attention

中文理解有点差