Paper - a dhtjrgus Collection

dhtjrgus 's Collections

Paper

updated about 16 hours ago

OpenClaw-RL: Train Any Agent Simply by Talking

Paper • 2603.10165 • Published 14 days ago • 138
Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

Paper • 2603.12228 • Published 12 days ago • 12
Efficient Memory Management for Large Language Model Serving with PagedAttention

Paper • 2309.06180 • Published Sep 12, 2023 • 47
1-bit AI Infra: Part 1.1, Fast and Lossless BitNet b1.58 Inference on CPUs

Paper • 2410.16144 • Published Oct 21, 2024 • 5
Efficient Exploration at Scale

Paper • 2603.17378 • Published 7 days ago • 12
Attention Residuals

Paper • 2603.15031 • Published 9 days ago • 155
Mamba: Linear-Time Sequence Modeling with Selective State Spaces

Paper • 2312.00752 • Published Dec 1, 2023 • 150
Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

Paper • 2405.21060 • Published May 31, 2024 • 68