hsthe-1.4b-base
Model Overview
hsthe-1.4b-base là một mô hình ngôn ngữ lớn (LLM) nhỏ được huấn luyện từ đầu nhằm mục đích nghiên cứu và thử nghiệm quá trình pretraining một mô hình LLM. Việc xây dựng mô hình này giúp tác giả hiểu rõ hơn về pipeline huấn luyện, tối ưu hóa, và các thách thức trong việc phát triển LLM, từ đó dễ dàng áp dụng cho các mô hình quy mô lớn hơn trong tương lai.
Model Name: hsthe-1.4b-base
Architecture: Qwen3 (Dense)
Parameters:
- ~1.78B (mặc định)
- ~1.47B (nếu bật
tie_word_embeddings)
Context Length:
- Phase 1: 8192 tokens
- Phase 2: 32768 tokens (sử dụng YARN extension)
Training Data
Languages:
- Tiếng Việt: 66.67%
- Tiếng Anh: 33.33%
Datasets:
Dữ liệu đã được tiền xử lý và lọc để đảm bảo chất lượng và tính đa dạng, tập trung vào cả tiếng Việt và tiếng Anh.
Intended Use
- Nghiên cứu: phục vụ nghiên cứu quy trình huấn luyện LLM từ đầu.
- Học tập: hỗ trợ tìm hiểu các kỹ thuật pretraining, scaling law, tokenizer, và kiến trúc Transformer.
- Thử nghiệm: làm baseline nhỏ cho việc phát triển các hệ thống lớn hơn.
⚠️ Không nên sử dụng mô hình này cho sản phẩm thương mại hoặc các ứng dụng đòi hỏi độ tin cậy cao vì chưa qua fine-tuning hoặc alignment chuyên sâu.
Limitations & Risks
- Mô hình có thể sinh ra thông tin sai lệch hoặc không chính xác.
- Chưa được kiểm thử toàn diện về bias, fairness và toxicity.
- Hạn chế trong việc xử lý các ngôn ngữ ngoài tiếng Việt và tiếng Anh.
- Không được tối ưu cho downstream tasks (classification, summarization, code, v.v.).
Citation
Nếu bạn sử dụng mô hình này cho nghiên cứu, vui lòng trích dẫn như sau:
@misc{hsthe14bbase2025,
title = {hsthe-1.4b-base},
author = {Sỹ Thế Hồ},
year = {2025},
publisher = {Hugging Face},
howpublished = {\url{https://huggingface.co/thehosy/hsthe-1.4b-base}}
}
- Downloads last month
- 1