You need to agree to share your contact information to access this model

This repository is publicly accessible, but you have to accept the conditions to access its files and content.

hsthe-1.4b-base

Model Overview

hsthe-1.4b-base là một mô hình ngôn ngữ lớn (LLM) nhỏ được huấn luyện từ đầu nhằm mục đích nghiên cứu và thử nghiệm quá trình pretraining một mô hình LLM. Việc xây dựng mô hình này giúp tác giả hiểu rõ hơn về pipeline huấn luyện, tối ưu hóa, và các thách thức trong việc phát triển LLM, từ đó dễ dàng áp dụng cho các mô hình quy mô lớn hơn trong tương lai.

Model Name: hsthe-1.4b-base
Architecture: Qwen3 (Dense)
Parameters:
- ~1.78B (mặc định)
- ~1.47B (nếu bật tie_word_embeddings)
Context Length:
- Phase 1: 8192 tokens
- Phase 2: 32768 tokens (sử dụng YARN extension)

Training Data

Languages:
- Tiếng Việt: 66.67%
- Tiếng Anh: 33.33%
Datasets:

Dữ liệu đã được tiền xử lý và lọc để đảm bảo chất lượng và tính đa dạng, tập trung vào cả tiếng Việt và tiếng Anh.

Intended Use

Nghiên cứu: phục vụ nghiên cứu quy trình huấn luyện LLM từ đầu.
Học tập: hỗ trợ tìm hiểu các kỹ thuật pretraining, scaling law, tokenizer, và kiến trúc Transformer.
Thử nghiệm: làm baseline nhỏ cho việc phát triển các hệ thống lớn hơn.

⚠️ Không nên sử dụng mô hình này cho sản phẩm thương mại hoặc các ứng dụng đòi hỏi độ tin cậy cao vì chưa qua fine-tuning hoặc alignment chuyên sâu.

Limitations & Risks

Mô hình có thể sinh ra thông tin sai lệch hoặc không chính xác.
Chưa được kiểm thử toàn diện về bias, fairness và toxicity.
Hạn chế trong việc xử lý các ngôn ngữ ngoài tiếng Việt và tiếng Anh.
Không được tối ưu cho downstream tasks (classification, summarization, code, v.v.).

Citation

Nếu bạn sử dụng mô hình này cho nghiên cứu, vui lòng trích dẫn như sau:

@misc{hsthe14bbase2025,
  title = {hsthe-1.4b-base},
  author = {Sỹ Thế Hồ},
  year = {2025},
  publisher = {Hugging Face},
  howpublished = {\url{https://huggingface.co/thehosy/hsthe-1.4b-base}}
}

Downloads last month: 1

Safetensors

Model size

2B params

Tensor type

BF16