You need to agree to share your contact information to access this model

This repository is publicly accessible, but you have to accept the conditions to access its files and content.

Log in or Sign Up to review the conditions and access this model content.

hsthe-1.4b-base

Model Overview

hsthe-1.4b-base là một mô hình ngôn ngữ lớn (LLM) nhỏ được huấn luyện từ đầu nhằm mục đích nghiên cứu và thử nghiệm quá trình pretraining một mô hình LLM. Việc xây dựng mô hình này giúp tác giả hiểu rõ hơn về pipeline huấn luyện, tối ưu hóa, và các thách thức trong việc phát triển LLM, từ đó dễ dàng áp dụng cho các mô hình quy mô lớn hơn trong tương lai.

  • Model Name: hsthe-1.4b-base

  • Architecture: Qwen3 (Dense)

  • Parameters:

    • ~1.78B (mặc định)
    • ~1.47B (nếu bật tie_word_embeddings)
  • Context Length:

    • Phase 1: 8192 tokens
    • Phase 2: 32768 tokens (sử dụng YARN extension)

Training Data

Dữ liệu đã được tiền xử lý và lọc để đảm bảo chất lượng và tính đa dạng, tập trung vào cả tiếng Việt và tiếng Anh.


Intended Use

  • Nghiên cứu: phục vụ nghiên cứu quy trình huấn luyện LLM từ đầu.
  • Học tập: hỗ trợ tìm hiểu các kỹ thuật pretraining, scaling law, tokenizer, và kiến trúc Transformer.
  • Thử nghiệm: làm baseline nhỏ cho việc phát triển các hệ thống lớn hơn.

⚠️ Không nên sử dụng mô hình này cho sản phẩm thương mại hoặc các ứng dụng đòi hỏi độ tin cậy cao vì chưa qua fine-tuning hoặc alignment chuyên sâu.


Limitations & Risks

  • Mô hình có thể sinh ra thông tin sai lệch hoặc không chính xác.
  • Chưa được kiểm thử toàn diện về bias, fairnesstoxicity.
  • Hạn chế trong việc xử lý các ngôn ngữ ngoài tiếng Việt và tiếng Anh.
  • Không được tối ưu cho downstream tasks (classification, summarization, code, v.v.).

Citation

Nếu bạn sử dụng mô hình này cho nghiên cứu, vui lòng trích dẫn như sau:

@misc{hsthe14bbase2025,
  title = {hsthe-1.4b-base},
  author = {Sỹ Thế Hồ},
  year = {2025},
  publisher = {Hugging Face},
  howpublished = {\url{https://huggingface.co/thehosy/hsthe-1.4b-base}}
}
Downloads last month
1
Safetensors
Model size
2B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support