gpt2-small-aozora-ja-125m

日本語(青空文庫「新字新仮名」)で事前学習した GPT-2 small 相当(約125M)モデルです。
注意:これはプレトレ段階の言語モデルです。指示への応答や対話能力は限定的で、必要に応じて SFT/LoRA 等の追加微調整をご検討ください。

モデル概要

  • アーキテクチャ: GPT-2 small(12層 × 12ヘッド × 768)
  • コンテキスト長: 1024
  • トークナイザー: SentencePiece (Unigram, vocab=32k) — pad_tokeneos_token を再利用
  • ライブラリ: Hugging Face Transformers
  • データ: globis-university/aozorabunko-clean のうち「新字新仮名」を抽出し、著者単位で train/validation/test を作成

使い方(Python)

from transformers import AutoTokenizer, GPT2LMHeadModel

repo = "Teto59/gpt2-small-aozora-ja-125m"
tok = AutoTokenizer.from_pretrained(repo)
model = GPT2LMHeadModel.from_pretrained(repo)

prompt = "吾輩は猫である。名前はまだ無い。"
x = tok(prompt, return_tensors="pt")
y = model.generate(
    **x,
    max_new_tokens=160,
    do_sample=False,  # まずはGreedyで安定出力
    eos_token_id=tok.eos_token_id,
    pad_token_id=tok.eos_token_id,
)
print(tok.decode(y[0], skip_special_tokens=True))

学習メモ(ざっくり)

  • 学習方式: Causal LM(次トークン予測、CrossEntropyLoss)
  • バッチ: micro-batch=1 / grad_accum=32(有効バッチ拡張)
  • 混合精度: fp16
  • 保存: safetensors(必要なら bin へ変換可)

免責

  • 当モデルの利用にあたっては、法令・各種ポリシー・データセットの規約に従ってください。
  • 生成結果の正確性・有用性は保証されません。検証の上でご利用ください。
Downloads last month
25
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Dataset used to train Teto59/gpt2-small-aozora-ja-125m