gpt2-small-aozora-ja-125m
日本語(青空文庫「新字新仮名」)で事前学習した GPT-2 small 相当(約125M)モデルです。
注意:これはプレトレ段階の言語モデルです。指示への応答や対話能力は限定的で、必要に応じて SFT/LoRA 等の追加微調整をご検討ください。
モデル概要
- アーキテクチャ: GPT-2 small(12層 × 12ヘッド × 768)
- コンテキスト長: 1024
- トークナイザー: SentencePiece (Unigram, vocab=32k) —
pad_tokenはeos_tokenを再利用 - ライブラリ: Hugging Face Transformers
- データ: globis-university/aozorabunko-clean のうち「新字新仮名」を抽出し、著者単位で train/validation/test を作成
使い方(Python)
from transformers import AutoTokenizer, GPT2LMHeadModel
repo = "Teto59/gpt2-small-aozora-ja-125m"
tok = AutoTokenizer.from_pretrained(repo)
model = GPT2LMHeadModel.from_pretrained(repo)
prompt = "吾輩は猫である。名前はまだ無い。"
x = tok(prompt, return_tensors="pt")
y = model.generate(
**x,
max_new_tokens=160,
do_sample=False, # まずはGreedyで安定出力
eos_token_id=tok.eos_token_id,
pad_token_id=tok.eos_token_id,
)
print(tok.decode(y[0], skip_special_tokens=True))
学習メモ(ざっくり)
- 学習方式: Causal LM(次トークン予測、CrossEntropyLoss)
- バッチ: micro-batch=1 / grad_accum=32(有効バッチ拡張)
- 混合精度: fp16
- 保存: safetensors(必要なら bin へ変換可)
免責
- 当モデルの利用にあたっては、法令・各種ポリシー・データセットの規約に従ってください。
- 生成結果の正確性・有用性は保証されません。検証の上でご利用ください。
- Downloads last month
- 25