a smol course documentation
インストラクションチューニング
インストラクションチューニング
このモジュールでは、言語モデルのインストラクションチューニングのプロセスをガイドします。インストラクションチューニングとは、特定のタスクに対してモデルを適応させるために、特定のタスクに関連するデータセットで追加のトレーニングを行うことを指します。このプロセスは、特定のタスクにおけるモデルのパフォーマンスを向上させるのに役立ちます。
このモジュールでは、2つのトピックを探ります:1) チャットテンプレートと2) 教師あり微調整
1️⃣ チャットテンプレート
チャットテンプレートは、ユーザーとAIモデル間のインタラクションを構造化し、一貫性のある文脈に適した応答を保証します。これらのテンプレートには、システムメッセージや役割に基づくメッセージなどのコンポーネントが含まれます。詳細については、チャットテンプレートセクションを参照してください。
2️⃣ 教師あり微調整
教師あり微調整(SFT)は、事前トレーニングされた言語モデルを特定のタスクに適応させるための重要なプロセスです。これは、ラベル付きの例を含む特定のタスクのデータセットでモデルをトレーニングすることを含みます。SFTの詳細なガイド、重要なステップ、およびベストプラクティスについては、教師あり微調整ページを参照してください。
参考文献
- Transformersのチャットテンプレートに関するドキュメント
- TRLの教師あり微調整スクリプト
- TRLの
SFTTrainer - 直接選好最適化に関する論文
- TRLを使用した教師あり微調整
- ChatMLとHugging Face TRLを使用したGoogle Gemmaの微調整方法
- LLMを微調整してペルシャ語の商品カタログをJSON形式で生成する方法