pyamy
/

llama3-dpo-llm-judge

preference-learning

Model card Files Files and versions

Metrics Training metrics Community

llama3-dpo-llm-judge / training_history.json

pyamy's picture

Upload DPO LLM Judge fine-tuned model

f582c27 verified 4 months ago

history blame contribute delete

219 Bytes

	[
	{
	"train_runtime": 2.0172,
	"train_samples_per_second": 3.966,
	"train_steps_per_second": 0.496,
	"total_flos": 0.0,
	"train_loss": 0.6931471824645996,
	"epoch": 1.0,
	"step": 1
	}
	]