Instructions to use Vikhrmodels/it-5.4-fp16-orpo-v2 with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use Vikhrmodels/it-5.4-fp16-orpo-v2 with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="Vikhrmodels/it-5.4-fp16-orpo-v2")
messages = [
    {"role": "user", "content": "Who are you?"},
]
pipe(messages)

# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("Vikhrmodels/it-5.4-fp16-orpo-v2")
model = AutoModelForCausalLM.from_pretrained("Vikhrmodels/it-5.4-fp16-orpo-v2")
messages = [
    {"role": "user", "content": "Who are you?"},
]
inputs = tokenizer.apply_chat_template(
	messages,
	add_generation_prompt=True,
	tokenize=True,
	return_dict=True,
	return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=40)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:]))

Inference
Notebooks
Google Colab
Kaggle
Local Apps

vLLM

How to use Vikhrmodels/it-5.4-fp16-orpo-v2 with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "Vikhrmodels/it-5.4-fp16-orpo-v2"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "Vikhrmodels/it-5.4-fp16-orpo-v2",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker

docker model run hf.co/Vikhrmodels/it-5.4-fp16-orpo-v2

SGLang

How to use Vikhrmodels/it-5.4-fp16-orpo-v2 with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "Vikhrmodels/it-5.4-fp16-orpo-v2" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "Vikhrmodels/it-5.4-fp16-orpo-v2",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "Vikhrmodels/it-5.4-fp16-orpo-v2" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "Vikhrmodels/it-5.4-fp16-orpo-v2",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Docker Model Runner
How to use Vikhrmodels/it-5.4-fp16-orpo-v2 with Docker Model Runner:
```
docker model run hf.co/Vikhrmodels/it-5.4-fp16-orpo-v2
```
Browse Quantizations to use this model in llama.cpp, Ollama, LM Studio, or any compatible app.

Инструктивный вихрь 5.4

Базовый Вихрь 5той версии (мистраль) обученный на переведенных инструкциях и ответах GPT-4 и улучшенный с помощью ORPO на нашем внутреннем датасете.

Модель имеет довольно высокое разннобразие ответов, поэтому рекомендуется использовать temperature в рендже [0.1, 0.4].

GGUF

Использование через transformers

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_name = 'Vikhrmodels/it-5.4-fp16-orpo-v2'
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    device_map="sequential",
    attn_implementation="sdpa",
    torch_dtype=torch.bfloat16
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

test_input = tokenizer.apply_chat_template([
    {'role': 'user', 'content': 'Привет, объясни что такое черные дыры'}
], add_generation_prompt=True, tokenize=True, return_tensors='pt')
test_input = test_input.to(model.device)

answer = model.generate(
    test_input,
    do_sample=True,
    use_cache=True,
    max_new_tokens=256, 
    temperature=0.3,
)[:, test_input.shape[-1]:]
answer = tokenizer.batch_decode(answer, skip_special_tokens=True)[0]
print(answer)

Ответ модели:

Привет! Черные дыры - это удивительные объекты, которые существуют в космосе. Они образуются из остатков массивных звезд, которые взрываются в результате сверхновой. После взрыва остается ядро звезды, которое коллапсирует под действием собственной гравитации, образуя черную дыру.

Черная дыра - это область пространства, где гравитационное притяжение настолько сильное, что ничто, даже свет, не может вырваться из нее. Это происходит потому, что гравитационное поле черной дыры настолько сильное, что оно искривляет пространство-время настолько, что даже свет не может покинуть ее.

Черные дыры могут быть разных размеров, от маленьких, которые могут быть размером с планету, до огромных, которые могут быть размером с галактику. Они могут быть как неподвижными, так и движущимися, и могут взаимодействовать с другими объектами в космосе, такими как звезды и планеты.

Черные дыры - это удивительные объекты, которые продолжают изучать ученые, и они могут многое рассказать нам о Вселенной и ее происхождении.

Использование через vllm + openai client

Запуск сервера в терминале:
python -m vllm.entrypoints.openai.api_server --model Vikhrmodels/it-5.4-fp16-orpo-v2 --dtype half --api-key token-abc123 -tp 1

import openai

llm_model = "Vikhrmodels/it-5.4-fp16-orpo-v2"
llm_client = openai.OpenAI(
            base_url="http://localhost:8000/v1",
            api_key="token-abc123",
        )

def make_completion(history, client, model):
    completion = client.chat.completions.create(
                model=model,
                messages=history,
                temperature=0.3,
                max_tokens=2048,
                stop=["</s>", "<eos>", "<|eot_id|>", "<|im_end|>"]
    )
    output = completion.choices[0].message.content
    return output

answer = make_completion([
    {'role': 'user', 'content': 'Привет, объясни что такое черные дыры'}
], llm_client, llm_model)
print(answer)

Метрики на ru_arena_general

Downloads last month: 71

Safetensors

Model size

8B params

Tensor type

F16

Model tree for Vikhrmodels/it-5.4-fp16-orpo-v2

Adapters

2 models

Merges

2 models

Quantizations

2 models