File size: 4,317 Bytes
3cf3ac9
3b5d3ff
 
 
 
3cf3ac9
2c80a75
 
 
 
 
 
 
 
 
3cf3ac9
 
 
2c80a75
3cf3ac9
 
2c80a75
3cf3ac9
2c80a75
3cf3ac9
2c80a75
3cf3ac9
2c80a75
 
3cf3ac9
 
2c80a75
3cf3ac9
2c80a75
3cf3ac9
2c80a75
3cf3ac9
 
2c80a75
3cf3ac9
2c80a75
3cf3ac9
 
2c80a75
3cf3ac9
2c80a75
3cf3ac9
2c80a75
 
 
 
3cf3ac9
1312cb6
3cf3ac9
2c80a75
 
3cf3ac9
2c80a75
 
 
 
 
 
3cf3ac9
2c80a75
 
 
 
3cf3ac9
2c80a75
 
 
 
 
3cf3ac9
2c80a75
 
 
 
3cf3ac9
2c80a75
 
 
 
 
 
 
 
 
 
 
3cf3ac9
2c80a75
3cf3ac9
2c80a75
3cf3ac9
2c80a75
 
 
 
 
 
 
3cf3ac9
2c80a75
 
 
3cf3ac9
2c80a75
 
3cf3ac9
2c80a75
 
3cf3ac9
 
2c80a75
3cf3ac9
2c80a75
c55bf74
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
---
language:
- de
- en
license: llama3
library_name: transformers
tags:
- deutsch
- german
- seedbox
- llama3
- english
datasets:
- seedboxai/multitask_german_examples_32k
pipeline_tag: text-generation
---


![image/png](https://cdn-uploads.huggingface.co/production/uploads/645ded34a45b4182d7f5c385/fJPPaHpT8T5F-oY27MT3W.png)


# Llama-3-KafkaLM-8B-v0.1

**KafkaLM 8b** is a Llama3 8b model which was finetuned on an ensemble of popular high-quality open-source instruction sets (translated from English to German). 

Llama 3 KafkaLM 8b is a [Seedbox](https://huggingface.co/seedboxai) project trained by [Dennis Dickmann](https://huggingface.co/doubledsbv).

**Why Kafka?** 
The models are proficient, yet creative, and have some tendencies to linguistically push boundaries 😊


## Model Details

The purpose of releasing the **KafkaLM series** is to contribute to the German AI community with a set of fine-tuned LLMs that are easy to use in everyday applications across a variety of tasks.

The main goal is to provide LLMs proficient in German, especially to be used in German-speaking business contexts where English alone is not sufficient.


### Dataset

I used a 8k filtered version of the following [seedboxai/multitask_german_examples_32k](https://huggingface.co/datasets/seedboxai/multitask_german_examples_32k)


### Inference

Getting started with the model is straightforward

```python
import transformers
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "seedboxai/Llama-3-KafkaLM-8B-v0.1"

model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.bfloat16)
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)

pipeline = transformers.pipeline(
    model=model, tokenizer=tokenizer,
    return_full_text=True,  
    task='text-generation',
    device="cuda",
)

messages = [
    {"role": "system", "content": "Du bist ein hilfreicher KI-Assistent."},
    {"role": "user", "content": "Wer ist eigentlich dieser Kafka?"},
]

prompt = pipeline.tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

terminators = [
    pipeline.tokenizer.eos_token_id,
    pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = pipeline(
    prompt,
    max_new_tokens=max_new_tokens,
    num_beams=5,
    num_return_sequences=1,
    early_stopping=True,
    eos_token_id=terminators,
    do_sample=True,
    temperature=temperature,
    top_p=0.9,
)

print(outputs[0]["generated_text"][len(prompt):])

```

```
<|start_header_id|>system<|end_header_id|>Du bist ein hilfreicher KI-Assistent.<|eot_id|>
<|start_header_id|>user<|end_header_id|>Wer ist eigentlich dieser Kafka?<|eot_id|>
<|start_header_id|>assistant<|end_header_id|>Franz Kafka (1883-1924) war ein tschechisch-österreichischer Schriftsteller,
der als einer der bedeutendsten Autoren des 20. Jahrhunderts gilt. Seine Werke sind geprägt von existenzieller Angst, Isolation, Verwirrung und Absurdität.
Kafka wurde in Prag, Österreich-Ungarn (heute Tschechische Republik), geboren und wuchs in einer jüdischen Familie auf.
Er studierte Rechtswissenschaften und arbeitete als Versicherungsangestellter, bevor er sich dem Schreiben zuwandte.

Kafkas literarisches Werk umfasst Romane, Erzählungen, Briefe und Tagebücher. Zu seinen bekanntesten Werken gehören "Der Prozess" (1925),
"Das Schloss" (1926) und "Die Verwandlung" (1915). Seine Geschichten sind geprägt von surrealen, traumähnlichen Szenarien,
in denen die Charaktere oft in Situationen geraten, die sie nicht verstehen oder kontrollieren können.

Kafkas Werk hat einen tiefgreifenden Einfluss auf die Literatur und Kultur des 20. Jahrhunderts gehabt.
Seine Werke wurden in viele Sprachen übersetzt und inspirierten Autoren wie Albert Camus, Jean-Paul Sartre, Samuel Beckett und Thomas Mann.

Kafka starb 1924 im Alter von 40 Jahren an Tuberkulose. Trotz seines relativ kurzen Lebens hat er einen bleibenden Eindruck auf die Literatur und Kultur hinterlassen.
```


## Disclaimer

The license on this model does not constitute legal advice. We are not responsible for the actions of third parties who use this model.
This model should only be used for research purposes. The original Llama3 license and all restrictions of datasets used to train this model apply.