---
license: apache-2.0
license_link: https://huggingface.co/Qwen/Qwen2.5-0.5B-Instruct/blob/main/LICENSE
language:
- it
- en
pipeline_tag: text-generation
base_model: Qwen/Qwen2.5-0.5B-Instruct
tags:
- chat
library_name: transformers
datasets:
- Mattimax/DATA-AI_Conversation_ITA
- teelinsan/camoscio
- efederici/alpaca-gpt4-it
- s-conia/arc_italian
- alexandrainst/m_mmlu
---

# 🧠 Mattimax/DATA-AI\_Chat\_4.1\_0.5B

**DATA-AI Chat 4.1 (0.5B)** è un modello di linguaggio di tipo *instruction-following* fine-tuned sulla base di [`Qwen/Qwen2.5-0.5B-Instruct`](https://huggingface.co/Qwen/Qwen2.5-0.5B-Instruct), specializzato per generazione, conversazione e risoluzione di compiti in lingua **italiana**.

È stato addestrato su un mix curato di dataset aperti per rafforzare le capacità del modello in ambiti conversazionali, accademici e di ragionamento automatico.

---

## 📌 Modello di Partenza

* **Base model**: `Qwen/Qwen2.5-0.5B-Instruct`
* **Architettura**: Causal Language Model (decoder-only)
* **Parametri**: 0.5 miliardi
* **Licenza originale**: [Qwen License](https://huggingface.co/Qwen/Qwen2.5-0.5B-Instruct)

---

## 🎯 Obiettivo del Fine-tuning

Il fine-tuning ha mirato a:

* Ottimizzare il comportamento *instruction-following* in italiano
* Migliorare l’interazione in stile chatbot
* Aumentare le performance in domande a scelta multipla e contenuti accademici
* Integrare capacità generative con robustezza nei task di comprensione

---

## 🗂️ Dataset utilizzati

Il modello è stato addestrato su un mix di dataset open-source contenenti sia dialoghi generativi che domande complesse.
Tutti i dataset sono in lingua italiana o sono stati tradotti automaticamente.

| Dataset                               | Fonte                | Tipo              | Note                   |
| ------------------------------------- | -------------------- | ----------------- | ---------------------- |
| `Mattimax/DATA-AI_Conversation_ITA`   | Conversazionale      | Prompt + Risposta | Chat generative        |
| `teelinsan/camoscio`                  | Instruction-based    | Prompt + Risposta | Domande dirette        |
| `efederici/alpaca-gpt4-it`            | Instruction tuning   | Prompt + Output   | Tradotto da Alpaca     |
| `s-conia/arc_italian` (ARC Challenge) | QA a scelta multipla | Tradotto          | Task di ragionamento   |
| `alexandrainst/m_mmlu` (`it`)         | QA accademico        | Tradotto          | MMLU versione italiana |

> Gli esempi sono stati filtrati per garantire che ogni esempio avesse sia un’istruzione (o prompt) che una risposta (o output), con un preprocessing dedicato per ARC e MMLU.

---

## 🌍 Lingue

* **Lingua di addestramento principale**: 🇮🇹 Italiano

Il modello si basa su una base multilingua, ma il fine-tuning è interamente focalizzato sull’italiano.

---

## ⚙️ Dettagli del Training

| Parametro              | Valore                                |
| ---------------------- | ------------------------------------- |
| Max sequence length    | 1024                                  |
| Batch size effettivo   | 32 (2 per device x 16 grad. accum.)   |
| Learning rate          | 2e-5                                  |
| Max steps              | 5000                                  |
| Validation split       | 5%                                    |
| Precisione             | BF16                                  |
| Gradient checkpointing | ✅ Abilitato                          |

---

## 📄 Licenza

Il modello eredita la licenza del modello di partenza: **[Qwen License](https://huggingface.co/Qwen/Qwen2.5-0.5B-Instruct)**.
Assicurati di rispettare i termini di utilizzo e distribuzione.

---

## 🚀 Come usare il modello

```python
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Mattimax/DATA-AI_Chat_4.1_0.5B"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

prompt = "Spiega in parole semplici la fotosintesi clorofilliana."
input_ids = tokenizer(prompt, return_tensors="pt").input_ids

outputs = model.generate(input_ids, max_new_tokens=200, do_sample=True)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
```

---

## 📊 Valutazione qualitativa

Durante il fine-tuning, il modello ha dimostrato:

* Migliore coerenza nelle risposte lunghe
* Comprensione semantica di prompt complessi
* Aumento dell’accuratezza nei task di QA (ARC e MMLU in italiano)
* Fluidità e naturalezza nei contesti di chat

Benchmark quantitativi estesi possono essere eseguiti successivamente.

---

## 👤 Autore e contatti

Fine-tuning eseguito da **Mattimax**
📬 Per feedback, segnalazioni o collaborazioni, apri una issue o contattami tramite Hugging Face.