Mattimax commited on
Commit
73c8d1e
·
verified ·
1 Parent(s): 756ab48

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +141 -3
README.md CHANGED
@@ -1,3 +1,141 @@
1
- ---
2
- license: mit
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: mit
3
+ base_model:
4
+ - Mattimax/DACMini-IT
5
+ language:
6
+ - it
7
+ library_name: transformers
8
+ tags:
9
+ - DAC
10
+ - DATA-AI
11
+ - data-ai
12
+ - quantized
13
+ - gguf
14
+ - Q8
15
+ - lightweight
16
+ datasets:
17
+ - Mattimax/DATA-AI_Conversation_ITA
18
+ ---
19
+
20
+ [![HuggingFace](https://img.shields.io/badge/HuggingFace-Mattimax-brightgreen)](https://huggingface.co/Mattimax)
21
+ [![M.INC](https://img.shields.io/badge/M.INC-Labs-blue)](https://huggingface.co/MINC01)
22
+
23
+ # Mattimax/DACMini-IT-Q8_0
24
+
25
+ ![Logo di DACMini](https://huggingface.co/Mattimax/DACMini/resolve/main/DACMini_Logo/DACMini_Logo.png)
26
+
27
+ * **Autore:** [Mattimax](https://huggingface.co/Mattimax)
28
+ * **Organizzazione:** [M.INC](https://huggingface.co/MINC01)
29
+ * **Licenza:** MIT
30
+ * **Modello base:** [Mattimax/DACMini-IT](https://huggingface.co/Mattimax/DACMini-IT)
31
+
32
+ ---
33
+
34
+ ## Descrizione
35
+
36
+ **DACMini-IT-Q8_0** è la **versione quantizzata in Q8_0** del modello [**Mattimax/DACMini-IT**](https://huggingface.co/Mattimax/DACMini-IT), ottimizzata per l’esecuzione **più efficiente e leggera** su CPU e GPU con supporto limitato alla memoria.
37
+ Questa versione mantiene la qualità linguistica e conversazionale del modello originale, riducendo drasticamente il peso e il consumo di RAM grazie alla **quantizzazione a 8 bit (Q8_0)**.
38
+
39
+ La quantizzazione è stata realizzata per l’uso con **llama.cpp**, **text-generation-webui**, e altri framework compatibili con il formato **GGUF**.
40
+
41
+ ---
42
+
43
+ ## Caratteristiche tecniche
44
+
45
+ | Proprietà | Valore |
46
+ |------------|--------|
47
+ | **Base model** | Mattimax/DACMini-IT |
48
+ | **Architettura** | GPT-2 Small (italian adaptation) |
49
+ | **Parametri effettivi** | ~109M |
50
+ | **Formato** | GGUF |
51
+ | **Quantizzazione** | Q8_0 |
52
+ | **Precisione numerica** | 8-bit |
53
+ | **Contesto massimo** | 512 token |
54
+ | **Dimensione del file** | ~420 MB |
55
+ | **Vocabolario** | ~50.000 token |
56
+
57
+ ---
58
+
59
+ ## Cos’è la quantizzazione Q8_0
60
+
61
+ Il formato **Q8_0** (int8 a precisione fissa) rappresenta un compromesso ideale tra **efficienza computazionale e qualità del modello**.
62
+ Riduce le dimensioni del file e l’uso di memoria **senza una perdita significativa di performance** nel dialogo e nella comprensione linguistica.
63
+
64
+ - Ogni parametro è compresso in 8 bit.
65
+ - Mantiene una precisione quasi identica al modello FP16.
66
+ - Ideale per inferenza su CPU (Intel, AMD) o GPU di fascia media (es. GTX, RTX, Tesla).
67
+
68
+ ---
69
+
70
+ ## Obiettivi
71
+
72
+ * Esecuzione **offline o embedded** di chatbot in lingua italiana.
73
+ * Supporto per **applicazioni su macchine a risorse limitate**.
74
+ * Esperimenti NLP e inferenza rapida in ambiente desktop o server.
75
+
76
+ ---
77
+
78
+ ## Uso consigliato
79
+
80
+ ### 1. Inference con `llama.cpp`
81
+
82
+ ```bash
83
+ ./main -m DACMini-IT-Q8_0.gguf -p "Ciao, come stai oggi?" -n 150
84
+ ````
85
+
86
+ ### 2. Inference con `text-generation-webui`
87
+
88
+ 1. Copia il file `.gguf` nella cartella `models/`.
89
+ 2. Seleziona il modello da interfaccia grafica.
90
+ 3. Imposta temperatura, top_p e lunghezza di output a piacere.
91
+ 4. Avvia la chat.
92
+
93
+ ---
94
+
95
+ ## Prestazioni stimate
96
+
97
+ | Dispositivo | RAM richiesta | Tempo di risposta medio (token/s) |
98
+ | -------------------------- | ------------- | --------------------------------- |
99
+ | CPU Intel i7-3770 | ~1.5 GB | ~20 token/s |
100
+ | GPU GTX 970 | ~1.2 GB VRAM | ~40 token/s |
101
+ | CPU moderni (Ryzen 5 5600) | ~1.0 GB | ~60 token/s |
102
+
103
+ *(valori indicativi, possono variare in base al contesto e al sistema operativo)*
104
+
105
+ ---
106
+
107
+ ## Limitazioni
108
+
109
+ * Alcune lievi imprecisioni nelle risposte rispetto alla versione FP16.
110
+ * Non adatto a compiti di reasoning o traduzione complessa.
111
+ * Ottimizzato per dialoghi e generazione di testo naturale in italiano.
112
+
113
+ ---
114
+
115
+ ## Riferimenti
116
+
117
+ * Modello originale: [Mattimax/DACMini-IT](https://huggingface.co/Mattimax/DACMini-IT)
118
+ * Dataset di addestramento: [Mattimax/DATA-AI_Conversation_ITA](https://huggingface.co/datasets/Mattimax/DATA-AI_Conversation_ITA)
119
+ * Organizzazione: [M.INC](https://huggingface.co/MINC01)
120
+ * Collezione: [Little_DAC Collection](https://huggingface.co/collections/Mattimax/little-dac-collection-68e11d19a5949d08e672b312)
121
+
122
+ ---
123
+
124
+ ## Citazione
125
+
126
+ Se utilizzi **Mattimax/DACMini-IT-Q8_0** in un progetto o pubblicazione, cita il modello originale:
127
+
128
+ ```bibtex
129
+ @misc{mattimax2025dacminiitq8,
130
+ title = {{Mattimax/DACMini-IT-Q8_0}: versione quantizzata del modello DACMini-IT},
131
+ author = {Mattimax},
132
+ howpublished = {\url{https://huggingface.co/Mattimax/DACMini-IT-Q8_0}},
133
+ year = {2025},
134
+ note = {Versione quantizzata (Q8_0) basata su Mattimax/DACMini-IT. Licenza MIT.}
135
+ }
136
+ ```
137
+
138
+ ---
139
+
140
+ **© 2025 Mattimax / M.INC Labs** — Modello open source rilasciato sotto licenza **MIT**.
141
+ Ottimizzato per un’intelligenza artificiale accessibile, leggera e tutta italiana.