Update README.md
Browse files
README.md
CHANGED
|
@@ -2,4 +2,103 @@
|
|
| 2 |
license: other
|
| 3 |
license_name: virtuo
|
| 4 |
license_link: https://justina.cloud/licenses_models/virtuo/virtuo_1_0.txt
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 5 |
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 2 |
license: other
|
| 3 |
license_name: virtuo
|
| 4 |
license_link: https://justina.cloud/licenses_models/virtuo/virtuo_1_0.txt
|
| 5 |
+
language:
|
| 6 |
+
- pt
|
| 7 |
+
base_model:
|
| 8 |
+
- VirtuoTuring/Chat_Noir
|
| 9 |
+
pipeline_tag: text-generation
|
| 10 |
+
library_name: transformers
|
| 11 |
+
tags:
|
| 12 |
+
- PT-PT
|
| 13 |
+
- legal
|
| 14 |
+
- civil-procedure
|
| 15 |
+
- civil-code
|
| 16 |
+
- abuso-de-direito
|
| 17 |
+
- direito-da-família
|
| 18 |
+
- liberdade-sexual
|
| 19 |
+
- ações-populares
|
| 20 |
+
- ações-coletivas
|
| 21 |
+
- Código-processo-civil
|
| 22 |
+
- Código-civil
|
| 23 |
+
- safetensors
|
| 24 |
+
datasets:
|
| 25 |
+
- VirtuoTuring/justina_clarus
|
| 26 |
---
|
| 27 |
+
|
| 28 |
+
# Justina Clarus 24B — safetensors (v2)
|
| 29 |
+
|
| 30 |
+
Versão 2. Reforçada com mais sessões de treino e mais pares Q/A em PT-PT, mantendo foco no CPC e no CC e temas conexos.
|
| 31 |
+
|
| 32 |
+
## O que mudou na v2
|
| 33 |
+
- Aumento do número de pares e iterações de treino.
|
| 34 |
+
- Maior consistência estilística em PT-PT técnico e jurídico.
|
| 35 |
+
- Mais robustez a variações de pergunta dentro do mesmo domínio.
|
| 36 |
+
|
| 37 |
+
## Generalização e não-memorização
|
| 38 |
+
- O modelo não memoriza verbatim todas as respostas. Retém padrões gerais e pode aproximar-se de formulações consistentes.
|
| 39 |
+
- Aprendeu formato, tom e padrões das tuas perguntas e respostas formais em PT-PT com jargões específicos (jurídico, técnico). Responde de forma consistente nesse estilo, mesmo para perguntas diferentes das do dataset. Útil para: aplicações que exigem respostas consistentes com o tom do dataset, sem exigir reprodução literal. Excelente para RAG.
|
| 40 |
+
- Capta padrões semânticos e sintáticos do corpus jurídico PT-PT. Para perguntas idênticas ou muito próximas, as respostas tendem a ser precisas (>80–90% de equivalência semântica, mesmo sem verbatim). Útil para: cenários com perguntas variadas mas dentro do mesmo tema jurídico. Melhor generalização.
|
| 41 |
+
|
| 42 |
+
## Destinos preferenciais
|
| 43 |
+
Este modelo é base para:
|
| 44 |
+
1) fine-tune dirigido a matérias legais específicas;
|
| 45 |
+
2) integração em RAG;
|
| 46 |
+
3) uso de contexto dado no prompt (leis, interpretações, factos) para compor texto jurídico.
|
| 47 |
+
|
| 48 |
+
## Cobertura jurídica
|
| 49 |
+
- CPC: espécies de ações, processos, competência, recursos, caso julgado.
|
| 50 |
+
- CC: obrigações, responsabilidade civil, direitos de personalidade.
|
| 51 |
+
- Reforços: abuso de direito; família e menores; liberdade sexual; ações populares.
|
| 52 |
+
- Contexto adicional (seletivo): CPP, CP, CRP, CEDH, RGPD (+ Lei 58/2019), Lei 112/2009, Lei 130/2015, LAV, Reg. (UE) 1215/2012, Reg. (UE) 2019/1111, Dir. 2004/25/CE, CVM 194/196.
|
| 53 |
+
|
| 54 |
+
## Dados e esquema
|
| 55 |
+
Treino em JSONL com pares Q/A autossuficientes.
|
| 56 |
+
|
| 57 |
+
Schema
|
| 58 |
+
{"messages":[{"role":"user","content":"…"},{"role":"assistant","content":"…"}]}
|
| 59 |
+
|
| 60 |
+
Exemplos
|
| 61 |
+
{"messages":[{"role":"user","content":"Quais são as espécies fundamentais de ações no Direito Processual Civil segundo o artigo 10.º, n.º 1 CPC?"},{"role":"assistant","content":"Segundo o artigo 10.º, n.º 1 CPC, distinguem-se duas espécies fundamentais de ações no esquema do processo civil."}]}
|
| 62 |
+
{"messages":[{"role":"user","content":"O que caracteriza a ação declarativa?"},{"role":"assistant","content":"A ação declarativa pode ser de simples apreciação, de condenação ou constitutiva (art. 10.º, n.os 2 e 3 CPC), pedindo-se em cada subespécie providências distintas."}]}
|
| 63 |
+
|
| 64 |
+
## Utilização
|
| 65 |
+
Distribuição em safetensors para transformers.
|
| 66 |
+
|
| 67 |
+
Python (FP16/BF16)
|
| 68 |
+
from transformers import AutoTokenizer, AutoModelForCausalLM
|
| 69 |
+
import torch
|
| 70 |
+
repo = "VirtuoTuring/justina_clarus-24b-safetensors"
|
| 71 |
+
tok = AutoTokenizer.from_pretrained(repo, use_fast=True)
|
| 72 |
+
dtype = torch.bfloat16 if torch.cuda.is_bf16_supported() else torch.float16
|
| 73 |
+
model = AutoModelForCausalLM.from_pretrained(repo, torch_dtype=dtype, device_map="auto")
|
| 74 |
+
prompt = "Pergunta: Indique as espécies de ações no art. 10.º, n.º 1 CPC.\nResposta:"
|
| 75 |
+
out = model.generate(**tok(prompt, return_tensors="pt").to(model.device),
|
| 76 |
+
max_new_tokens=400, temperature=0.2, top_p=0.9)
|
| 77 |
+
print(tok.decode(out[0], skip_special_tokens=True))
|
| 78 |
+
|
| 79 |
+
Python 4-bit (bitsandbytes)
|
| 80 |
+
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
|
| 81 |
+
import torch
|
| 82 |
+
bnb = BitsAndBytesConfig(load_in_4bit=True, bnb_4bit_quant_type="nf4",
|
| 83 |
+
bnb_4bit_use_double_quant=True,
|
| 84 |
+
bnb_4bit_compute_dtype=torch.bfloat16 if torch.cuda.is_bf16_supported() else torch.float16)
|
| 85 |
+
tok = AutoTokenizer.from_pretrained(repo, use_fast=True)
|
| 86 |
+
model = AutoModelForCausalLM.from_pretrained(repo, quantization_config=bnb, device_map="auto")
|
| 87 |
+
|
| 88 |
+
## Boas práticas
|
| 89 |
+
- Cite artigos e números quando aplicável.
|
| 90 |
+
- Valide com fontes oficiais. Revisão humana obrigatória em peças processuais.
|
| 91 |
+
- Para produção, preferir temperature baixa e limites explícitos de tokens.
|
| 92 |
+
|
| 93 |
+
## Limitações
|
| 94 |
+
- Janela de contexto ~4k tokens.
|
| 95 |
+
- Não substitui profissionais forenses nem decisões dos tribunais.
|
| 96 |
+
- Pode falhar em regimes especiais ou alterações legislativas recentes.
|
| 97 |
+
|
| 98 |
+
## Licença
|
| 99 |
+
Virtuo 1.0. Uso, modificação e redistribuição, incluindo comercial, com preservação dos avisos e referência a Virtuo Turing – Artificial Intelligence, S.A.
|
| 100 |
+
|
| 101 |
+
## Créditos
|
| 102 |
+
Virtuo Turing – Artificial Intelligence, S.A. (Portugal) e Octávio Viana.
|
| 103 |
+
Base © Mistral AI (Apache-2.0).
|
| 104 |
+
Website: https://justina.cloud
|