VirtuoTuring commited on
Commit
4c04fdf
·
verified ·
1 Parent(s): 89d3cb0

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +99 -0
README.md CHANGED
@@ -2,4 +2,103 @@
2
  license: other
3
  license_name: virtuo
4
  license_link: https://justina.cloud/licenses_models/virtuo/virtuo_1_0.txt
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5
  ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2
  license: other
3
  license_name: virtuo
4
  license_link: https://justina.cloud/licenses_models/virtuo/virtuo_1_0.txt
5
+ language:
6
+ - pt
7
+ base_model:
8
+ - VirtuoTuring/Chat_Noir
9
+ pipeline_tag: text-generation
10
+ library_name: transformers
11
+ tags:
12
+ - PT-PT
13
+ - legal
14
+ - civil-procedure
15
+ - civil-code
16
+ - abuso-de-direito
17
+ - direito-da-família
18
+ - liberdade-sexual
19
+ - ações-populares
20
+ - ações-coletivas
21
+ - Código-processo-civil
22
+ - Código-civil
23
+ - safetensors
24
+ datasets:
25
+ - VirtuoTuring/justina_clarus
26
  ---
27
+
28
+ # Justina Clarus 24B — safetensors (v2)
29
+
30
+ Versão 2. Reforçada com mais sessões de treino e mais pares Q/A em PT-PT, mantendo foco no CPC e no CC e temas conexos.
31
+
32
+ ## O que mudou na v2
33
+ - Aumento do número de pares e iterações de treino.
34
+ - Maior consistência estilística em PT-PT técnico e jurídico.
35
+ - Mais robustez a variações de pergunta dentro do mesmo domínio.
36
+
37
+ ## Generalização e não-memorização
38
+ - O modelo não memoriza verbatim todas as respostas. Retém padrões gerais e pode aproximar-se de formulações consistentes.
39
+ - Aprendeu formato, tom e padrões das tuas perguntas e respostas formais em PT-PT com jargões específicos (jurídico, técnico). Responde de forma consistente nesse estilo, mesmo para perguntas diferentes das do dataset. Útil para: aplicações que exigem respostas consistentes com o tom do dataset, sem exigir reprodução literal. Excelente para RAG.
40
+ - Capta padrões semânticos e sintáticos do corpus jurídico PT-PT. Para perguntas idênticas ou muito próximas, as respostas tendem a ser precisas (>80–90% de equivalência semântica, mesmo sem verbatim). Útil para: cenários com perguntas variadas mas dentro do mesmo tema jurídico. Melhor generalização.
41
+
42
+ ## Destinos preferenciais
43
+ Este modelo é base para:
44
+ 1) fine-tune dirigido a matérias legais específicas;
45
+ 2) integração em RAG;
46
+ 3) uso de contexto dado no prompt (leis, interpretações, factos) para compor texto jurídico.
47
+
48
+ ## Cobertura jurídica
49
+ - CPC: espécies de ações, processos, competência, recursos, caso julgado.
50
+ - CC: obrigações, responsabilidade civil, direitos de personalidade.
51
+ - Reforços: abuso de direito; família e menores; liberdade sexual; ações populares.
52
+ - Contexto adicional (seletivo): CPP, CP, CRP, CEDH, RGPD (+ Lei 58/2019), Lei 112/2009, Lei 130/2015, LAV, Reg. (UE) 1215/2012, Reg. (UE) 2019/1111, Dir. 2004/25/CE, CVM 194/196.
53
+
54
+ ## Dados e esquema
55
+ Treino em JSONL com pares Q/A autossuficientes.
56
+
57
+ Schema
58
+ {"messages":[{"role":"user","content":"…"},{"role":"assistant","content":"…"}]}
59
+
60
+ Exemplos
61
+ {"messages":[{"role":"user","content":"Quais são as espécies fundamentais de ações no Direito Processual Civil segundo o artigo 10.º, n.º 1 CPC?"},{"role":"assistant","content":"Segundo o artigo 10.º, n.º 1 CPC, distinguem-se duas espécies fundamentais de ações no esquema do processo civil."}]}
62
+ {"messages":[{"role":"user","content":"O que caracteriza a ação declarativa?"},{"role":"assistant","content":"A ação declarativa pode ser de simples apreciação, de condenação ou constitutiva (art. 10.º, n.os 2 e 3 CPC), pedindo-se em cada subespécie providências distintas."}]}
63
+
64
+ ## Utilização
65
+ Distribuição em safetensors para transformers.
66
+
67
+ Python (FP16/BF16)
68
+ from transformers import AutoTokenizer, AutoModelForCausalLM
69
+ import torch
70
+ repo = "VirtuoTuring/justina_clarus-24b-safetensors"
71
+ tok = AutoTokenizer.from_pretrained(repo, use_fast=True)
72
+ dtype = torch.bfloat16 if torch.cuda.is_bf16_supported() else torch.float16
73
+ model = AutoModelForCausalLM.from_pretrained(repo, torch_dtype=dtype, device_map="auto")
74
+ prompt = "Pergunta: Indique as espécies de ações no art. 10.º, n.º 1 CPC.\nResposta:"
75
+ out = model.generate(**tok(prompt, return_tensors="pt").to(model.device),
76
+ max_new_tokens=400, temperature=0.2, top_p=0.9)
77
+ print(tok.decode(out[0], skip_special_tokens=True))
78
+
79
+ Python 4-bit (bitsandbytes)
80
+ from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
81
+ import torch
82
+ bnb = BitsAndBytesConfig(load_in_4bit=True, bnb_4bit_quant_type="nf4",
83
+ bnb_4bit_use_double_quant=True,
84
+ bnb_4bit_compute_dtype=torch.bfloat16 if torch.cuda.is_bf16_supported() else torch.float16)
85
+ tok = AutoTokenizer.from_pretrained(repo, use_fast=True)
86
+ model = AutoModelForCausalLM.from_pretrained(repo, quantization_config=bnb, device_map="auto")
87
+
88
+ ## Boas práticas
89
+ - Cite artigos e números quando aplicável.
90
+ - Valide com fontes oficiais. Revisão humana obrigatória em peças processuais.
91
+ - Para produção, preferir temperature baixa e limites explícitos de tokens.
92
+
93
+ ## Limitações
94
+ - Janela de contexto ~4k tokens.
95
+ - Não substitui profissionais forenses nem decisões dos tribunais.
96
+ - Pode falhar em regimes especiais ou alterações legislativas recentes.
97
+
98
+ ## Licença
99
+ Virtuo 1.0. Uso, modificação e redistribuição, incluindo comercial, com preservação dos avisos e referência a Virtuo Turing – Artificial Intelligence, S.A.
100
+
101
+ ## Créditos
102
+ Virtuo Turing – Artificial Intelligence, S.A. (Portugal) e Octávio Viana.
103
+ Base © Mistral AI (Apache-2.0).
104
+ Website: https://justina.cloud