Mistral‑7B‑Instruct‑v0.1 — Sigma Rules Classifier & Explainer
Modelo especializado en clasificar y explicar eventos de ciberseguridad según reglas Sigma, entrenado mediante LoRA y fusionado en pesos completos para despliegue directo.
Model Details
Model Description
- Developed by: Alejandro (daba0118)
- Model type: Causal Language Model (LLM)
- Languages: Español, Inglés (con foco en terminología técnica de ciberseguridad)
- License: Apache 2.0 (heredada del modelo base)
- Finetuned from model: mistralai/Mistral‑7B‑Instruct‑v0.1
Model Sources
- Repository: daba0118/mistral-7b-instruct-v0.1-rules-sigma
Uses
Direct Use
- Clasificación de eventos de logs según reglas Sigma.
- Generación de explicaciones técnicas para analistas SOC.
- Integración en pipelines de detección y respuesta.
Downstream Use
- Entrenamiento adicional con reglas Sigma personalizadas.
- Adaptación a otros marcos de detección (YARA, Suricata).
Out-of-Scope Use
- Uso como chatbot generalista sin restricciones.
- Generación de contenido no relacionado con ciberseguridad.
Bias, Risks, and Limitations
- Puede generar falsos positivos si el evento no coincide con una regla Sigma conocida.
- No sustituye la validación humana en entornos críticos.
- Riesgo de alucinaciones fuera del dominio de entrenamiento.
Recommendations
Usar siempre como apoyo a un analista humano y validar las salidas antes de tomar acciones críticas.
How to Get Started with the Model
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
model_id = "daba0118/mistral-7b-instruct-v0.1-rules-sigma"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto", torch_dtype="auto")
pipe = pipeline("text-generation", model=model, tokenizer=tokenizer)
prompt = "[INST] Clasifica y explica el evento según reglas Sigma.\n\nEvento: {...} [/INST]"
print(pipe(prompt, max_new_tokens=150, do_sample=False, repetition_penalty=1.1)[0]["generated_text"])
## Training Details
### Training Data
El dataset utilizado para el fine‑tuning proviene de [Dataset Entrenamiento Reglas Sigma en Kaggle](https://www.kaggle.com/datasets/diegoboh/dataset-entrenamiento-reglassigma/data).
Fue construido a partir de reglas Sigma en formato YAML extraídas de un software de análisis de vulnerabilidades.
Estas reglas se procesaron y adaptaron para generar ejemplos de eventos etiquetados con su correspondiente *Regla, **Severidad* y *Explicación*.
El conjunto final incluye tanto ejemplos reales como sintéticos para cubrir una amplia gama de patrones de ataque y comportamientos maliciosos.
### Training Procedure
- *Base model:* mistralai/Mistral‑7B‑Instruct‑v0.1
- *Método:* Fine‑tuning con LoRA y posterior fusión de pesos (merge_and_unload)
- *Hardware:* NVIDIA Tesla P100 (16 GB VRAM) en Kaggle
- *Duración:* ~9 horas (incluyendo merge y subida al Hub)
- *Precisión:* bfloat16
- *Batch size:* 64 (acumulado con gradiente)
- *Learning rate:* 2e‑4
- *Epochs:* 3
### Hyperparameters
- LoRA rank: 16
- LoRA alpha: 32
- Target modules: capas de atención y proyección del modelo base
- Downloads last month
- -
Model tree for daba0118/mistral-7b-instruct-v0.1-rules-sigma
Base model
mistralai/Mistral-7B-v0.1
Finetuned
mistralai/Mistral-7B-Instruct-v0.1