You need to agree to share your contact information to access this model

This repository is publicly accessible, but you have to accept the conditions to access its files and content.

Mistral‑7B‑Instruct‑v0.1 — Sigma Rules Classifier & Explainer

Modelo especializado en clasificar y explicar eventos de ciberseguridad según reglas Sigma, entrenado mediante LoRA y fusionado en pesos completos para despliegue directo.

Model Details

Model Description

Developed by: Alejandro (daba0118)
Model type: Causal Language Model (LLM)
Languages: Español, Inglés (con foco en terminología técnica de ciberseguridad)
License: Apache 2.0 (heredada del modelo base)
Finetuned from model: mistralai/Mistral‑7B‑Instruct‑v0.1

Model Sources

Repository: daba0118/mistral-7b-instruct-v0.1-rules-sigma

Uses

Direct Use

Clasificación de eventos de logs según reglas Sigma.
Generación de explicaciones técnicas para analistas SOC.
Integración en pipelines de detección y respuesta.

Downstream Use

Entrenamiento adicional con reglas Sigma personalizadas.
Adaptación a otros marcos de detección (YARA, Suricata).

Out-of-Scope Use

Uso como chatbot generalista sin restricciones.
Generación de contenido no relacionado con ciberseguridad.

Bias, Risks, and Limitations

Puede generar falsos positivos si el evento no coincide con una regla Sigma conocida.
No sustituye la validación humana en entornos críticos.
Riesgo de alucinaciones fuera del dominio de entrenamiento.

Recommendations

Usar siempre como apoyo a un analista humano y validar las salidas antes de tomar acciones críticas.

How to Get Started with the Model

from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline

model_id = "daba0118/mistral-7b-instruct-v0.1-rules-sigma"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto", torch_dtype="auto")

pipe = pipeline("text-generation", model=model, tokenizer=tokenizer)

prompt = "[INST] Clasifica y explica el evento según reglas Sigma.\n\nEvento: {...} [/INST]"
print(pipe(prompt, max_new_tokens=150, do_sample=False, repetition_penalty=1.1)[0]["generated_text"])

## Training Details

### Training Data
El dataset utilizado para el fine‑tuning proviene de [Dataset Entrenamiento Reglas Sigma en Kaggle](https://www.kaggle.com/datasets/diegoboh/dataset-entrenamiento-reglassigma/data).  
Fue construido a partir de reglas Sigma en formato YAML extraídas de un software de análisis de vulnerabilidades.  
Estas reglas se procesaron y adaptaron para generar ejemplos de eventos etiquetados con su correspondiente *Regla, **Severidad* y *Explicación*.  
El conjunto final incluye tanto ejemplos reales como sintéticos para cubrir una amplia gama de patrones de ataque y comportamientos maliciosos.

### Training Procedure
- *Base model:* mistralai/Mistral‑7B‑Instruct‑v0.1
- *Método:* Fine‑tuning con LoRA y posterior fusión de pesos (merge_and_unload)
- *Hardware:* NVIDIA Tesla P100 (16 GB VRAM) en Kaggle
- *Duración:* ~9 horas (incluyendo merge y subida al Hub)
- *Precisión:* bfloat16
- *Batch size:* 64 (acumulado con gradiente)
- *Learning rate:* 2e‑4
- *Epochs:* 3

### Hyperparameters
- LoRA rank: 16
- LoRA alpha: 32
- Target modules: capas de atención y proyección del modelo base

Downloads last month: -

Safetensors

Model size

7B params

Tensor type

F16

Model tree for daba0118/mistral-7b-instruct-v0.1-rules-sigma

Base model

mistralai/Mistral-7B-v0.1

Finetuned

mistralai/Mistral-7B-Instruct-v0.1

Adapter

(436)

this model