You need to agree to share your contact information to access this model

This repository is publicly accessible, but you have to accept the conditions to access its files and content.

Log in or Sign Up to review the conditions and access this model content.

Mistral‑7B‑Instruct‑v0.1 — Sigma Rules Classifier & Explainer

Modelo especializado en clasificar y explicar eventos de ciberseguridad según reglas Sigma, entrenado mediante LoRA y fusionado en pesos completos para despliegue directo.

Model Details

Model Description

  • Developed by: Alejandro (daba0118)
  • Model type: Causal Language Model (LLM)
  • Languages: Español, Inglés (con foco en terminología técnica de ciberseguridad)
  • License: Apache 2.0 (heredada del modelo base)
  • Finetuned from model: mistralai/Mistral‑7B‑Instruct‑v0.1

Model Sources

Uses

Direct Use

  • Clasificación de eventos de logs según reglas Sigma.
  • Generación de explicaciones técnicas para analistas SOC.
  • Integración en pipelines de detección y respuesta.

Downstream Use

  • Entrenamiento adicional con reglas Sigma personalizadas.
  • Adaptación a otros marcos de detección (YARA, Suricata).

Out-of-Scope Use

  • Uso como chatbot generalista sin restricciones.
  • Generación de contenido no relacionado con ciberseguridad.

Bias, Risks, and Limitations

  • Puede generar falsos positivos si el evento no coincide con una regla Sigma conocida.
  • No sustituye la validación humana en entornos críticos.
  • Riesgo de alucinaciones fuera del dominio de entrenamiento.

Recommendations

Usar siempre como apoyo a un analista humano y validar las salidas antes de tomar acciones críticas.

How to Get Started with the Model

from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline

model_id = "daba0118/mistral-7b-instruct-v0.1-rules-sigma"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto", torch_dtype="auto")

pipe = pipeline("text-generation", model=model, tokenizer=tokenizer)

prompt = "[INST] Clasifica y explica el evento según reglas Sigma.\n\nEvento: {...} [/INST]"
print(pipe(prompt, max_new_tokens=150, do_sample=False, repetition_penalty=1.1)[0]["generated_text"])

## Training Details

### Training Data
El dataset utilizado para el fine‑tuning proviene de [Dataset Entrenamiento Reglas Sigma en Kaggle](https://www.kaggle.com/datasets/diegoboh/dataset-entrenamiento-reglassigma/data).  
Fue construido a partir de reglas Sigma en formato YAML extraídas de un software de análisis de vulnerabilidades.  
Estas reglas se procesaron y adaptaron para generar ejemplos de eventos etiquetados con su correspondiente *Regla, **Severidad* y *Explicación*.  
El conjunto final incluye tanto ejemplos reales como sintéticos para cubrir una amplia gama de patrones de ataque y comportamientos maliciosos.

### Training Procedure
- *Base model:* mistralai/Mistral‑7B‑Instruct‑v0.1
- *Método:* Fine‑tuning con LoRA y posterior fusión de pesos (merge_and_unload)
- *Hardware:* NVIDIA Tesla P100 (16 GB VRAM) en Kaggle
- *Duración:* ~9 horas (incluyendo merge y subida al Hub)
- *Precisión:* bfloat16
- *Batch size:* 64 (acumulado con gradiente)
- *Learning rate:* 2e‑4
- *Epochs:* 3

### Hyperparameters
- LoRA rank: 16
- LoRA alpha: 32
- Target modules: capas de atención y proyección del modelo base
Downloads last month
-
Safetensors
Model size
7B params
Tensor type
F16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for daba0118/mistral-7b-instruct-v0.1-rules-sigma

Adapter
(436)
this model