SenaSoft/chdv-sentiment-analysis

Este modelo es una adaptación de nlptown/bert-base-multilingual-uncased-sentiment entrenado con LoRA para la tarea de análisis de sentimiento en textos en español.
Fue ajustado específicamente en un dataset de publicaciones en redes sociales peruanas con 3 etiquetas: negativo, neutral y positivo.


Model Details

Model Description

  • Autores: Christopher Aponte y David Navarro
  • Modelo base: nlptown/bert-base-multilingual-uncased-sentiment
  • Tipo de modelo: Clasificación de secuencias (sentiment analysis)
  • Idiomas: Multilingual
  • Tarea: Análisis de sentimiento en textos cortos (ej. redes sociales)
  • License: Apache 2.0
  • Finetuned from: nlptown/bert-base-multilingual-uncased-sentiment

Model Sources


Uses

Direct Use

Este modelo puede usarse directamente para clasificar textos en español en positivo, negativo o neutral.

Ejemplos de uso:

from transformers import pipeline

clasificador = pipeline(
    "sentiment-analysis",
    model="SenaSoft/chdv-sentiment-analysis"
)

print(clasificador("Me encanta la sopa"))  
# [{'label': 'positivo', 'score': 0.85}]

print(clasificador("No me gusta nada la sopa"))  
# [{'label': 'negativo', 'score': 0.89}]

print(clasificador("La sopa está bien, pero prefiero otra cosa"))  
# [{'label': 'neutral', 'score': 0.39}]

Downstream Use

Puede integrarse en:

  • Plataformas de monitoreo de redes sociales.
  • Sistemas de atención al cliente.
  • Análisis de feedback de usuarios.

Out-of-Scope Use

  • No está entrenado para otros idiomas distintos al español, pero el modelo base sí.
  • No es un detector de sarcasmo ni de sentimientos complejos como miedo o sorpresa.
  • No debe usarse en contextos médicos, legales o financieros sin verificación adicional.

Bias, Risks, and Limitations

  • Entrenado con un dataset específico (Perú, redes sociales). Puede no generalizar igual en otros países o contextos.
  • Riesgo de sesgo cultural y lingüístico.
  • Puede fallar en casos de ironía, sarcasmo o ambigüedad semántica.

Recommendations

  • Se recomienda evaluar antes de usar en producción fuera de su dominio.
  • Puede complementarse con técnicas de ensembles o datasets más diversos.

Training Details

Training Data

Dataset: pyupeu/social-media-peruvian-sentiment
Etiquetas:

  • 0: negativo
  • 1: neutral
  • 2: positivo

Training Procedure

Preprocessing

  • Textos truncados y/o rellenados a max_length=128.
  • Tokenización con AutoTokenizer de bert-base-multilingual-uncased-sentiment.

Training Hyperparameters

  • LoRA Config:
    • r=8
    • lora_alpha=16
    • lora_dropout=0.7
  • TrainingArguments:
    • batch_size=16
    • num_train_epochs=20
    • learning_rate=5e-5
    • weight_decay=0.01
    • eval_strategy="epoch"
    • save_strategy="epoch"
    • load_best_model_at_end=True
    • metric_for_best_model="accuracy"

Speeds, Sizes, Times

  • Número de épocas: 20
  • Mejor resultado en epoch 15
  • Checkpoint tamaño aproximado: ~420 MB

Evaluation

Testing Data

Dataset de prueba del mismo pyupeu/social-media-peruvian-sentiment.

Metrics

  • Accuracy: 0.66
  • Training Loss (epoch 15): 0.722
  • Validation Loss (epoch 15): 0.785

Results

  • Mejor rendimiento alcanzado en epoch 15.
  • Buen ajuste considerando dataset pequeño y dominio específico.

Environmental Impact

  • Hardware: NVIDIA GPU (única)
  • Tiempo de entrenamiento: ~2 horas
  • Cloud Provider: Local / Dockerizado
  • Carbon Emitted: No estimado

Technical Specifications

Model Architecture and Objective

  • Modelo base: BERT Multilingüe (uncased)
  • Objetivo: clasificación en 3 clases
  • Técnica usada: Fine-tuning con LoRA

Compute Infrastructure

  • Hardware: GPU local
  • Software:
    • Python 3.10+
    • Transformers 4.56.1
    • PEFT 0.17.1
    • Datasets 3.0.2

Citation

BibTeX

@misc{aponte2025chdv,
  title={SenaSoft CHDV Sentiment Analysis},
  author={Aponte, Christopher and Navarro, David},
  year={2025},
  howpublished={Hugging Face},
  url={https://huggingface.co/SenaSoft/chdv-sentiment-analysis}
}

APA Aponte, C., & Navarro, D. (2025). SenaSoft CHDV Sentiment Analysis [Model]. Hugging Face. https://huggingface.co/SenaSoft/chdv-sentiment-analysis


Model Card Authors

Christopher Aponte y David Navarro

Model Card Contact

Para consultas: [Christopher Aponte & David Navarro, SenaSoft 2025]


Framework versions

  • PEFT: 0.17.1
  • Transformers: 4.56.1
  • Datasets: 3.0.2
Downloads last month
-
Safetensors
Model size
0.2B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for SenaSoft/chdv-sentiment-analysis

Adapter
(4)
this model

Dataset used to train SenaSoft/chdv-sentiment-analysis