Turkish Toxic Comment Classifier
TEST: Live/Canlı Test
Model ID: cagrigungor/turkishtoxic-classifier
Model Type: BERT (trained from scratch on Turkish corpus)
Task: Toxic / Non-Toxic Text Classification (Türkçe metinlerde toksisite tespiti)
Overview
Bu model, tamamen sıfırdan eğitilmiş Türkçe bir BERT tabanlı toksisite sınıflandırıcısıdır.
Amaç, bir metnin küfür, hakaret, nefret söylemi gibi toksik içerik taşıyıp taşımadığını belirlemektir.
Model, Türkçe doğal dil işleme (NLP) alanında açık kaynak olarak geliştirilen bir projenin parçasıdır
ve içerik güvenliği, moderasyon sistemleri veya sosyal medya metin analizi gibi alanlarda kullanılabilir.
Training Details
| Parametre | Değer |
|---|---|
| Base Architecture | BERT (12 katman, 512 gizli boyut, 8 dikkat başlığı) |
| Tokenizer | SentencePiece (32,005 kelime) |
| Corpus Size | 17M+ Türkçe cümle |
| Pretraining Objective | Masked Language Modeling (MLM) |
| Downstream Task | Toxic Comment Classification |
| Training Samples | 100K Türkçe yorum |
| Accuracy (Validation) | 0.9389 |
| F1 (Macro) | 0.9385 |
| Max Sequence Length | 256 |
| Optimizer | AdamW |
| Learning Rate | 3e-5 |
| Epochs | 3 |
| Batch Size | 64 |
Labels
| Label | Açıklama |
|---|---|
toxic |
Küfür, hakaret veya saldırgan dil içeren metin |
notoxic |
Tarafsız, olumlu veya bilgilendirici metin |
Quick Usage
Modeli doğrudan transformers.pipeline ile yükleyip test edebilirsiniz:
from transformers import pipeline
# Modeli yükle
clf = pipeline("text-classification", model="cagrigungor/turkishtoxic-classifier")
# Tek örnek testi
print(clf("Bugün hava çok güzel."))
Expected Output:
[{'label': 'notoxic', 'score': 0.992}] You can also test multiple sentences at once:
- Downloads last month
- 27