Turkish Toxic Comment Classifier

TEST: Live/Canlı Test

Model ID: cagrigungor/turkishtoxic-classifier
Model Type: BERT (trained from scratch on Turkish corpus)
Task: Toxic / Non-Toxic Text Classification (Türkçe metinlerde toksisite tespiti)


Overview

Bu model, tamamen sıfırdan eğitilmiş Türkçe bir BERT tabanlı toksisite sınıflandırıcısıdır.
Amaç, bir metnin küfür, hakaret, nefret söylemi gibi toksik içerik taşıyıp taşımadığını belirlemektir.

Model, Türkçe doğal dil işleme (NLP) alanında açık kaynak olarak geliştirilen bir projenin parçasıdır
ve içerik güvenliği, moderasyon sistemleri veya sosyal medya metin analizi gibi alanlarda kullanılabilir.


Training Details

Parametre Değer
Base Architecture BERT (12 katman, 512 gizli boyut, 8 dikkat başlığı)
Tokenizer SentencePiece (32,005 kelime)
Corpus Size 17M+ Türkçe cümle
Pretraining Objective Masked Language Modeling (MLM)
Downstream Task Toxic Comment Classification
Training Samples 100K Türkçe yorum
Accuracy (Validation) 0.9389
F1 (Macro) 0.9385
Max Sequence Length 256
Optimizer AdamW
Learning Rate 3e-5
Epochs 3
Batch Size 64

Labels

Label Açıklama
toxic Küfür, hakaret veya saldırgan dil içeren metin
notoxic Tarafsız, olumlu veya bilgilendirici metin

Quick Usage

Modeli doğrudan transformers.pipeline ile yükleyip test edebilirsiniz:

from transformers import pipeline

# Modeli yükle
clf = pipeline("text-classification", model="cagrigungor/turkishtoxic-classifier")

# Tek örnek testi
print(clf("Bugün hava çok güzel."))

Expected Output:

[{'label': 'notoxic', 'score': 0.992}] You can also test multiple sentences at once:

Downloads last month
27
Safetensors
Model size
54.7M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Space using cagrigungor/turkishtoxic-classifier 1