Turkish Toxic Comment Classifier

TEST: Live/Canlı Test

Model ID: cagrigungor/turkishtoxic-classifier
Model Type: BERT (trained from scratch on Turkish corpus)
Task: Toxic / Non-Toxic Text Classification (Türkçe metinlerde toksisite tespiti)

Overview

Bu model, tamamen sıfırdan eğitilmiş Türkçe bir BERT tabanlı toksisite sınıflandırıcısıdır.
Amaç, bir metnin küfür, hakaret, nefret söylemi gibi toksik içerik taşıyıp taşımadığını belirlemektir.

Model, Türkçe doğal dil işleme (NLP) alanında açık kaynak olarak geliştirilen bir projenin parçasıdır
ve içerik güvenliği, moderasyon sistemleri veya sosyal medya metin analizi gibi alanlarda kullanılabilir.

Training Details

Parametre	Değer
Base Architecture	BERT (12 katman, 512 gizli boyut, 8 dikkat başlığı)
Tokenizer	SentencePiece (32,005 kelime)
Corpus Size	17M+ Türkçe cümle
Pretraining Objective	Masked Language Modeling (MLM)
Downstream Task	Toxic Comment Classification
Training Samples	100K Türkçe yorum
Accuracy (Validation)	0.9389
F1 (Macro)	0.9385
Max Sequence Length	256
Optimizer	AdamW
Learning Rate	3e-5
Epochs	3
Batch Size	64

Labels

Label	Açıklama
`toxic`	Küfür, hakaret veya saldırgan dil içeren metin
`notoxic`	Tarafsız, olumlu veya bilgilendirici metin

Quick Usage

Modeli doğrudan transformers.pipeline ile yükleyip test edebilirsiniz:

from transformers import pipeline

# Modeli yükle
clf = pipeline("text-classification", model="cagrigungor/turkishtoxic-classifier")

# Tek örnek testi
print(clf("Bugün hava çok güzel."))

Expected Output:

[{'label': 'notoxic', 'score': 0.992}] You can also test multiple sentences at once:

Downloads last month: 27

Safetensors

Model size

54.7M params

Tensor type

F32

cagrigungor
/

turkishtoxic-classifier

Turkish Toxic Comment Classifier

Overview

Training Details

Labels

Quick Usage

Space using cagrigungor/turkishtoxic-classifier 1