meal-bbang/Korean_message
Viewer โข Updated โข 19k โข 122 โข 3
์ด ๋ชจ๋ธ์ ํ๊ตญ์ด SMS ๋ฌธ์ ๋ฉ์์ง๊ฐ ์ค๋ฏธ์ฑ(ํผ์ฑ ์ฌ๊ธฐ)์ธ์ง ์ ์ ๋ฌธ์ ์ธ์ง๋ฅผ ํ๋ณํ๊ธฐ ์ํด ๋ง๋ค์ด์ง TF-IDF + Logistic Regression ์์๋ธ ๋ถ๋ฅ๊ธฐ์ ๋๋ค.
char_wb n-gram ๋ฐฉ์์ ์ฌ์ฉํ์ฌ MeCab, KoNLPy ๋ฑ์ ์ค์น ์์ด๋ ํ๊ตญ์ด ์กฐ์ฌ์ ์ด๊ฐ ํจํด์ ํ์ตํฉ๋๋ค. ์ด๋น ์์ฒ ๊ฑด ์ด์ ์ถ๋ก ๊ฐ๋ฅํ ๊ทน๋์ ๊ฐ๋ฒผ์์ ์ง๋๋๋ค.unicodedata.normalize์ NFKC ๋ชจ๋๋ฅผ ํ์ฉํ์ฌ ์ํ์์ ๊ฐ๋ ๋ณด๋ด๊ฑฐ๋ ๊ณต๊ฒฉ์๋ค์ด ํํฐ๋ง์ ํผํ๊ธฐ ์ํด ๊ผผ์๋ก ์ฐ๋ '์ ๊ฐ ๋ฌธ์'๋ค์ ์ผ๋ฐ ๊ธ์ ํญ ํํ๋ก ๋ฐ๋ฅด๊ฒ ์ ๊ทํํ์ต๋๋ค.__URL__ ์ด๋ผ๋ ํน์ ํ ํฐ์ผ๋ก ์ผ๊ด ์นํํ์ฌ ํ์ต์์ผฐ์ต๋๋ค.์์ธ ์์น๋ metrics.json ์ฐธ๊ณ .
import joblib
from huggingface_hub import hf_hub_download
# ํ๋ธ์์ ํ์ผ ๋ค์ด๋ก๋
model_path = hf_hub_download(repo_id="Hyeonseo/ko-smishing-detector", filename="pipeline.pkl")
pipeline = joblib.load(model_path)
# ์ถ๋ก ํ
์คํธ (0: ์ ์, 1: ์ค๋ฏธ์ฑ)
texts = [
"[Web๋ฐ์ ] ์๋
ํ์ธ์, ์ฌ๋์ง์๊ธ ์ ์ฒญ ์๋ด์
๋๋ค. http://bit.ly/fakeurl",
"๋๋ฆฌ๋ ๋ด์ผ ์คํ 3์ ํ์ ์๋ฃ ์ฒจ๋ถํฉ๋๋ค."
]
probas = pipeline.predict_proba(texts)[:, 1]
for txt, score in zip(texts, probas):
print(f"์ค๋ฏธ์ฑ ํ๋ฅ {score:.2%} : {txt}")