Dealing with Data Imbalance in Text_Classification

Text Classification - Class Imbalance

특정 클래스 들의 데이터 수가 상대적으로 적은 Imbalance(불균형) 문제

<aside> 💡 텍스트를 벡터 형태로 바꾼 representation을 생성해내는 것

</aside>

Class 등의 수가 너무 불균형할 때 일반적인 Classfire 들은 제대로 작동을 못함.
precision과 recall 간의 trade-off를 잘 처리하기 위한 방법들이 필요.
1. 분류 전에 전처리를 하는 방식
2. 분류 알고리즘 자체를 수정

<aside> 💡 데이터 셋을 수정해서 클래스의 사이즈 간 차이를 줄이는 방법

</aside>

Undersampling - majority class(data 수가 많은 class)의 데이터를 삭제하는 방식

→ 기존 실험들에서 좋지 않은 결과를 내는 것으로 밝혀짐. → ❌
Oversampling - minority class(data 수가 적은 class)의 데이터를 만들어내는 방식

Random Oversampling

<aside> 💡 minority class 에서 샘플을 랜덤으로 뽑아서 복사하는 방법

</aside>
SMOTE(= Synthetic Minority Over-sampling Technique)

<aside> 💡 minority class 의 샘플을 가져와 이들을 잇는 선에서 중간값을 택하여 만들어내는 방식

</aside>
- 합성을 기반으로 하는 방법임.
SMOTE-SVM

<aside> 💡 SVM Classfier에 의해 만들어진 Suppoort Vectors(경계선과 가까운 vertor들)에 속하는 인스턴스 들에만 SMOTE algorithm 을 적용한 방법

</aside>
- SVM을 학습 후 support vector들에 속하는 샘플들이 나오면 SMOTE를 이용해 Oversampling
- 클래스 간의 경계선을 좀 더 뚜렷하게 만드는 효과