Dealing_with_Data_Imbalance_in_Text_Classification.pdf
특정 클래스 들의 데이터 수가 상대적으로 적은 Imbalance(불균형) 문제
<aside> 💡 텍스트를 벡터 형태로 바꾼 representation을 생성해내는 것
</aside>
Bag of Words(BoW)
TF-IDF
GLOVE
→ 단어 등장 수를 표현한 행렬을 Factorization 등의 방법으로 차원을 줄인 후 사용하는 방법
DOC2VEC
→ Word2Vec을 기반으로 만들어진 embedding 방법
→ 단어들간의 관계(동의어와 반의어 관계 등)를 파악 가능
Word2Vec with char n-grams(fastText)
<aside> 💡 데이터 셋을 수정해서 클래스의 사이즈 간 차이를 줄이는 방법
</aside>
Undersampling - majority class(data 수가 많은 class)의 데이터를 삭제하는 방식
→ 기존 실험들에서 좋지 않은 결과를 내는 것으로 밝혀짐. → ❌
Oversampling - minority class(data 수가 적은 class)의 데이터를 만들어내는 방식
Random Oversampling
<aside> 💡 minority class 에서 샘플을 랜덤으로 뽑아서 복사하는 방법
</aside>
SMOTE(= Synthetic Minority Over-sampling Technique)
<aside> 💡 minority class 의 샘플을 가져와 이들을 잇는 선에서 중간값을 택하여 만들어내는 방식
</aside>
SMOTE-SVM
<aside> 💡 SVM Classfier에 의해 만들어진 Suppoort Vectors(경계선과 가까운 vertor들)에 속하는 인스턴스 들에만 SMOTE algorithm 을 적용한 방법
</aside>