BERT를 향상시킬 수 있는 방법

BERT

Untitled

좌-우(left-to-right), 우-좌(right-to-left)우-좌(right-to-left) 문맥을 각각 독립적으로 계산하여 접합한 형태
OpenAI GPT는 좌-우(left-to-right)로만-우(left-to-right) 계산하는데 두 방법 모두 공통적으로 양방향 문맥 등을 보지 못하여 충분히 언어 표현을 하지 못하는 단점이 존재
BERT는 사전 학습을 위해 두 가지 방법 (Masked Language Model(MLM)과 Next Sentence Prediction(NSP))를 사용하는데 이 방법들은 BERT가 양방향으로 학습되어 문맥을 더 잘 파악할 수 있게함.

SMOTE(Synthetic Minority Oversampling Technique)

→ 소수의 클래스에 속하는 데이터 주변에 원본 데이터와 동일하지 않으면서 소수의 클래스에 해당하는 가상의 데이터를 생성하는 방법
Focal loss

→ 잘 찾은 class의 경우에는 loss를 적게 줘 loss 갱신을 거의 하지 못하게 하고, 잘 찾지 못한 class의 경우 loss를 크게 줘서 loss 갱신을 크게 하는 것
EDA(Easy Data Augmentation)

→ EDA는 학습 데이터가 부족하거나, 불균형 문제가 발생했을 때, 현재 보유하고 있는 데이터를 변형시켜 데이터의 양을 늘리는 기법
1. SR(Synonym Replacement, 동의어 교체)
  
  → 문장에서 랜덤으로 stop words가 아닌 단어들 중 n개를 선택해 임의로 선택한 동의어들 중 하나로 바꿈
2. RI(Random Insertion, 무작위 삽입)
  
  → stop word를 제외한 나머지 단어들 중, 랜덤으로 단어를 선택하여 동의어를 임의어로 정하고, 이를 각 문장 내에 임의의 자리에 넣음
3. RS(Random Swap, 무작위 교체)
  
  → 각 문장에서 무작위로 두 단어를 선택해 그 위치를 바꿈
4. RD(Random Deletion, 무작위 삭제)
  
  → 각 문장 내에서 랜덤하게 단어를 선택해 이를 삭제함

Robustly optimized BERT approach

이수진의 블로그