중간고사 연습문제

1. Tensor는 무엇인지 설명하라.

→ Tensor는 다차원 배열이며, 벡터와 행렬 개념을 일반화 한 것이다.

2. Curse of dimensionality에 대하여 설명해라.

→ Curse of dimensionality란, 차원의 저주이며, 차원이 증가함에 따라 데이터를 분석하고 처리하는데 있어서 여러 가지 어려움이 발생하는 것을 뜻한다.

K-NN에서는 국소적인 점들을 이용해 추정을 하게 되는데, 변수의 개수가 많아지면 최근접 점들이라고 해도 거리가 멀어지게 되어 고차원 데이터셋에서는 잘 작동하지 않는 문제점도 차원의 저주의 일종이라고 할 수 있다.

또 주요 문제점으로는 고차원 공간에서 데이터를 공간에 균일하게 분포시키기 위해 필요한 데이터의 양이 기하급수적으로 증가해 데이터 부족 문제가 나타나는 점, 그리고 계산 복잡성 증가, 과적합 위험 증가와 같은 문제가 존재한다.

이에 대한 해결방안으로는 L1, L2 정규화와 같은 정규화를 사용해 과적합을 방지하고, Feature를 선택하여 사용하거나, 앙상블 학습과 같은 방법을 이용해 이에 대응할 수 있다.

3. SVM Classifier와 Softmax Classifier의 공통점과 차이점을 설명해라.

→ 두 Classifier의 공통점으로는 Supervised Learning에 속하는 점과 다중 클래스 분류를 지원하는 점이 있다.

차이점으론 SVM Classifier의 경우 결정 경계와 가장 가까운 훈련 데이터 Point(Support Vector) 사이의 마진(거리)을 최대화 하는 것을 목표로 하여 일반화 능력을 높이려고 한다. 반면 Softmax Classifier는 클래스에 속할 확률을 모델링하는 것을 목표로 하며, 정답 확률과 비교하기 위해 Cross Entropy와 같은 손실 함수를 이용하게 된다.

또한 Softmax Classifier의 경우 각 클래스에 속할 확률을 제공하는 반면, SVM Classifier는 주로 데이터가 어느 클래스에 속하는지 여부를 결정하는 것에 차이가 있다.

4. Lasso와 Ridge의 차이를 설명해라.

→ Linear Regression model에 regulization을 추가한 모델을 Ridge와 Lasso라고 부른다.

먼저 Lasso는 계수의 절대값을 기준(L1)으로 규제를 적용한 모델이고, Ridge는 계수를 제곱한 값을 기준(L2)으로 규제를 적용한 모델이다. 두 알고리즘 모두 계수의 크기를 줄이지만, Lasso는 아예 0으로 만들 수 있다는 점에서 차이가 있다.

5. K-nearest neighbors알고리즘을 설명하라.

→ K-NN알고리즘은 새로운 데이터 포인트와 기존 데이터 포인트 사이의 거리를 측정해 가장 가까운 K개의 이웃을 찾는다. 이 거리를 측정하는 방법으론 L1(Manhattan) Distance, L2(Euclidian) Distance 등이 있다.