분류분석
Classfication Analysis
분류분석
여러개의 변수를 갖는 관측치를 효율적인 분류규칙을 통해 사전에 정해진 그룹 또는 범주 중의 하나로 분류합니다. 회귀변수와 다른 점은 범주로 이루어진 결과를 관측합니다. 우리는 학습표본(learning sample)으로 분류규칙을 세우고 새로운 데이터에 대해 적용하여 범주를 예측하는 모형을 만듭니다.
예를들어 옷을 파는사람이라고 가정해봅시다. 당신은 소비자들의 나이와 성별에 따라서 어떤 브랜드를 선호하는지 안다면, 새로운 고객이 나타났을 때 좋아할 법한 브랜드를 소개시켜줄 수 있습니다.
분류 성능평가지표
우리가 분류를 했을 때 100%로 구분할 수는 없을 것입니다. 매우 높은 확률이라도 분명 잘못된 예측을 할 수 있습니다. 그래서 우리는 성능에대한 지표가 필요합니다.
한번 우리가 분류모델을 만들었다고 생각해봅시다. 그 분류모델은 여러 변수들을 통해서 심장질환이 있는지의 유무를 예측하는 모델입니다. 왼쪽의 어두운 부분은 심장병이 있는 집단이고, 오른쪽은 심장병이 없는 집단입니다. 원안에 있는 집단은 심장병이 있다고 분류한 영역입니다. 초록색(true positives)은 심장병이 있는 사람을 있다고 판단한 것이고, 빨간색(false positive)은 심장병이 없는데 있다고 판단한 것입니다.
이를 표로나타내면 아래와같습니다. 이를 혼동행렬, Confusion Matrix라고 합니다.
모델이 얼마나 정확한지 어떻게 알 수 있을까요? 그래서 민감도(Sensitivity)와 특이도(Specificity)의 값을 구합니다. 진단의 관점에서 민감도란 보균자를 양성으로 판단하는 정도입니다. 즉 진짜를 진짜라고 잘 찾아내는 정도입니다. 특이도는 보균자가 아닌사람을 음성이라고 판단하는 정도입니다. 다시말해 정상인사람을 정상이라고 잘 찾아내는 정도입니다. Sensitivity는 TPR(True positive rate)이라고도 쓰이며 'TP/ P'입니다. Specificity는 TNR(True negative rate)이라고도 쓰이며 'TN/N'입니다.
'인공지능 > 머신러닝' 카테고리의 다른 글
[분류] 명목 서열 로지스틱 (0) | 2021.02.03 |
---|---|
[분류] 이분 로지스틱 (0) | 2021.02.02 |
[분류] Logistic Regression (0) | 2021.01.27 |
[선형회귀] Polynomial Regression (0) | 2021.01.27 |
[선형회귀] Overfitting & Regulation (0) | 2021.01.27 |
댓글