본문 바로가기
POST

Modeling은 기술, Feature Engineering은 예술

by EXUPERY 2021. 1. 31.
반응형

 

Modeling은 기술, Feature Engineering은 예술

01.31.20

 


 

1. Feature

데이터분석에서 데이터셋은 일반적으로 Row에는 index가 들어가고, 각 column들에는 Feature가 들어간다. Feature라고 하는 이유는 열이 관측치들의 특징을 나타내기 때문이다. 

관측치들의 특징을 나타내기 때문이다. 

때로는 의미가 없어보이는 Feature들이 사실 매우 중요하게 쓰일 수 있다. Feature가 중요한 이유는 다름아닌 모델의 성능을 직접적으로 높일 수 있다는 데 있다. 아무리 훌륭한 모델을 만들어도 Feature를 적절히 선택하지 않으면 성능은 현저히 떨어진다. 사실 처음에는 모델을 세우는 데 더 열중했다. Feature는 어짜피 주어져 있는 것이며, 모델을 어떻게 쓰느냐에 따라서 더 좋은 결과를 나타낼 수 있다고 생각했다. 

 

2. Soft Skills

개발자들에게, 그리고 데이터 분석가들에게 인문학 열풍이 불고 있다고 한다. Hard Skills(기술적인 지식)도 중요하지만, Soft Skills(경험적, 내재적 지식)이 더 중요하게 여겨지는 흐름인 것 같다. 도메인 지식은 매우 중요하다. 숫자로만 분석하는 것과, 내가 분석하려는 데이터에대한 지식이 있는 것과는 천지차이의 결과를 낳는다. 

 

 

3. 의미가 없을 때와 의미가 있을 때 

최근에 분석한 미국의 집값데이터에는 Feature에대한 Description이 없었다. 처음에 'lat'과 'long'이라는 feature를 접했을 때, 무엇을 의미하는지 몰랐다. 짐작하기로 lat은 Local Area Transportation정도로 생각했고, long은 대강 어딘가와의 거리정도로 생각했었다. 상관계수를 구해보니 집값과 long은 거의 상관이 없었고, Lat은 양의 상관관계가 있었다. 얼추 들어 맞는다. 주변에 교통시설이 많으면 집값이 오를테니까.

하지만 lat은 lattitude를 의미했고, long은 longitude를 의미했다. 위도와 경도인 셈이다. 이를 알고난 뒤에 경도를 가로축, 위도를 세로축으로 찍어보았다. 색은 가격에 따라서 비쌀 수록 짙게 찍었다.

의미가 없던 Feature 두 가지가 함께 쓰이면서 시너지를 발휘하는 순간이었다 ! 지도 api를 사용하지 않아도 간단하게 지도처럼 표기할 수 있었다. 한눈에 Downtown이 보였다. 실제 지도와 비교해보았다. 이렇게 각각의 데이터를 보았을 때는 의미가 없던 것이, 두개를 합치니 생겼다. 위도와 경도를 이용하여 구역을 나누어서 가격에 영향을 주는 Feature로 새로 만들 수도 있겠고, 수직축에 price를 놓고 3D로 구현을 해보는 것도 멋있을 것 같다.

 

4. 가장 중요한 것

EDA를 가장 먼저 배우는 이유는 가장 중요해서이지 않을까. Outlier를 제거하고, 결측치를 메꾸고, Feature Engineering을 하는 이유는 시간낭비를 하기위함이 아니라 더 나은 모델을 만들기위함이다. 아무리 훌륭한 모델이라도 앞선 단계들이 제대로 수행되지 않으면 성능을 낼 수 없다. 가장 오래 걸려야하는 단계이자 가장 공들여야하는 단계이다.

반응형

'POST' 카테고리의 다른 글

내가 빚지고 있었던 사람들  (0) 2021.03.03
두번째, 글 하나. 인공지능의 민주화  (0) 2021.01.30

댓글