본문 바로가기
기본소양/CODE

2. Tree based model CODE [1] Encode, Impute

by EXUPERY 2021. 2. 9.
반응형

Encode, Impute

Tree based model CODE 

 

 


 

1. Hash Encoder

from category_encoders import HashingEncoder
enc_has = HashingEncoder(n_components=5)
enc_has.fit_transform(train['state'])
# 차원감소라고 생각하면 된다. 51개 범주 >> 5개 범주

 

2. Count Encoder

from category_encoders import CountEncoder
encoder_count = CountEncoder()
train_count = encoder_count.fit_transform(train_binary.dropna().astype(object))
# 총 갯수로 인코딩을 해준다. (1:301개, 2:203개 >> 1은 301로, 2는 203으로 인코딩)

 

3. Onehot Encoder

from category_encoders import OneHotEncoder
enc_one = OneHotEncoder()
all_eng_encoded = enc_one.fit_transform(all_eng)
# feature의 모든 범주를 0 1로 

 

4. Ordinal Encoder

from category_encoders import OrdinalEncoder
enc_one = OrdinalEncoder()
all_eng_encoded = enc_one.fit_transform(all_eng)
# feature의 모든 범주를 순서대로 인코딩

 

5. Target Encoder

from category_encoders import TargetEncoder
enc_one = TargetEncoder()
all_eng_encoded = enc_one.fit_transform(all_eng)
# K fold로 나눠서 각 fold는 다른 모든 fold의 타겟의 평균값으로 인코딩

 

 


 

1. Simple Imputer

simp_impu = SimpleImputer()
all_simp = simp_impu.fit_transform(all_one)
all_simp = pd.DataFrame(all_simp)
# non variable, 변수와 상관없이 평균값이다 중간값 등으로 인코딩

 

2. Iter Imputer

Iter_impu = IterativeImputer()
all_iter = Iter_impu.fit_transform(all_one)
all_iter = pd.DataFrame(all_iter)
# 다른 변수들과 상호관계를 가지고 impute

 

3.  KNN Impuetr

KNN_impu = KNNImputer()
all_knn = KNN_impu.fit_transform(all_one)
all_knn = pd.DataFrame(all_knn)
# K-nearest 법으로 가까운 갯수가 많은 범주로 인코딩

 

반응형

댓글