반응형
Encode, Impute
Tree based model CODE
1. Hash Encoder
from category_encoders import HashingEncoder
enc_has = HashingEncoder(n_components=5)
enc_has.fit_transform(train['state'])
# 차원감소라고 생각하면 된다. 51개 범주 >> 5개 범주
2. Count Encoder
from category_encoders import CountEncoder
encoder_count = CountEncoder()
train_count = encoder_count.fit_transform(train_binary.dropna().astype(object))
# 총 갯수로 인코딩을 해준다. (1:301개, 2:203개 >> 1은 301로, 2는 203으로 인코딩)
3. Onehot Encoder
from category_encoders import OneHotEncoder
enc_one = OneHotEncoder()
all_eng_encoded = enc_one.fit_transform(all_eng)
# feature의 모든 범주를 0 1로
4. Ordinal Encoder
from category_encoders import OrdinalEncoder
enc_one = OrdinalEncoder()
all_eng_encoded = enc_one.fit_transform(all_eng)
# feature의 모든 범주를 순서대로 인코딩
5. Target Encoder
from category_encoders import TargetEncoder
enc_one = TargetEncoder()
all_eng_encoded = enc_one.fit_transform(all_eng)
# K fold로 나눠서 각 fold는 다른 모든 fold의 타겟의 평균값으로 인코딩
1. Simple Imputer
simp_impu = SimpleImputer()
all_simp = simp_impu.fit_transform(all_one)
all_simp = pd.DataFrame(all_simp)
# non variable, 변수와 상관없이 평균값이다 중간값 등으로 인코딩
2. Iter Imputer
Iter_impu = IterativeImputer()
all_iter = Iter_impu.fit_transform(all_one)
all_iter = pd.DataFrame(all_iter)
# 다른 변수들과 상호관계를 가지고 impute
3. KNN Impuetr
KNN_impu = KNNImputer()
all_knn = KNN_impu.fit_transform(all_one)
all_knn = pd.DataFrame(all_knn)
# K-nearest 법으로 가까운 갯수가 많은 범주로 인코딩
반응형
'기본소양 > CODE' 카테고리의 다른 글
2. Tree based model CODE [3] Model Selection (0) | 2021.02.09 |
---|---|
2. Tree based model CODE [2] Tree Model (0) | 2021.02.09 |
2. Tree based model CODE [0] 시작은 언제나 EDA (0) | 2021.02.09 |
1. Linear Regression CODE [3] How to select Variables (0) | 2021.02.03 |
1. Linear Regression CODE [2] Modeling (0) | 2021.02.03 |
댓글