본문 바로가기

인공지능/앙상블8

뭣이 중헌디! 특성의 중요도 뭣이 중헌디 ! 특성의 중요도 Feature Importance, Permutation Importance, PDP, SHAP 단일 모델일 때는 상대적으로 모델이 왜 이러한 결과를 내었는가 알기 어렵지 않았습니다. Tree 모델에서는 Feature가 얼마나 잘 나누는가에 따라서 그 중요도를 나타낼 수 있었고, 선형회귀모델은 각 회귀변수를 통해서 얼마나 영향을 미치는지 알 수 있었습니다. 그래서 결과를 이해하고 설명하는데 문제가 없었습니다. 하지만 앙상블기법과 같이 여러 모델을 합치는 등, 모델이 점점 복잡해지면서 그 중요도를 나타내는데 무리가 있었습니다. 그러나 문제가 무언지 알면 항상 해결해왔듯이 여러 방법이 등장하였습니다. 이번 포스트에서는 그 중요도를 나타내고자 몇가지 방법을 소개합니다. Featu.. 2021. 2. 25.
[Ensemble] Light GBM, 마이크로소프트의 부스팅 Light GBM, 마이크로소프트의 부스팅 Ensemble GBM은 최적의 Information Gain을 갖기위해서 모든 split point를 살펴봐야했습니다. XGBoost에서는 전체데이터를 버킷단위로 나누고 버킷안에서 split point를 찾음으로써 워크로드를 줄였습니다. Light GBM에서는 이를 줄이기 위한 방법으로 GOSS와 EFB를 제시합니다. 논문을 같이보고싶으신 분은 여기를 클릭하세요 Abstract GOSS (Gradient-Based One-Side Sampling) 일반적으로 개별적인 데이터들은 다른 Gradient를 갖고 있습니다. 여기서 Gradient가 큰 객체들은 더 중요한 역할을 합니다. 그래서 Information gain을 계산할 때, gradient가 작은 객체들.. 2021. 2. 14.
[Ensemble] XGBoost, 극한의 가성비 XGBoost, 극한의 가성비 Ensemble XGBoost까지의 흐름 Decision Trees를 Bagging이라는 앙상블기법을 이용하여 성능을 높였고, 여기에 Random성을 부여하여 Random Forest를 만들었습니다. 이 후에는 Stumps Tree를 베이스로하는 Adaptive Boosting이 있었고, Gradient를 이용해서 Boosting을 하는 법을 알아보았습니다. 이번 포스트에서는 XGBoost(eXtreme Gradient Boosting)에대해 알아보겠습니다. XGBoost는 Gradient의 방법을 따라가지만, 더 많은 데이터를 한번에 다룰 수 있고 더 빠르게 처리할 수 있습니다. Ada Boost와 Gradient Boosting에대해 잘 모르시는 분은 아래 포스트를 참고.. 2021. 2. 14.
[Ensemble] Gradient Boosting, 차근차근 Gradient Boosting, 차근차근 Ensemble Gradient Boost는 앙상블과 AdaBoost, 선형회귀에서의 Gradient Desent의 개념을 알고 있으면 쉽게 이해하고 사용할 수 있습니다. 이 포스트는 앞서 작성된 포스트를 기반으로 작성되었습니다. [Ensemble] 백지장도 맞들면 낫다, 앙상블 OVERVIEW 백지장도 맞들면 낫다, 앙상블 OVERVIEW Ensemble 앙상블 Ensemble 모든 데이터에서 가장 좋은 성능을 내는 모델이 있을까요? 지금까지 연구자들이 낸 답은 '없다' 입니다. 각 데이터마다 모델의 성능 exupery-1.tistory.com [Ensemble] Ada Boost, 모델의 오답노트 Ada Boost, 모델의 오답노트 Ensemble 지금까지 .. 2021. 2. 12.
[Ensemble] Ada Boost, 모델의 오답노트 Ada Boost, 모델의 오답노트 Ensemble 지금까지 앙상블 기법에서 배깅에대해 다루어 보았습니다. 이제 Boost에대해 알아보겠습니다. Bagging이 데이터셋을 새롭게하면서 다양성을 부여했다면, 부스트는 모델을 하나 만들고, 그 모델을 지표로 다른 모델을 만들어 다양성을 부여하는 방법입니다. 이 포스트는 지난 포스트에 기반하여 작성되었습니다. [Ensemble] 백지장도 맞들면 낫다, 앙상블 OVERVIEW 백지장도 맞들면 낫다, 앙상블 OVERVIEW Ensemble 앙상블 Ensemble 모든 데이터에서 가장 좋은 성능을 내는 모델이 있을까요? 지금까지 연구자들이 낸 답은 '없다' 입니다. 각 데이터마다 모델의 성능 exupery-1.tistory.com Adaptive Boost 1과 0.. 2021. 2. 11.
[Ensemble] 랜덤 포레스트, 나무가 이루는 숲 랜덤 포레스트, 나무가 이루는 숲 Ensemble 배깅은 Variance를 줄이는데 효과적입니다. 복잡성이 높은 모델들의 분산을 낮춰줄 수 있는 것이죠. Higher Complexity & Low Bias & High Variance를 가진 모델중 하나인 Decision Tree를 사용합니다. 배깅기법을 이용하고 변수를 랜덤하게 선택함으로써 여러트리를 만듭니다. (배깅만을 이용한 Decision Tree 모델과는 다릅니다) Random Froest의 이름에 그 뜻이 다 담겨있습니다. Random하게만든 Forest입니다 ! 이 포스트는 앞선 포스트를 기반으로 작성되었습니다. [Ensemble] 배깅, 언제나 처음처럼 배깅 Bagging, 언제나 처음처럼 Ensemble 앞선 포스트에서는 앙상블기법을 사용.. 2021. 2. 11.
[Ensemble] 배깅, 언제나 처음처럼 배깅 Bagging, 언제나 처음처럼 Ensemble 앞선 포스트에서는 앙상블기법을 사용하기 위해서는 다양성(Diversity)를 만족했어야 했는데, 그 방법에는 Data를 다르게주어 모델을 다르게하는 방법과 모델의 지표를 제공해서 다른 모델을 만드는 방법을 소개했습니다. 이번 포스트에서는 Data를 다르게 주는 방법, Bagging에 대해서 다룹니다. 이 포스트에서는 이전 포스트의 내용을 기반으로 기술합니다. [Ensemble] 백지장도 맞들면 낫다, 앙상블 OVERVIEW 백지장도 맞들면 낫다, 앙상블 OVERVIEW Ensemble 앙상블 Ensemble 모든 데이터에서 가장 좋은 성능을 내는 모델이 있을까요? 지금까지 연구자들이 낸 답은 '없다' 입니다. 각 데이터마다 모델의 성능 exupery-.. 2021. 2. 10.
[Ensemble] 백지장도 맞들면 낫다, 앙상블 OVERVIEW 백지장도 맞들면 낫다, 앙상블 OVERVIEW Ensemble 앙상블 Ensemble 모든 데이터에서 가장 좋은 성능을 내는 모델이 있을까요? 지금까지 연구자들이 낸 답은 '없다' 입니다. 각 데이터마다 모델의 성능이 제 각각이기 때문입니다. 위 그림은 각 모델들의 데이터셋 별 성능입니다. 정말 제 각각입니다. 데이터 셋마다 그 순위가 다 다릅니다. 정말 다른 모델을 압도하는 이상적인 모델은 없을까요? 아마 그런 모델은 앞으로도 나오기 힘들것 같습니다. 그럼 모델끼리 합친 성능은 어떨까요? 오차가 전체적으로 주는 것을 볼 수 있습니다. 모델들이 서로 잘 조합된다면 단일모델들보다 더 좋은 성능을 보장할 수 있습니다. 모델을 합치는 것을 앙상블기법이라고 합니다. '앙상블'이란 전체적인 어울림이나 통일. ‘조.. 2021. 2. 10.