본문 바로가기

분류 전체보기112

1. Linear Regression CODE [0] 시작은 언제나 EDA 시작은 언제나 EDA Linear Regression CODE 0. Data Description 항상 먼저 확인 할 것 1. Profiling pip install -U pandas-profiling from pandas_profiling import ProfileReport df.profile_report() 2. EDA ## 상관계수 df_cor = df.corr().copy() print(df_cor.sort_values('target',ascending=False).price.head(5)) ## Only Heatmap import seaborn as sns import matplotlib.pyplot as plt df_cor = df.corr().copy() fig, ax = plt.subpl.. 2021. 2. 2.
[분류] 이분 로지스틱 보호되어 있는 글 입니다. 2021. 2. 2.
[분류] 분류분석 Classfication Analysis 분류분석 Classfication Analysis 분류분석 여러개의 변수를 갖는 관측치를 효율적인 분류규칙을 통해 사전에 정해진 그룹 또는 범주 중의 하나로 분류합니다. 회귀변수와 다른 점은 범주로 이루어진 결과를 관측합니다. 우리는 학습표본(learning sample)으로 분류규칙을 세우고 새로운 데이터에 대해 적용하여 범주를 예측하는 모형을 만듭니다. 예를들어 옷을 파는사람이라고 가정해봅시다. 당신은 소비자들의 나이와 성별에 따라서 어떤 브랜드를 선호하는지 안다면, 새로운 고객이 나타났을 때 좋아할 법한 브랜드를 소개시켜줄 수 있습니다. 분류 성능평가지표 우리가 분류를 했을 때 100%로 구분할 수는 없을 것입니다. 매우 높은 확률이라도 분명 잘못된 예측을 할 수 있습니다. 그래서 우리는 성능에대한.. 2021. 2. 2.
[코딩, 처음입니다] Big O와 Big Ω, 알고리즘 실행시간 표기법 Big O와 Big Ω 알고리즘 실행시간 표기법 알고리즘에 있어서 대략적으로 실행시간을 알고자할 때, Big O와 Big Ω로 이야기합니다. 예를들어 봅시다. 숫자가 10000까지 무작위로 나열되어있는 집합에서 4543이라는 숫자를 찾으려면 얼마나 걸릴까요? 운이 좋으면 한번에 찾을 수도 있고, 최악의 경우 10000번째에 찾을 수 있습니다. 이때 우리는 big O가 10000이고, big omega가 1이라고합니다. 우리는 이 숫자를 n으로 바꿔서 말합니다. 하나하나씩 찾는 선형겁색은, O(n)이되고 Ω(1)이됩니다. 여기서 O는 “on the order of”의 약자로, 쉽게 생각하면 “~만큼의 정도로 커지는” 것이라고 볼 수 있습니다. O(n) 은 n만큼 커지는 것이므로 n이 늘어날수록 선형적으로 .. 2021. 2. 1.
Modeling은 기술, Feature Engineering은 예술 Modeling은 기술, Feature Engineering은 예술 01.31.20 1. Feature 데이터분석에서 데이터셋은 일반적으로 Row에는 index가 들어가고, 각 column들에는 Feature가 들어간다. Feature라고 하는 이유는 열이 관측치들의 특징을 나타내기 때문이다. 관측치들의 특징을 나타내기 때문이다. 때로는 의미가 없어보이는 Feature들이 사실 매우 중요하게 쓰일 수 있다. Feature가 중요한 이유는 다름아닌 모델의 성능을 직접적으로 높일 수 있다는 데 있다. 아무리 훌륭한 모델을 만들어도 Feature를 적절히 선택하지 않으면 성능은 현저히 떨어진다. 사실 처음에는 모델을 세우는 데 더 열중했다. Feature는 어짜피 주어져 있는 것이며, 모델을 어떻게 쓰느냐에 .. 2021. 1. 31.
두번째, 글 하나. 인공지능의 민주화 인공지능의 민주화 01.28.21 ~ 01.29.21 1. 수포자 고등학교 시절을 생각해보면 주변에는 수포자가 참 많았다. 누군가에게는 너무 재미있게 했던 과목이지만, 누군가에게는 정말 혐오스러운 과목이었나보다. 그도 그럴것이 많은 것을 말보다 숫자와 기호, 온갖 수식으로 표현한다. 이해하지 못하는 것에대한 거부반응은 충분히 예상되는 일이긴하다. 하지만 수학을 포기하게되면 컴퓨터공학은 쉽게 접근하지 못하는 분야가 되버린다. 이번 Sprint에서는 선형회귀에대해 다루는데 부트캠프만으로는 부족하다고 생각해서 미리 공부를 했다. 인터넷에 감사하며 방 안에 앉아 훌륭한 교수님들로부터 강의를 들었다. 선형회귀를 배울 때, 편미분같이 간단한 수학적 설명은 당연히있어야된다고 생각했다. 하지만 이런 생각이 들었다. 정.. 2021. 1. 30.
[분류] Logistic Regression 보호되어 있는 글 입니다. 2021. 1. 27.
Performance Measure 보호되어 있는 글 입니다. 2021. 1. 27.
[선형회귀] Polynomial Regression 보호되어 있는 글 입니다. 2021. 1. 27.
[선형회귀] Overfitting & Regulation 보호되어 있는 글 입니다. 2021. 1. 27.
[선형회귀] Stochastic Gradient Descent 보호되어 있는 글 입니다. 2021. 1. 27.
[선형회귀] Multivariate Linear Regression 보호되어 있는 글 입니다. 2021. 1. 27.