본문 바로가기

인공지능60

[분류] 분류분석 Classfication Analysis 분류분석 Classfication Analysis 분류분석 여러개의 변수를 갖는 관측치를 효율적인 분류규칙을 통해 사전에 정해진 그룹 또는 범주 중의 하나로 분류합니다. 회귀변수와 다른 점은 범주로 이루어진 결과를 관측합니다. 우리는 학습표본(learning sample)으로 분류규칙을 세우고 새로운 데이터에 대해 적용하여 범주를 예측하는 모형을 만듭니다. 예를들어 옷을 파는사람이라고 가정해봅시다. 당신은 소비자들의 나이와 성별에 따라서 어떤 브랜드를 선호하는지 안다면, 새로운 고객이 나타났을 때 좋아할 법한 브랜드를 소개시켜줄 수 있습니다. 분류 성능평가지표 우리가 분류를 했을 때 100%로 구분할 수는 없을 것입니다. 매우 높은 확률이라도 분명 잘못된 예측을 할 수 있습니다. 그래서 우리는 성능에대한.. 2021. 2. 2.
[분류] Logistic Regression 보호되어 있는 글 입니다. 2021. 1. 27.
[선형회귀] Polynomial Regression 보호되어 있는 글 입니다. 2021. 1. 27.
[선형회귀] Overfitting & Regulation 보호되어 있는 글 입니다. 2021. 1. 27.
[선형회귀] Stochastic Gradient Descent 보호되어 있는 글 입니다. 2021. 1. 27.
[선형회귀] Multivariate Linear Regression 보호되어 있는 글 입니다. 2021. 1. 27.
[선형회귀] Gradient Descent 보호되어 있는 글 입니다. 2021. 1. 26.
[선형회귀] Normal equation Normal Equation 선형회귀Linear Regression 우리는 컴퓨터에게 두가지 방법으로 Weight를 찾게 할 것입니다. 첫번째는 연립방정식(Normal Equation)을 통한 방법이고, 두번쨰는 경사하강법(Gradient Descent)을 통한 방법입니다. 지금은 연립방정식(Normal Equation)을 통한 방법을 알아보겠습니다. Normal Equation Normal equation은 Cost Function을 최소화하는데 그 목적이 있습니다. 왼쪽처럼 식을 작성하면 너무 복잡하고 한 눈에 보기도 힘이듭니다. 만약 행렬과 벡터로 표현한다면 식이 한번에 간단해집니다 ! (여기서 $\epsilon$는 잔차를 의미합니다.) 일반적으로 작성할 때 소문자는 벡터고, 대문자는 행렬입니다. .. 2021. 1. 26.
[선형회귀] 나 다시 돌아갈래, 선형회귀 Overview Overview 선형회귀 Linear Regression 통계학을 다뤄보지 않은 분들은 회귀분석이란 단어가 어색하실거에요. 회귀분석이 뭔지 부터 잠깐 짚고 넘어가겠습니다. 회귀분석 회귀(regression,回歸)라는 단어에는 '돌아간다'라는 뜻이 있습니다. 찰스다윈의 친척인 프랜시스 골턴은 우생학으로 유명한 분인데, 부모와 자녀의 키를 분석했던 방법이 회귀분석의 시초입니다. 어떻게 분석했을까요? 프랜시스 골턴은 키가 유전의 영향이 클거라는 생각을 했습니다. 키가 큰 유전자를 받으면 자식도 키가 클 것이라는 가설을 세운 것이죠. 프랜시스가 해야할 일은 먼저 데이터를 수집하는 것이었습니다. 집집을 돌아다니며 얻을 수 있는 키에대한 정보를 모조리 수집했습니다. 이 때 중요한 발견을 합니다. 부모가 키가 크면 .. 2021. 1. 26.
Numpy, 이것만은 알고가자 파이썬의 강력한 도구, Numpy 앞서 Pandas에대해 포스팅했었는데요, Numpy가 그 Pandas의 모태가 됩니다. Numpy를 기반으로 확장시킨 것이 Pandas입니다. Numpy는 여러가지 기능을 제공하는 라이브러리입니다. Array, Tensor, Matrix 등의 수치연산에 필수적이며, 내부적으로 C로 구형되어있어 연산이 굉장히 빠릅니다. (파이썬은 구조적으로 C보다 느립니다. 이 부분에 대해선 나중에 자세히 포스팅하겠습니다.) 1. ndarray import numpy as np np.array([3,2,1,4], int) #1차원 out>> array([3, 2, 1, 4]) np.array([[3,2],[1,4]]) #2차원 out>> array([[3, 2], [1, 4]]) 넘파이에.. 2021. 1. 26.
Data Handling Mindmap Data Handling Mindmap 2021.01.25 0. Pythonic 1. Data process & EDA 2. Statistics 3. Linear Algebra Section 1 Data Science Section 1 Data Science by Exupery 2021. 1. 25.
데이터분석을 위한 라이브러리, Pandas 데이터분석을 위한 라이브러리, Pandas 파이썬은 C언어를 기반으로 만든 언어이고, R은 통계언어인 S를 기반으로 만든 언어입니다. 데이터 분석에서 R이 강력한 언어임은 분명하지만, 파이썬이 프로그램언어로 만들어진 점은 간과할 수 없습니다. 접근성이 더 좋고 보다 익숙하며 확장가능성이 매우 크다는 장점이 있습니다. 파이썬도 나날이 빠르게 발전하며 강력해지고있있습니다. 파이썬을 이용해서 데이터분석을 하려면 그에 맞는 라이브러리를 사용해야합니다. 대표적으로 PANDAS, NUMPY, MATPLOTLIB을 많이 사용합니다. 이번 포스팅에서는 이 Pandas에대한 간략한 설명과 이 라이브러리를 사용할 때 빠르게 찾아 쓸 수 있도록 정리하는 것이 그 목적입니다. pandas documentation — pand.. 2021. 1. 2.