목록머신러닝 (23)
Stack Building
분류모델: 어떤 정해진 값 중에서 하나의 결과를 도출해내는 것 여러 선택지 중 하나의 결과를 도출하는 것 kNN 모델의 원하는 결과는 방대한 데이터가 어떤 분류에 속해있는가를 나타내며, SVM 역시 이와 마찬가지로 어떤 분류에 속해있는가를 선별하는 알고리즘입니다. 즉 알고리즘의 방식이나 접근 형태가 다른 것이지, 궁극적으로 목표하고자 하는 바는 동일하다고 보시면 됩니다. (1) 퍼셉트론(Perceptron)의 정의 및 구성 서포트 벡터 머신을 다루는데 왠 시작부터 퍼셉트론인가 의문이 갈 수 있을 것입니다. 그 이유는, 서포트 벡터 머신(SVM)의 구현이 퍼셉트론의 개념을 가져와서 분류를 하는 방식이기 때문입니다. 그렇기 때문에 SVM을 이해하기 위해서는 먼저 퍼셉트론에 대한 이해가 선행되어야 합니다. 퍼..
약한 학습기 여러 개를 결합하여 하나의 학습기보다 좋은 성능을 보이고자 하는 기법이 '앙상블'이다. 동일한 학습기를 결합할 경우 앙상블이라고 하고, 다른 학습기를 결합할 경우 '스태킹'이라고 본다. 앙상블을 사용하면 학습에서 흔히 나타나는 두 가지 오류("높은 bias로 인한 Overfitting"과 "높은 Variance로 인한 Underfitting")를 개선할 수 있다. 1. 배깅 (Bootstrap Aggregating) ① 대상 데이터를 복원 랜덤 샘플링함 ② 학습 후 분류함 ③ 범주형인 경우 Voting, 연속형인 경우 Average로 집계 특징: 샘플을 여러 번 뽑아 각 모델을 병렬 학습한다. 대표적인 알고리즘은 Random Forest. 일반적인 모델을 만드는 것에 집중한다. 2. 부스팅 ..
위의 2개의 그래프에서 왼쪽에 있는 모형은 모집단의 모수식을 표현한 것이다. 즉, 우리가 궁극적으로 알고자 하는 실제의 식인 것이다. 이 경우, 모든 data 들(점)을 하나의 회귀식으로 100% 설명할 수 없다. 그래서 생각해 낸 것이 바로 오차(error) 라고 하는 것으로, 이 값은 회귀식의 값과 실제값과의 차이를 말한다. 여기에서는 어떤 하나의 점과 회귀식과의 차이를 표현한 입실론(epsilon)이 바로 오차이다. 이에 비해서 잔차(resudial)라고 하는 것은 표본의 회귀식에 나온 값이다. 표본에서도 마찬가지로 회귀식을 구할 수 있다. 그러나, 그 회귀식은 모집단의 실제 회귀식과는 차이가 있을 수 있다. 이때에 모집단의 회귀식과 마찬가지로 표본의 회귀식에서도 잔차라는 것을 생각할 수 있으며, ..
Norm이란 선형대수학에서 벡터공간의 원소들에 일종의 '길이'를 부여하는 함수이다 ---위키백과 즉, '길이'를 부여함에 있어 어떤 종류의 정보에 의미를 두냐에 따라 종류가 구분된다. 1. 유클리디언 : 다차원 공간에서 두 점(p,q)간의 거리를 자로 잰거리다. 2. 마할라노비스 : 확률분포상의 거리 위와 같이 점A가 평균과 표준편차로 표현될 때 표준편차의 크기로 거리를 산정한다. 즉, 평균과의 거리가 표준편차의 몇배인지를 나타내는 값이다. A의 평균을 m, 공분산행렬을 C로 표시하였다. A의 경우 유클리디언 거리는 B가 더 가깝고 마할라노비스 거리는 C와 더 가깝다. 출처: https://tlaja.blog.me/220722933381
확률(Probability) vs 가능도(Likelihood) 김진섭June 5, 2016 시작하면서 확률 연속사건의 확률 특정 사건의 확률은 모두 0 특정 구간에 속할 확률: 확률밀도함수(Probability Density Function, PDF) 특정 사건이 일어날 가능성을 비교할 수는 없을까?: 가능도(Likelihood) 사건이 여러 번 일어날 경우에서의 가능도 진실을 찾는 방법: 최대가능도 추정량(Maximum Likelihood Estimator, MLE) 예1: 모양이 일그러진 동전 예2: 나의 실제 키 마치며 시작하면서 본 챕터에서는 가능도(Likelihood) 가 무엇인지 직관적으로 이해하는 것을 목표로 한다. 가능도는 정규분포부터 회귀분석과 최신 인공지능 알고리즘에 이르기까지 통계학의..
1. 비지도학습 unsupervised learning 분류로 대표되는 정답이 함께 주어지는 학습을 지도학습이라고 했다. 비지도학습이란 트레이닝 데이터의 클래스 레이블이 주어지지 않은unknown 경우를 말한다. 측정치, 관측치 등등의 집합을 주고, 데이터 안의 클러스터의 존재를 증명하는 것을 목표로 한다. 우리는 데이터를 탐색하여 내재된 구조intrinsic structures를 찾고자 한다. 2. 클러스터링 2-1. 개념 (1) 클러스터링은 '군집cluster'이라고 불리는 데이터 안의 유사한 그룹들similarity groups을 찾아내는 기술이다. (2) 지도학습에서 사전에 이미 그룹화가 완료되어 데이터 인스턴스가 속한 그룹이 무엇인지 알려주는 클래스 값은 주어지지 않는다. 2-2. 응용 (1) ..
"실수를 통해 올바른 행동을 학습하는 방법" 1. 강화 학습 1-1. 개념 (1) 조작적 조건화(Operant Conditioning): 자발적인 시행 착오로부터 얻은 보상(Reward)에 따라 행동을 형성하는 것 (2) 강화 학습(Reinforcement Learning) - 강화: 조작적 조건화가 일어날 때, 어떤 행동의 빈도가 증가하는 것 - 강화 학습: 시행 착오(조작적 조건화)를 거치며 보상을 통해 서서히 올바른 행동 패턴을 학습해나가는 과정 => 목적: 누적 보상이 최대가 되도록 하는 정책을 찾는 것 (3) 정책(Policy): 객체가 어떤 상태에 놓였을 때 어떤 행동을 어느 정도 확률로 선택할지에 대한 지침 (4) 보상의 할인: 보상을 받는 선택을 할 때에는 반드시 일정한 패널티가 따르기 마..
1. 다중선형회귀Multi variable Linear Regression 1-1. 개념 특징값이 여러개로 표현된 입력 데이터에 대해 실수값을 출력하는 연속함수의 선형관계를 학습한다. 정답과 특징이 각각 하나씩일 경우에는 2차원 공간에 선형관계를 표현할 수 있으나, 특징이 2개 이상일 경우에는 다차원상에서 표현해야 한다. 1-2. 가설 표현 각 특징을 중심으로 정답 간의 관계를 2차원 평면으로 분리하면 서로 다른 기울기를 가진 직선으로 표현할 수 있다. 즉 다차원에서 표현되는 다중 선형 회귀는 각 특징을 표현하는 축의 기울기를 모두 구하여 결합해야 한다. 위의 그림에서 가격을 H, 아파트 평수를 X1, 전철역과 거리를 X2라고 둘 때, H = w1X1 + w2X2 + b 가 된다. 가설 검증 및 수정 과..
1. 개요 1-1. 문서 분류 Document Classification (1) 특정 연설문을 주고 어떤 후보의 것인지 분류하는 것. 두 명 중 하나의 것으로 분류한다면 binary. (2) 특정 기사를 주고 어느 종류의 뉴스인지 분류하는 것. 분류할 수 있는 결과가 많다면 binary 여러개의 조합으로 할 수 있다. 1-2. 자동 분류 Automatic Classification 여기서는 이미지나 영상 분류는 일반적으로 딥러닝에서 쓰이기 때문에 텍스트에 치중한다. 문서 자동 분류는 전통적인 머신러닝 문제이다. 훈련과 예측 두 개의 단계로 나눌 수 있다. 1단계, 학습에서는 훈련training이 목적으로, 학습learning을 수행한다. 2단계, 예측에서는 예측prediction이 목적으로, 분류clas..
1. Support Vector Machines 서포트 벡터를 사용하는 방법. 아주 강력하고 많이 쓰이는 방법이다. 복잡한 비선형 함수(로지스틱 회귀 등)를 학습하는 더 깔끔하고 강력한 방법을 제공한다. SVM의 가장 큰 특징 두 가지는 목표objective를 최적화한다는 것과 큰 마진을 가지는 분류기라는 것이다. 2. Optimization Objectives 2-1. 로지스틱 회귀와의 비교 로지스틱 회귀는 1과 0으로 분류하고 y=1로 분류하려면 hΘ(x)는 대략 1이어야 하고, Θ^T는 0보다 커야 한다. y=0으로 분류하려면 hΘ(x)는 대략 0이고, Θ^T는 0보다 작다. 이때 1로 분류하는 비용함수를 Cost1, 0으로 분류하는 비용함수를 Cost0라고 하면, 로지스틱 회귀의 식은 왼쪽, SV..