목록분류 (5)
Stack Building
1. 다중 선형 회귀 multivariate linear regression 1-1. 개념 독립변수가 하나인 선형회귀는 단변량 선형 회귀라고 말했다. 독립변수, 즉 피처가 늘어날 수 있다. 예를 들어, 위 그림과 같은 경우는 기본 가격은 80 정도이고, 평수의 10% 가량 가격이 올라가고, ..., 지어진지 오래됐을 수록 가격이 떨어진다면 ℎΘ(x) = 80 + 0.1x1 + 0.01x2+ 3x3 - 2x4x 정도로 표현할 수 있다. 이처럼 독립변수를 여러개로 확장한 선형회귀를 '다중선형회귀'라고 한다. 일반적인 표기로 hΘ(x)=Θ0 + Θ1x1 + Θ2x2 + ... + Θn4xn 와 같이 표현할 수 있다. 이때 표기의 간편함을 위해 x0=1로 두어 hΘ(x)=Θ0x0 + Θ1x1 + Θ2x2 + ...
1. 회귀와 분류의 차이 분류는 지도학습, 클러스터링은 비지도학습이다. 다만 지도학습이 모두 분류는 아닌데, 바로 지도학습에 '회귀Regression'가 있기 때문이다. 회귀 문제는 연속적continuous인 값을 예측한다. 입력값을 어떤 연속함수에 매핑한다. 부동산 시장의 주택 매물의 크기 데이터가 주어지고, 그 주택들의 가격을 예측하는 문제가 회귀의 예라고 볼 수 있다. 분류는 이산값discrete categories을 예측한다. 입력값을 이산 카테고리(ex. 긍정/부정)로 매칭한다. 종양을 가진 환자의 데이터를 주고 이 종양이 악성인지 양성인지 예측하는 것이 그 예이다. (로지스틱 회귀는 분류이다) 2. 선형회귀 2-1. 예시 선형 회귀란 독립 변수와 종속 변수의 선형 상관 관계를 모델링하는 것이다..
1. 의사결정나무 Decision Tree 1-1. 결정 트리 유도에 의한 분류 (1) 결정 트리 - 플로우 차트와 같은 트리 구조 - 내부internal 노드는 속성에 대한 테스트를 나타냄 - 분기branch는 테스트의 결과를 나타냄 - 리프leaf 노드는 클래스 레이블 또는 클래스 분포를 나타냄 (예: buys_computer=Yes) (2) 트리 생성의 단계 ⓐ 트리 생성 - 처음에는 모든 학습 예제가 루트에 있다. - 선택된 속성에 기반하여 재귀적으로 파티셔닝partitioning다. ⓑ 가지치기 Pruning - 노이즈나 이상치를 보여주는 분기(가지)를 확인하고 제거한다. (3) 트리 사용 - 알려지지 않은 샘플을 분류한다. - 의사결정트리에 대해 샘플의 속성값을 테스트한다. 1-2. 예시 1-..
1. 기본 개념 ㅡ지도학습 (분류): 학습 데이터(training data, 관측치, 값 등)는 정답(분류 결과, 클래스)을 알려주는 레이블이 붙어있다. 새로운 데이터는 이 학습 데이터를 기반으로 분류된다. 분류는 이산/명목형 자료와 같은 범주형 클래스 레이블을 추정한다. 학습 데이터 셋과 그 값(클래스 레이블)을 분류한classify 것에 기반한 모델을 생성하여 새로운 속성을 분류하는 데 사용한다. flat하게 나누는 것과 계층이 있게 나누는 것으로 또 나뉠 수 있다. flat한 분류는 여학생/남학생으로 분류하는 것이 있고, 계층이 있는 분류는 저학년/고학년으로 분류하는 것이 있다. 수치 예측은 알려지지 않거나 결측치와 같은 연속값 함수를 모델링한다. ㅡ비지도학습 (클러스터링): 학습 데이터의 레이블을..
1. 기계 학습 - 인간이 가지고 있는 학습 능력을 로봇이나 컴퓨터에서 실현하는 기술 - 인공지능 분야에서 수학적인 기초가 잘 잡혀있는 분야 2. 지도학습(Supervised Learning) - '지도': 학습에 사용되는 자료의 정답 - 정답이 있는 학습 데이터(Training Data)를 통해 학습을 수행하여 예측(또는 인지) 모형을 구성 따라서 정확한 답이 존재하는 양질의 데이터가 주어지는 것이 중요. - 학습된 모형을 정답이 있는 검증 데이터를 통해 성능을 향상시킴 ex. 강아지 사진 10장 학습, 고양이 사진 10장 학습 후 강아지/고양이 맞추기 ex. 면적, 화장실 갯수, 시세를 학습, 시세 예측 - 지도학습 수행의 필수요소 - 학습 데이터(Training Data) : 모델 학습에 필요한 자..