목록앙상블 (2)
Stack Building
약한 학습기 여러 개를 결합하여 하나의 학습기보다 좋은 성능을 보이고자 하는 기법이 '앙상블'이다. 동일한 학습기를 결합할 경우 앙상블이라고 하고, 다른 학습기를 결합할 경우 '스태킹'이라고 본다. 앙상블을 사용하면 학습에서 흔히 나타나는 두 가지 오류("높은 bias로 인한 Overfitting"과 "높은 Variance로 인한 Underfitting")를 개선할 수 있다. 1. 배깅 (Bootstrap Aggregating) ① 대상 데이터를 복원 랜덤 샘플링함 ② 학습 후 분류함 ③ 범주형인 경우 Voting, 연속형인 경우 Average로 집계 특징: 샘플을 여러 번 뽑아 각 모델을 병렬 학습한다. 대표적인 알고리즘은 Random Forest. 일반적인 모델을 만드는 것에 집중한다. 2. 부스팅 ..
1. 의사결정나무 Decision Tree 1-1. 결정 트리 유도에 의한 분류 (1) 결정 트리 - 플로우 차트와 같은 트리 구조 - 내부internal 노드는 속성에 대한 테스트를 나타냄 - 분기branch는 테스트의 결과를 나타냄 - 리프leaf 노드는 클래스 레이블 또는 클래스 분포를 나타냄 (예: buys_computer=Yes) (2) 트리 생성의 단계 ⓐ 트리 생성 - 처음에는 모든 학습 예제가 루트에 있다. - 선택된 속성에 기반하여 재귀적으로 파티셔닝partitioning다. ⓑ 가지치기 Pruning - 노이즈나 이상치를 보여주는 분기(가지)를 확인하고 제거한다. (3) 트리 사용 - 알려지지 않은 샘플을 분류한다. - 의사결정트리에 대해 샘플의 속성값을 테스트한다. 1-2. 예시 1-..