Stack Building
terminology 본문
1. AI (artificial intelligence)
2. Machine Learning
3. Deep Learning
- 지도학습, 비지도학습 모두 사용 가능하지만, 일반적으로 지도학습으로 분류
- neuralitic하게 접근하는 방법을 일컫는다.
4. Pattern Recognition
5. DB vs. DW(Data Warehouse)
- 데이터베이스: 여러 사람이 공유하여 사용할 목적으로 통합 관리하는 체계화된 데이터의 모임. *
- 데이터 웨어하우스: 데이터를 스키마에 맞춰 장기간 대량으로 적재한 것. 보통 데이터베이스라고 칭함. 때로 데이터웨어하우스와 유사하지만 규모가 작을 경우 데이터마트(data mart)라는 표현을 사용하기도 함.
6. Data Mining
- KDD(Knowledge discovery in databases)
- '흥미로운' 정보의 추출. 흥미로움의 기준은 아래와 같음.
- non-trivial: 당연하지 않은 것. 뻔하지 않은 것을 의미.
- implicit: 확 드러나지 않는 것. *
- previously unknown
- potentially useful: 도움이 될 것 같은 것.
- 단순한 정보 검색, 연역적 쿼리 처리, 전문가 시스템(전문가의 행동을 모방한 시스템), small dataset을 사용한 경우는 일반적으로 데이터마이닝이라고 여기지 않음. '의사결정을 위한 정보의 발견'에 방점이 있기 때문.
7. Linear Algebra
8. Statistics
9. EDA (Exploratory Data Analysis) & CDA (confirmatory Data Analysis)
- 탐색적 데이터 분석: 가설 검증보다 자료 자체를 탐구하며 분석. 다양한 각도에서 관찰하고 이해함. 저항성, 잔차 해석, 자료의 재표현, 자료의 현시성이라는 4가지 주제를 가지고 있다고 함. *
cf. EDS(탐색적 데이터 시스템), EDA(탐색적 데이터 분석), EDM(탐색적 데이터 관리)
- 확증적 데이터 분석: 특정한 목적을 가지고 데이터를 확보, 분석. 가설 채택 여부를 결정하기 위함.
10. scality: scale up & scale out
- scale up: 서버 자체를 늘려 처리 능력 향상 (수직 스케일)
- scale out: 접속 서버 대수를 늘려 처리 능력 향상 (수평 스케일)
11. OLAP (online analytical processing) & OLTP (online transaction processing) *
- 온라인 분석 처리: 다차원 데이터로부터 통계 정보 제공. 의사결정에 도움이 됨.
- 온라인 거래 처리: 여러 연산이 하나의 단위 프로세스로 실행되도록 함. 업무의 효율적 처리에 도움이 됨.
12. Classification 분류
- supervised learning (지도학습)
- 분류된 결과를 class라고 부른다. 한국어로는 여전히 분류.
- 분류를 수행하는 프로그램을 classifier 라고 함. 한국어로는 분류기. 산출물: model
- 응용 예) Fraud Detection (사기 탐지) 고객의 평소 소비 패턴을 기반으로 금융사기를 잡아냄
- 응용 예2) Churn Prediction (고객 유실 예측) 가입자가 사업자를 자주 교체하는 현상을 잡아냄
13. Clustering 군집화
- unsupervised learning (비지도학습)
- Intracluster distances are minimized : 클러스터내 원소들은 거리가 짧다.
- Intercluster distances are maximized : 클러스터간 거리는 길다. *
- 고객 프로파일링 후 타겟 마케팅을 하기에 좋다. (targeting, market segmentation세분화 등)
14. Anamoly 이상, 이상현상
*. etc
- Parallel
- Distributed Computing: 분산 컴퓨팅
- CRM: 고객 관계 관리. 고객에 대한 데이터를 잘 쌓아서 그걸 이용하여 관리하는 것.
- click stream: 클릭 경로. 사용자가 방문하는 일련의 연속 페이지. 어느 시점에서 사이트를 이탈하느냐를 관찰하는 등으로 사용할 수 있음.
- deductive: 연역적인. rule-based. 삼단논법. 이미 알고 있는 전제를 근거로 새로운 판단을 추론
- high dimensional: 고차원. 컬럼의 갯수를 말함. 현업에서는 150~200개 정도를 다룸.
- heterogeneous: 이질적인. 복잡한.
- cleansing: 정제
- data lake: 데이터를 많이 모아서 넣어둠.
- knowledge base: 패턴을 평가하기 위한 기반 지식. 금융권과 같은 로직의 변화가 예상되는 경우 하드코딩 단계에서 로직을 분리함.
- ~wise: ~의 식으로. rowwise는 행 기준.
'머신러닝' 카테고리의 다른 글
기계학습 (0) | 2019.04.16 |
---|---|
[python] 시작하기 (0) | 2019.04.16 |
인공지능의 한계 (0) | 2019.04.16 |
[python] Selenium을 이용한 Web-Scraping (0) | 2019.04.15 |
내적 (0) | 2019.04.03 |