데이터 마이닝
Data Mining
데이터베이스 속에서 의미있으면서 유용하고 가치있는 정보를 찾아내는 인간행동이다. 학문적으로 엄밀하게는 이 인간행동 중에서도 부분적인 과정만을 일컫지만 일상생활에서는 모든 과정을 일컫는다. 이런 과정을 지식발굴과정 (KDD)라고 부른다.
2016년 알파고 이후 산업공학과의 데이터마이닝 쪽 랩들은 들어가기 매우 힘들어졌다. 랩 인턴을 안 하면 합격이 어려울 정도가 되었다.
Classification
Clustering 군집 분석 : 인간에 의해서 해답이 제공되지 않고 알고리즘 자체에 의해 그룹이 만들어지는 기법.
Association 연관 규칙 : 어떤 항목이 어떤 항목과 연관되는가?
Visualization 데이터 시각화 : 인간이 알아볼 수 있는 형태로 표시
Prediction
Summarization
Neural Network 인공신경망
Genetic Algorithm 유전 알고리즘
Decision Tree 의사결정나무 : 가장 인기있는 데이터 마이닝 툴로서 여러가지 옵션과 그들 옵션을 선택할 때의 결과를 체계적으로 제시하는 방법론이다.
Case Based Reasoning 사례기반추론
Discriminant Analysis 판별 분석
Regression 회귀분석
Association
K-Means
고려대 산업공학과에서는 교재로 "Shmueli, G., Patel, N.R., Bruce, P. C. (2010). Data Mining for Business Intelligence: Concepts, Techniques, and Applications in Microsoft Office Excel with XLMiner, Wiley"을 사용하고 있다. 동국대학교 통계학과에서는 교재로 "R을 이용한 데이터 마이닝, 박창이, 김진석'을 사용하고 있다.
이 과목을 수강하려면 통계학개론, 회귀분석에 대한 지식이 요구된다. 또 사용하는 툴에 대한 지식이 요구된다. (R언어, SAS 등)
kNN, 의사결정나무, 신경망, 군집분석 등에 대해서는 기계학습 항목도 참조.
빅 데이터 프로세싱#s-4 문서 참조.
게이머들에겐 온라인서비스를 하는 게임의 클라이언트를 뜯어 이런저런 비공개 정보를 찾아내는걸 칭할때 해당 용어를 쓴다.
해외 게이머들은 data peek이라 부르는 작업. 보통 게임 클라이언트를 업데이트 할때 이런저런 정보를 추가하나 해당 사항이 공개되는건 일정 기간후일 경우가 많은데, 해당 작업을 통해 유저들이 미리 예상을 하거나 유저들이 개발사보다 먼저 선공개를 해버리는 것이다.
예를 들어 신규 스킨의 내용이나 신규 이벤트의 내용 등이 있다. 해당 부분에 대한 제재를 가하는 게임사도 존재하나 많은 게임회사들은 이에 대해 딱히 제재를 하지 않고 그대로 두는 편이다.
한편, 제재를 가하는 게임의 경우 보통 해당 데이터가 거의 100% 유저들에게 불리한 것이 존재하기 때문에 해당 작업을 제재하는 게임의 경우 먼가 뒤가 구린게 있다고 간주하는 경우가 많다.
"데이터 과학자는 21세기 들어 가장 '''섹시한''' 직업을 가진 사람들이다."
- 하버드 비즈니스 리뷰, 2012
1. 개요
데이터베이스 속에서 의미있으면서 유용하고 가치있는 정보를 찾아내는 인간행동이다. 학문적으로 엄밀하게는 이 인간행동 중에서도 부분적인 과정만을 일컫지만 일상생활에서는 모든 과정을 일컫는다. 이런 과정을 지식발굴과정 (KDD)라고 부른다.
2016년 알파고 이후 산업공학과의 데이터마이닝 쪽 랩들은 들어가기 매우 힘들어졌다. 랩 인턴을 안 하면 합격이 어려울 정도가 되었다.
2. Operation
Classification
Clustering 군집 분석 : 인간에 의해서 해답이 제공되지 않고 알고리즘 자체에 의해 그룹이 만들어지는 기법.
Association 연관 규칙 : 어떤 항목이 어떤 항목과 연관되는가?
Visualization 데이터 시각화 : 인간이 알아볼 수 있는 형태로 표시
Prediction
Summarization
3. 주된 기술
Neural Network 인공신경망
Genetic Algorithm 유전 알고리즘
Decision Tree 의사결정나무 : 가장 인기있는 데이터 마이닝 툴로서 여러가지 옵션과 그들 옵션을 선택할 때의 결과를 체계적으로 제시하는 방법론이다.
Case Based Reasoning 사례기반추론
Discriminant Analysis 판별 분석
Regression 회귀분석
Association
K-Means
4. 학부 교과목으로서
고려대 산업공학과에서는 교재로 "Shmueli, G., Patel, N.R., Bruce, P. C. (2010). Data Mining for Business Intelligence: Concepts, Techniques, and Applications in Microsoft Office Excel with XLMiner, Wiley"을 사용하고 있다. 동국대학교 통계학과에서는 교재로 "R을 이용한 데이터 마이닝, 박창이, 김진석'을 사용하고 있다.
이 과목을 수강하려면 통계학개론, 회귀분석에 대한 지식이 요구된다. 또 사용하는 툴에 대한 지식이 요구된다. (R언어, SAS 등)
kNN, 의사결정나무, 신경망, 군집분석 등에 대해서는 기계학습 항목도 참조.
- 소개
- 데이터 전처리
- EDA (Exploratory Data Analysis) : 데이터에 대한 기본적인 영감을 얻는데 필요한 방법론.
- 감독학습
- K-Nearest Neighbor 알고리즘
- 의사결정나무
- 신경망, 회귀분석, 로지스틱회귀, 앙상블모형, 변수선택 및 모형선택, ...
- 비감독학습
- 군집 분석, 연관 규칙, ...
- 모델 평가 기법 : 다양한 데이터 마이닝 모델을 평가하는 방법론
5. 데이터 마이닝 소프트웨어
빅 데이터 프로세싱#s-4 문서 참조.
6. 관련 문서
7. 온라인 게임에서
게이머들에겐 온라인서비스를 하는 게임의 클라이언트를 뜯어 이런저런 비공개 정보를 찾아내는걸 칭할때 해당 용어를 쓴다.
해외 게이머들은 data peek이라 부르는 작업. 보통 게임 클라이언트를 업데이트 할때 이런저런 정보를 추가하나 해당 사항이 공개되는건 일정 기간후일 경우가 많은데, 해당 작업을 통해 유저들이 미리 예상을 하거나 유저들이 개발사보다 먼저 선공개를 해버리는 것이다.
예를 들어 신규 스킨의 내용이나 신규 이벤트의 내용 등이 있다. 해당 부분에 대한 제재를 가하는 게임사도 존재하나 많은 게임회사들은 이에 대해 딱히 제재를 하지 않고 그대로 두는 편이다.
한편, 제재를 가하는 게임의 경우 보통 해당 데이터가 거의 100% 유저들에게 불리한 것이 존재하기 때문에 해당 작업을 제재하는 게임의 경우 먼가 뒤가 구린게 있다고 간주하는 경우가 많다.