빅 데이터 시대가 되면서 머신러닝과 딥러닝이 화두에 있습니다.
데이터마이닝도 데이터의 사이언스의 핵심 교과목입니다.
학자들은 이 데이터마이닝을 기계학습(머신러닝)이라고도 말합니다.
기계학습에 대해 먼저 알아 봅시다!
Machine Learning
컴퓨터가 데이터를 가지고 학습하고, 학습한 것을 바탕으로 새로운 데이터가 왔을 때 예측하는 기술
기계에 데이터가 주어지면 알고리즘을 통해 데이터의 패턴을 파악합니다.
여기서 데이터의 패턴이란 데이터가 어떻게 분포되어 있는지, 데이터가 어떤 형태로 위치하는지 등을 의미합니다.
이 데이터의 패턴을 파악하는 과정을 ‘학습’이라고 합니다.
학습은 ‘학습 모델’이라는 곳에서 진행되며, 모델마다 알고리즘을 다르게 적용할 수 있습니다.
학습도 당연히 알고리즘(모델)에 따라 다르게 진행됩니다.
변수 사이의 관계를 알아보는 회귀와
데이터를 분류하는 분류가
대표적인 기계학습 알고리즘입니다.
각각의 알고리즘에 따라서 데이터의 패턴을 파악하는 방향이 다르다는 것입니다!
이러한 학습이 끝나면 컴퓨터는 ‘학습 모델’ 에 결과물을 저장합니다.
바로 데이터의 패턴을 저장합니다.
여기에 새로운 데이터를 집어 넣으면 무슨 일이 일어날까요??
컴퓨터에게 데이터만 주었을 뿐인데 ‘우리가 원하는 정보에 대한 예측치‘를 제공합니다.
예를 들어 과일 데이터에 대한 분류 학습 모델에 ‘사과’를 집어 넣으면 ‘빨간 과일’이라고 분류(예측)합니다.
임금 데이터에 대한 회귀 학습 모델에 ‘직급’, ‘실적 수’를 집어 넣으면 ‘₩ 353,000’이라고 예측합니다.
Machine Learning
컴퓨터가 데이터를 가지고 학습하고, 학습한 것을 바탕으로 새로운 데이터가 왔을 때 예측하는 기술
이제는 위에 써 놓은 정의가 조금은 이해되셨나요?
데이터마이닝도 머신러닝이라고 말하는 이유는
머신러닝 과정을 그대로 사용하지만
새로운 정보를 유추하는 것이 목적이 아니라,
학습한 결과에 해당하는 데이터의 패턴을 보고 분석을 하기 때문입니다.
Data Mining
컴퓨터가 데이터를 가지고 학습한 후, 학습 결과에 해당하는 데이터 패턴을 분석하는 기술
* 위 모든 내용은 학부생 수준인 필자가 주관적으로 작성한 글임을 밝힙니다. *