728x90

안녕하세요 푸키입니다. 오늘은 머신러닝의 회귀와 분류에 대해서 이야기하겠습니다. 


글의 흐름

< 머신러닝 >

1. 머신러닝 분류(1) 머신러닝 회귀와 분류 << 현위치 
2. 머신러닝 분류(2) 머신러닝 배치학습과 온라인 학습
3. 머신러닝 분류(3) 머신러닝 사례 기반과 모델 기반 
4. 데이터 인코딩/ 피처스케일링/ 교차검증
5. 주요 머신러닝 모델 소개 

< 딥러닝 > 

1. 그래프 모델 개념 및 신경망 기본 구조 소개 
2. 전방향 연산, 가중치 초기화, 배치 기반 연산학습. Regularization 기본 개념
3. 신경망에서 학습의 의미, 역전파 기본 개념 및 chain Rule 을 이용한 학습
4. RBM 구축 과정, 수학이론, 구현 연습 
5. CNN 개념  
6. 다양한 딥러닝 모델 소개 

머신러닝이란?

머신러닝은 인간이 학습을 통해 정확도를 점진적으로 개선하는 방식을 모방하기 위한 데이터와 알고리즘의 사용에 초점을 맞춘 인공지능(AI) 및 컴퓨터 사이언스의 한 분야입니다. 알고리즘을 이용하여 데이터를 분석하고, 분석 결과를 스스로 학습한 후, 이를 기반으로 어떠한 판단이나 예측을 하는 것을 의미합니다

머신러닝은 학습과 개선을 위해 명시적으로 컴퓨터를 프로그래밍하는 대신, 컴퓨터가 데이터를 통해 학습하고 경험을 통해 개선하도록 훈련하는 데 중점을 둡니다. 머신러닝에서 알고리즘은 대규모 데이터 세트에서 패턴과 상관관계를 찾고 분석을 토대로 최적의 의사결정과 예측을 수행하도록 훈련됩니다.  

 

머신 러닝의 3가지 학습방법 

머신러닝은 크게 세가지로 분류 할 수 있는데 이번 게시물에는
학습하는 동안의 감독 형태나 정보량에 따라 분류하겠습니다. 

이 분류에는 총 3가지 학습방법이 있습니다. (준지도학습까지 4가지라고도 합니다) 

https://live.lge.co.kr/live_with_ai_01/

 

① 지도 학습 (Supervised Learning)
:  정답을 기반으로 오류를 줄여서 학습하는 방법. 지도 학습에는 알고리즘에 주입하는 훈련 데이터에 레이블이라는 원하는 답을 포함합니다. 지도 학습에는 밑에서도 설명하겠지만 분류와 회귀 방법이 있습니다. 
지도 학습은 반복 학습을 통해서 오류를 줄여가면서 점점 더 정답에 가까워지게 됩니다.

② 비지도 학습 (Unsupervised Learning)
: 정답을 모르더라도 유사한 것들과 서로 다른 것들을 구분해서 군집을 만들 수 있는 학습하는 방법.
비지도 학습에는 군집, 시각화와 차원축소 등이 있습니다. 


최근에는 지도 학습과 비지도 학습을 섞어서 데이터에 정답을 유추해 나가는 방법의 기술들도 많이 나오고 있으며, 이를 준지도 학습(Semi-Supervised Learning)이라고 합니다. 군집을 학습한 후에, 군집의 일부 데이터만 사람이 정답을 매겨주면, 그 군집 전체를 사람이 매긴 정답으로 볼 수 있다는 원리입니다.

③ 강화 학습 (Reinforcement Learning)
: 보상과 벌칙과 함께 여러 번의 시행착오를 거쳐 스스로 학습하는 방법. 여기서 학습하는 시스템을 에이전트라고 부르며 환경을 관찰해서 행동을 실행하고 보상이나 벌점을 받습니다. 가장 큰 보상을 받기 위해 정책이라고 부르는 최상의 전략을 스스로 학습합니다. 보행로봇 같은 경우에 사용합니다. 

머신 러닝에서 회귀와 분류란?

https://davincilabs.ai/wiki/?q=YToxOntzOjEyOiJrZXl3b3JkX3R5cGUiO3M6MzoiYWxsIjt9&bmode=view&idx=7709711&t=board

지도학습에서 데이터의 종류에 따라 분류와 회귀로 나눌 수 있습니다. 

분류는 종속 변수 (target)범주형 데이터지만

회귀에서 종속 변수는 수치형 데이터입니다. 

즉 종속변수 ( 목표) 가 범주형 데이터면 분류, 종속 변수 ( 목표) 가 수치형 데이터면 회귀를 이용해야하는 것 입니다. 


예를 들어볼까요,

사람들의 수면시간을 입력 ( 독립변수) 시험 점수를 확인합니다. (종속 변수)  -> 회귀

사람들의 수면시간을 입력( 독립변수)  최종 합격여부를 확인합니다. (종속 변수)  -> 분류


회귀에서는 또, 독립변수 (x)가 한 개이고 종속변수 (Y)가 하나일 경우 단순 선형 회귀

독립변수 (X) 여러개와 종속변수 (Y) 하나의 관계일 경우 다중 선형 회귀라고 합니다. 


이에 회귀문제에서는 최적의 회귀 계수를 찾아야 합니다.

예측값과 실젯값의 차이 즉 오차를 최소화 해야하지만,  이 오차가 0이기엔 어렵고 그에 가까울 경우 과대적합일 경우도 있습니다. 이에 관련해서 다음장에서 설명드리겠습니다. 

*과대적합: 훈련한 데이터에만 정확도가 맞고 그렇지 않은 데이터에는 적합하지 않은 현상입니다. 저도 머신러닝 프로젝트를 할 때 다음과 같은 일이 많았습니다. 훈련한 데이터는 기가막히게 잘 분류하는데, 글쎄 다른 데이터는 분류를 엄청 이상하게 하더라구요. 이를 해결하는 방법에 대해서 다음에 말씀드리겠습니다.


푸키였습니다 좋은 하루 되세요! 

마음에 드셨다면 공감 부탁드립니다. 오류가 있다면 댓글로 알려주세요. 끊임없이 수정하고 있습니다. 

728x90

+ Recent posts