ImageLab News 

이미지랩소식

ImageLab News

이미지랩소식

머신러닝[회귀알고리즘1] 회귀란?

회귀는 데이터 값이 평균과 같은 일정한 값으로 돌아가려 하는 경향을 이용한 통계학적 기법이다. 예를 들어, 아파트의 방 개수, 방 크기, 주변 학군등의 여러가지 독립 변수에 따라 아파트 가격이라는 종속변수가 어떤 관계를 나타내는지 모델링하고 예측하는 것이다.

다음과 같은 선형회귀식을 예로 들면

Y=W1X1 + W2X2 + W3X3 +... + WnXn

Y는 종속 변수 즉 아파트 가격을 의미하며, x는 방의 개수, 방 크기, 주변 학군 등의 독립변수를 의미한다. w는 이 독립변수의 값에 영향을 미치는 회귀 계수(Regression coefficients)인데, 머신러닝의 관점에서 볼 때 독립변수는 피처에 해당하며, 종속변수는 결정 값을 의미한다. 머신러닝의 회귀예측의 핵심은 주어진 피처와 결정 값 데이터 기반에서 학습을 통해 최적의 회귀 계수를 찾아내는 것이다.

 

회귀는 회귀계수의 선형/비선형 여부, 독립변수의 개수, 종속변수의 개수에 따라 여러가지 유형으로 나눌 수 있다. 회귀에서 가장 중요한 것은 회귀계수인데, 이 회귀계수가 선형이냐 아니냐에 따라 선형/비선형회귀가 나뉘어지게 되며, 독립변수가 한개인지, 여러개인지에 따라 단일회귀와 다중회귀로 나뉘어지게 된다.


대표적인 선형 회귀 모델은 다음과 같다

· 일반 선형 회귀 : 예측값과 실제값의 RSS(Residual Sum of Squares)를 최소화 할 수 있도록 회귀 계수를 최적화하며, 규제(Regularization)을 적용하지 않은 모델.

· 릿지(Ridge) : 선형 회귀에 L2규제를 추가한 모델이다. L2규제는 상대적으로 큰 회귀 계수 값의 예측 영향도를 감소시키기 위해 회귀계수값을 더 작게 만드는 규제 모델이다.

· 라쏘(Lasso) : 선형회귀에 L1규제를 추가한 모델이다. L1규제가 회귀계수 값의 크기를 줄이는 데 반해, L1규제는 예측 영향력이 작은 피처의 회귀계수를 0으로 만들어 회귀예측시 피처가 선택되지 않게 하는 것이다.

· 엘라스틱넷(ElasticNet): L1,L2규제를 동시에 적용한 모델이다. 피처가 많은 데이터 세트에서 적용되며, L1규제로 피처의 개수를 줄이며 동시에 L2규제로 계수값의 크기를 조정한다.

· 로지스틱 회귀(Logistic Regression) : 로지스틱 회귀는 회귀라는 이름이 붙어있으나, 강력한 분류 모델이다. 이진 분류만이 아니라, 텍스트 분류와 같은 희소영역 분류에서도 뛰어난 예측 성능을 보인다.

Image Lab 이미지랩

본사 경기도 과천시 과천대로7길 33, A동 7층 710호

(갈현동, 디테크타워 과천)

연구소 경기도 성남시 수정구 창업로 43,

판교글로벌비즈센터 B1013호

Tel. 031-757-9472 Fax. 031-759-1489

Image Lab 이미지랩

본사 경기도 과천시 과천대로7길 33, A동 7층 710호(갈현동, 디테크타워 과천)

연구소 경기도 성남시 수정구 창업로 43, 판교글로벌비즈센터 B1013호

Tel. 031-757-9472 Fax. 031-759-1489  E-mail. imagelabinc@gmail.com