소개글
[데이터마이닝] Corolla 중고차 가격 예측에 대한 자료입니다.
목차
1. 주제선정이유
2. 데이터분석
3. Diagram
4. 전처리
5-(1). 모델1: Regression
5-(2). 모델2: Tree by interval variables
5-(3). 모델3: Tree by categorical variables
5-(4). 모델4: Clustering
본문내용
총 38개의 변수 중 Age가 가장 큰 영향력을 끼치는 변수로 판별되었다.
그 다음은 KM, Weight 순으로 나왔다.
여러 가지 AOV16변수들 중에 Quaterly_Tax는 원 변수와 차이가 많이 나기 때문에 비선형성을 갖고 있다고 판단 할 수 있다.
따라서 Logit Regression을 하되, Linear Regression도 하여 그 둘을 비교해보도록 하였다.
*AOV16변수: AOV16변수는 연속형 입력변수를 16등분하고 각각의 등분을 가 변수화한 변수로써 원 변수와 이 변수의 차이가 클 때 강한 비선형성이 있다고 판단할 수 있다.
X축: 실제 중고차 가격
Y축: 회귀모형에 의해 예측된 중고차 가격
그래프가 매우 선형에 근접하게 나타났다.
따라서 예측 값과 실제 값이 매우 높은 선형관계를 나타내고 있다고 할 수 있고 괜찮은 모형이라고 할 수 있다.