소개글
[데이터마이닝] South Africa Heart Disease에 대한 자료입니다.
목차
< 목 차 >
1. 프로젝트 목적설정
① 프로젝트 목적설정
② 모형구축방법 선택
2. 모형 구축을 위한 데이터 준비
① 데이터 접근
(1) 데이터 분류
(2) 원천데이터 읽기
② 데이터 정제
(1) 결측치와 데이터 오류
(2) 이상치와 데이터 오류
3. 변수 선택 및 변환
① 변수 선택하기
(1) 연속형 변수
(2) 범주형 변수
② 선형적인 독립변수 개발하기
(1) 연속형 변수
(2) 범주형 변수
4. 모형 구축 과정 및 평가
① 모형 구축과정
(1) 데이터 나누기
(2) 모형 구축하기
(3) 최종 모형 구축
② 십분위분석
(1) training data 십분위분석
(2) 사전 평가
③ 요약
5. 모형 평가
① 이익도표(Gains Tables)
② 요약
6. 결론
< 부 록 >
본문내용
여기서 십분위 0에서의 활성화 비율은 0.84615로써 training set에서의 활성화 비율보다 더 높고 십분위 9의 비율은 0으로 나타나므로 매우 활성화가 잘 되었다고 할 수 있다. 즉 구축된 모형이 여전히 성공적임을 알 수 있다. 하지만 Percent chd와 Predicted Probability사이에 여전히 차이가 있음을 알 수 있다.
그리고 Decile(2)에서 percent chd 값이 갑자기 떨어지는 것을 볼 수 있는데, 그 다음 값이 다시 갑자기 올라가는 것을 볼 수 있다. 이는 자료의 수가 적어서 이러한 값이 나온 것 같다. 자료의 수가 늘어나면 이와 같은 문제는 해결 될 것으로 보인다.
③ 요약
모형을 구축한 결과 모형은
이었다. 그리고 이 모형에 대해 사전 평가한 결과 구축된 모형이 성공적임을 알 수 있었다.
5. 모형 평가
사전 평가에서 모형이 적합하다는 결론이 나왔지만 이를 좀 더 객관적인 방법으로 평가해보도록 하자. 모형을 평가하는 방법에는 여러 가지가 있지만 우리는 모형을 평가하는 기본적인 방법인 이익도표(gains tables)를 통해서 모형의 안정성이나 로버스트 정도를 평가하도록 하겠다.
① 이익도표 (Gains Tables)
비전문가에게도 쉽게 이해가 되는 이익도표를 이용하여 모형을 평가하겠다. 아래는 Test Data 십분위분석표에 있는 결과들을 토대로 이익도표를 만든 것이다.
1열은 십분위수를 표시한 것이다.
2열은 각 십분위가 포함하는 데이터 개수이다. (Test Data의 10%씩을 가진다)
3열은 전체 데이터세트 중 평가용 데이터의 누적 퍼센트를 나타낸다.
4열은 모형에 의해 정의된 각 십분위에서의 평균 활성화 확률(Predicted probabilities*100)이다.
5열은 평가용 데이터세트를 사용한 각 십분위에서 평균 활성화 비율(Probability chd)이다. 이 값은 평가용 데이터세트의 각 십분위에서 활성화한 관측치 수를 그 십분위에 속한 평가용 전체 관측치 수로 나눈 값이다.
6열은 5열의 누적된 값 또는 누적된 활성화 비율(Cumulative Precent chd)이다.
7열은 각 십분위에서 실제 활성화한 관찰치의 수이다. (2열 5열)
8열은 각 7열의 값을 7열의 총합으로 나눈 것이다. 즉, 각 십분위에 속해 있는 활성화 관측