[데이터마이닝] South Africa Heart Disease

 1  [데이터마이닝] South Africa Heart Disease-1
 2  [데이터마이닝] South Africa Heart Disease-2
 3  [데이터마이닝] South Africa Heart Disease-3
 4  [데이터마이닝] South Africa Heart Disease-4
 5  [데이터마이닝] South Africa Heart Disease-5
 6  [데이터마이닝] South Africa Heart Disease-6
 7  [데이터마이닝] South Africa Heart Disease-7
 8  [데이터마이닝] South Africa Heart Disease-8
 9  [데이터마이닝] South Africa Heart Disease-9
 10  [데이터마이닝] South Africa Heart Disease-10
 11  [데이터마이닝] South Africa Heart Disease-11
 12  [데이터마이닝] South Africa Heart Disease-12
 13  [데이터마이닝] South Africa Heart Disease-13
 14  [데이터마이닝] South Africa Heart Disease-14
 15  [데이터마이닝] South Africa Heart Disease-15
 16  [데이터마이닝] South Africa Heart Disease-16
 17  [데이터마이닝] South Africa Heart Disease-17
 18  [데이터마이닝] South Africa Heart Disease-18
 19  [데이터마이닝] South Africa Heart Disease-19
 20  [데이터마이닝] South Africa Heart Disease-20
※ 미리보기 이미지는 최대 20페이지까지만 지원합니다.
  • 분야
  • 등록일
  • 페이지/형식
  • 구매가격
  • 적립금
자료 다운로드  네이버 로그인
소개글
[데이터마이닝] South Africa Heart Disease에 대한 자료입니다.
목차
< 목 차 >




1. 프로젝트 목적설정
① 프로젝트 목적설정
② 모형구축방법 선택
2. 모형 구축을 위한 데이터 준비
① 데이터 접근
(1) 데이터 분류
(2) 원천데이터 읽기
② 데이터 정제
(1) 결측치와 데이터 오류
(2) 이상치와 데이터 오류
3. 변수 선택 및 변환
① 변수 선택하기
(1) 연속형 변수
(2) 범주형 변수
② 선형적인 독립변수 개발하기
(1) 연속형 변수
(2) 범주형 변수
4. 모형 구축 과정 및 평가
① 모형 구축과정
(1) 데이터 나누기
(2) 모형 구축하기
(3) 최종 모형 구축
② 십분위분석
(1) training data 십분위분석
(2) 사전 평가
③ 요약
5. 모형 평가
① 이익도표(Gains Tables)
② 요약
6. 결론

< 부 록 >
본문내용

여기서 십분위 0에서의 활성화 비율은 0.84615로써 training set에서의 활성화 비율보다 더 높고 십분위 9의 비율은 0으로 나타나므로 매우 활성화가 잘 되었다고 할 수 있다. 즉 구축된 모형이 여전히 성공적임을 알 수 있다. 하지만 Percent chd와 Predicted Probability사이에 여전히 차이가 있음을 알 수 있다.



그리고 Decile(2)에서 percent chd 값이 갑자기 떨어지는 것을 볼 수 있는데, 그 다음 값이 다시 갑자기 올라가는 것을 볼 수 있다. 이는 자료의 수가 적어서 이러한 값이 나온 것 같다. 자료의 수가 늘어나면 이와 같은 문제는 해결 될 것으로 보인다.



③ 요약

모형을 구축한 결과 모형은
이었다. 그리고 이 모형에 대해 사전 평가한 결과 구축된 모형이 성공적임을 알 수 있었다.




5. 모형 평가

사전 평가에서 모형이 적합하다는 결론이 나왔지만 이를 좀 더 객관적인 방법으로 평가해보도록 하자. 모형을 평가하는 방법에는 여러 가지가 있지만 우리는 모형을 평가하는 기본적인 방법인 이익도표(gains tables)를 통해서 모형의 안정성이나 로버스트 정도를 평가하도록 하겠다.

① 이익도표 (Gains Tables)

비전문가에게도 쉽게 이해가 되는 이익도표를 이용하여 모형을 평가하겠다. 아래는 Test Data 십분위분석표에 있는 결과들을 토대로 이익도표를 만든 것이다.

1열은 십분위수를 표시한 것이다.
2열은 각 십분위가 포함하는 데이터 개수이다. (Test Data의 10%씩을 가진다)
3열은 전체 데이터세트 중 평가용 데이터의 누적 퍼센트를 나타낸다.
4열은 모형에 의해 정의된 각 십분위에서의 평균 활성화 확률(Predicted probabilities*100)이다.
5열은 평가용 데이터세트를 사용한 각 십분위에서 평균 활성화 비율(Probability chd)이다. 이 값은 평가용 데이터세트의 각 십분위에서 활성화한 관측치 수를 그 십분위에 속한 평가용 전체 관측치 수로 나눈 값이다.
6열은 5열의 누적된 값 또는 누적된 활성화 비율(Cumulative Precent chd)이다.
7열은 각 십분위에서 실제 활성화한 관찰치의 수이다. (2열 5열)
8열은 각 7열의 값을 7열의 총합으로 나눈 것이다. 즉, 각 십분위에 속해 있는 활성화 관측