로그인 | 회원가입 | 장바구니 | 고객센터

대학레포트

마이페이지

충전하기

장바구니 0

레포트 > 공학계열

[데이터마이닝] South Africa Heart Disease

※ 미리보기 이미지는 최대 20페이지까지만 지원합니다.

분야
등록일
페이지/형식
구매가격
적립금

레포트 > 공학계열
2011.11.17
51페이지 / hwp
2,800원
84원 (구매자료 3% 적립)

자료 다운로드 네이버 로그인

추천자료

ICT와 의료산업발전방향

의료산업 동향 레포트

[심리] 심리학 용어집(한영)

[사회과교육] 아이들의 관심사를 통해 제작한 그리스 여행 계획서

국외 연수 보고서(평생교육)

[자료목록] 정부주도 경제개발체제

숭실대 대학원 영어시험_영어시험 해석_Academic Encouters 2nd edition

Making Connections3 skills and strategi 본문번역

[공무원시험] 법원직(헌법&민법) 모의고사 문제&답안(8월31일자)

기출응용 레포트

소개글

[데이터마이닝] South Africa Heart Disease에 대한 자료입니다.

< 목 차 >

1. 프로젝트 목적설정
① 프로젝트 목적설정
② 모형구축방법 선택
2. 모형 구축을 위한 데이터 준비
① 데이터 접근
(1) 데이터 분류
(2) 원천데이터 읽기
② 데이터 정제
(1) 결측치와 데이터 오류
(2) 이상치와 데이터 오류
3. 변수 선택 및 변환
① 변수 선택하기
(1) 연속형 변수
(2) 범주형 변수
② 선형적인 독립변수 개발하기
(1) 연속형 변수
(2) 범주형 변수
4. 모형 구축 과정 및 평가
① 모형 구축과정
(1) 데이터 나누기
(2) 모형 구축하기
(3) 최종 모형 구축
② 십분위분석
(1) training data 십분위분석
(2) 사전 평가
③ 요약
5. 모형 평가
① 이익도표(Gains Tables)
② 요약
6. 결론

< 부 록 >

본문내용

여기서 십분위 0에서의 활성화 비율은 0.84615로써 training set에서의 활성화 비율보다 더 높고 십분위 9의 비율은 0으로 나타나므로 매우 활성화가 잘 되었다고 할 수 있다. 즉 구축된 모형이 여전히 성공적임을 알 수 있다. 하지만 Percent chd와 Predicted Probability사이에 여전히 차이가 있음을 알 수 있다.

그리고 Decile(2)에서 percent chd 값이 갑자기 떨어지는 것을 볼 수 있는데, 그 다음 값이 다시 갑자기 올라가는 것을 볼 수 있다. 이는 자료의 수가 적어서 이러한 값이 나온 것 같다. 자료의 수가 늘어나면 이와 같은 문제는 해결 될 것으로 보인다.

③ 요약

모형을 구축한 결과 모형은
이었다. 그리고 이 모형에 대해 사전 평가한 결과 구축된 모형이 성공적임을 알 수 있었다.

5. 모형 평가

사전 평가에서 모형이 적합하다는 결론이 나왔지만 이를 좀 더 객관적인 방법으로 평가해보도록 하자. 모형을 평가하는 방법에는 여러 가지가 있지만 우리는 모형을 평가하는 기본적인 방법인 이익도표(gains tables)를 통해서 모형의 안정성이나 로버스트 정도를 평가하도록 하겠다.

① 이익도표 (Gains Tables)

비전문가에게도 쉽게 이해가 되는 이익도표를 이용하여 모형을 평가하겠다. 아래는 Test Data 십분위분석표에 있는 결과들을 토대로 이익도표를 만든 것이다.

1열은 십분위수를 표시한 것이다.
2열은 각 십분위가 포함하는 데이터 개수이다. (Test Data의 10%씩을 가진다)
3열은 전체 데이터세트 중 평가용 데이터의 누적 퍼센트를 나타낸다.
4열은 모형에 의해 정의된 각 십분위에서의 평균 활성화 확률(Predicted probabilities*100)이다.
5열은 평가용 데이터세트를 사용한 각 십분위에서 평균 활성화 비율(Probability chd)이다. 이 값은 평가용 데이터세트의 각 십분위에서 활성화한 관측치 수를 그 십분위에 속한 평가용 전체 관측치 수로 나눈 값이다.
6열은 5열의 누적된 값 또는 누적된 활성화 비율(Cumulative Precent chd)이다.
7열은 각 십분위에서 실제 활성화한 관찰치의 수이다. (2열 5열)
8열은 각 7열의 값을 7열의 총합으로 나눈 것이다. 즉, 각 십분위에 속해 있는 활성화 관측

#데이터마이닝 #Disease #Heart #South #데이터

오늘 본 자료

오늘 본 자료가 없습니다.

이 분야 인기자료

이 분야 신규자료