I. 과제 수행 절차
1. 자료 분석 과정
1.1 데이터 선별
․ 통신 회사로부터 총 2,666개의 자료를 받았으나, 이중 총 111개의 데이터의 문제점이 있었음
․ 총 111개의 데이터를 삭제함
1.2 데이터 작성
․ 학습 데이터와 검증데이터 그리고 예측 데이터로 나누어 자료를 작성함
․ 유
1. 교재 p.137 예제 5-5의 데이터(어느 학교 학생 11명의 1년 동안 읽은 책 수)에 대한 히스토그램과 상자그림을 그리고, 다섯수치요약을 산출하시오. (5점)
1)히스트그램
①코드
# 데이터 입력
count <- c(8, 1, 10, 15, 15, 10, 5, 19, 20, 9, 10)
# 히스토그램 작성
hist(count, main='1년 동안 읽은 책 수\n(학생 11명)', xlab=
데이터개수이다. (Test Data의 10%씩을 가진다)
3열은 전체 데이터세트 중 평가용 데이터의 누적 퍼센트를 나타낸다.
4열은 모형에 의해 정의된 각 십분위에서의 평균 활성화 확률(Predicted probabilities*100)이다.
5열은 평가용 데이터세트를 사용한 각 십분위에서 평균 활성화 비율(Probability chd)이다. 이 값은
베이지안 추론의 핵심은 관측값이 주어졌을 때 모수 θ의 사후분포를 구하는 것이다. 그러나 모형이 복잡하거나 모수의 수가 많으면 θ를 수리적으로 구할 수 없다. 따라서 사후분포의 사후평균, 사후분산, 특정 사건에 대한 사후확률 등을 근사적으로 계산할 필요가 있다. 이때 사후분포의 특성을 근사
데이터 출처
- 「SAS Enterprise Miner를 이용한 데이터마이닝」
부산의 S병원 건강검진센터를 2003년 3월부터 11월 사이에 내원하여 검진을 받은 환자들을 대상으로 지방간과 관계를 갖는 변인을 찾기 위하여 조사한 데이터데이터 요약
- 관측값 개수 : 511개
- 변 수 개수 : 12개
대상 변수