방송통신대 2021년 01학기 중간과제물 통계데이터과학과 2024년 1학기 중간과제물
※ 반드시 지시사항을 숙지하고 작성하시기 바랍니다. (총 4문제) 1. 데이터마이닝은 학습의 방법에 따라 지도학습과 자율학습으로 나눌 수 있다. 각 학습방법의 의미를 설명하고 어떤 데이터마이닝 기법들이 포함되는지 기술하시오. (5점) 2. R에 내장된 보스턴하우징 데이터를 변형하여 로지스틱 회귀모형을 적합하고자 한다. 새로운 목표변수 y를 medv가 21보다 큰 경우 “H”로, medv가 21보다 작거나 같은 경우 “L”로 설정하여 모형을 적합하고 결과를 해석하라. (단, medv는 모형에서 제외) (10점) *힌트: R 코드 Boston$y <- ifelse(Boston$medv>21,"H","L") 를 활용하고 교재 참고 3. 아래와 같은 분할표가 주어져 있을 때, (1)에서 (5)까지 작업을 수행하시오.(총 10점, 각 문항당 2점) 단, Y는 출력변수이고 X1과 X2는 입력변수이다. (입력변수와 출력변수 모두 범주형 변수임에 유의하시오. 즉, 출력변수 Y=1일 때, X1=범주1이고 X2=범주1인 관측치는 2개라는 의미임) (1) 위와 같이 범주형 변수 X1과 X2로 구성된 데이터에서 이 변수들이 서로 관계가 있는지를 검정하기 위한 검정방법으로 적절한 방법을 제안하시오. (단, 문제(1)은 Y=1인 좌측 표에 한정하여 귀무가설을 제시하고 검정통계량을 계산하시오. 통계학개론 참고) (2) 위 분할표를 참고하여 아래와 같은 구조로 데이터의 형태를 재구성하시오. (3) 지니지수를 이용하여 최적의 분리점을 찾으시오.(산식을 이용하여 손으로 계산해도 좋고 R 코드를 이용하여 산출해도 좋음) (4) 뿌리노드가 한번 분할된 분류나무를 생성하고, 두 자식노드에서 관찰치들의 집단별 빈도를 밝히시오.(산식을 이용하여 손으로 계산해도 좋고 R 코드를 이용하여 산출해도 좋음) (5) 위에서 생성된 분류나무의 오분류율을 계산하시오. (산식을 이용하여 손으로 계산해도 좋고 R 코드를 이용하여 산출해도 좋음) 4. 배깅, 부스팅, 랜덤포레스트 중에서 극단값에 더 예민하게 반응하는 앙상블 방법은 무엇인지 쓰고, 그 이유를 상세히 서술하라. (5점)
참고자료
이 분야 인기자료
최신 등록자료
서비스이용약관 | 개인정보취급방침 | 사업자 정보확인 | 이메일 무단수집 거부 | 제휴 및 광고문의 | FAQ