소개글
[회귀분석] 무엇이 영화 관객수에 영향을 미치는가에 대한 자료입니다.
목차
Ⅰ 서론
(1) 주제 선택 동기
(2) The origin of source
(3) 변수설명
(4) 자료수정
Ⅱ 본론
(1) 최초모형
(2) 최초모형 DIAGNOSTICS (The Standard Regression Assumptions)
① Assumptions about the errors
② Assumptions about the form of the model
③ Assumptions about the predictior
④Assumptions about the observations
⑤ 최초모형 회귀진단 결론
(3) 변수선택
(4) 최종모형 DIAGNOSTICS (The Standard Regression Assumptions)
① Assumptions about the form of the model
② Assumptions about the errors
③ Assumptions about the predictior
④Assumptions about the observations
Ⅲ 결론
- 최종회귀모델 정리 및 소감
본문내용
Ⅰ 서론
(1) 주제 선택 동기
요즘 들어 한국영화시장이 좋지 않다. 영화를 좋아하는 우리 팀원들은 그래서 어떤 요인이 영화의 흥행에 영향을 미치는지 관심을 모으게 되었다.
“무엇이 영화 관객수에 영향을 미치는가”
(2) The origin of source
① 영화진흥위원회 - http://www.kofic.or.kr
② 필름2.0 - http://www.film2.co.kr
③ 무비스트 - http://www.movist.com
(3) 변수설명
① Y : The total number of cinema audiences according to each movie
(자료의 범위는 자료의 수가 가장 많았던 2006년 한국영화로 정했다.)
(구체적으로는, first-run Korean films in 2006
+re-first-run Korean films in 2006
+first-run Korean films in 2005 which were transferred
- 개봉관수가 많을수록,
영화배급사가 메이저 회사일수록,
개봉 전에 기사화가 많이 되었을수록,
학생들이 영화를 많이 보는 방학기간 일수록,
공신력있는 영화사이트에서 매긴 평점이 높을수록,
영화관객수가 많을 것이라 생각하여 다음의 5가지 설명변수를 고려해보았다.
② X1(screen) : The number of theaters which show the movie
③ X2(release) : The company charging of releasing movies
(the company having a market share through ranking 1~5=1, otherwise 0)
④ X3(new-s) : the rate of interest before releasing movies
(we standardize the # articles about movies in films 2.0)
⑤ X4(season) : the period when releasing the movies
(the movies released in 7,8, 12, 1, 2 month=1 otherwise=0 )
⑥ X5(score) : the average of the grades of in the MOVIEST
- As you see above, we choose three quantity variables (screen, new-s, score) and two categorical variables (release, season) as explaining variable.
(4) 자료수정
① We deleted the data which is less than 1,000 because this data can distort our analysis. 관객수가 1000명 이하인 영화는 대부분 흥행을 목적으로 상영한 영화가 아니다. 따라서, 이 자료를 우리의 분석에서 제외한다 하더라도, 우리의 목적(주제)에서 벗어나는 것이 아니다.
② Y -> logY
- 반응변수인 Y에 대해 히스토 그램을 그려보았다.
-> 위에서 보는 바와 같이 관객수가 적은 쪽으로 Data가 많이 치우쳐 있다.
따라서, log를 취해 transforming 시켰다.