위와 같이 수집된 희곡 대본을 지문 및 기타 요소들을 모두 제거하고 대사만 말뭉치로 선정하여 연구를 진행하였다.
희곡 텍스트에 대사 이외의 요소들은 수작업으로 삭제하여 원시말뭉치를 구축했다. 원시말뭉치를 지능형 형태소 분석기를 사용하여 형태소 분석을 하고, 빈도분석기를 활용하여 빈
말뭉치를 구축하고 분석하여 연구 업적의 검증을 이루어내고 이 검증을 통해 연구 성과의 이론적 체계를 더욱 공고히 하고 더 나아가서 말뭉치 자료와 학문과의 관계를 생각해 볼 수 있는 연구를 해 보자는 결론을 이끌어냈다.
우리 현대 문학사를 살펴볼 때 서로 대조되는 시적 형태가 공존했던 적
분석기 돌린 결과 자료의 총 어절수가 만 칠천(1,7000) 어절로 나타났으며, 이중에서 수정필요 오류 어절 수가 백사십팔(148)개로 분석되었으며, 형태소 분석기가 잘못 분석한 오류수가 오류 어절 수에 더해졌다. 다음은 오류 분석시 나타나는 말뭉치의 예를 보인 것이다.
(3)깜짝새를 통한 통계 분석
Ⅰ. 개관
1. 빈도분석 (frequency)
빈도분석은 원자료의 내용들이 빈도분포표 상에서 어떠한 분포적 특성을 가지고 있는지를 파악하는데 이용되고 있다. 이들 분포들의 특성을 나타내는 통계량들은 첫째, 빈도, 상대적 백분율, 누적빈도와 같은 빈도분포표로 구성되어 있다. 둘째, 최빈값(mode), 중앙값(media