위와 같이 수집된 희곡 대본을 지문 및 기타 요소들을 모두 제거하고 대사만 말뭉치로 선정하여 연구를 진행하였다.
희곡 텍스트에 대사 이외의 요소들은 수작업으로 삭제하여 원시말뭉치를 구축했다. 원시말뭉치를 지능형 형태소 분석기를 사용하여 형태소 분석을 하고, 빈도분석기를 활용하여 빈
말뭉치를 구축하고 분석하여 연구 업적의 검증을 이루어내고 이 검증을 통해 연구 성과의 이론적 체계를 더욱 공고히 하고 더 나아가서 말뭉치 자료와 학문과의 관계를 생각해 볼 수 있는 연구를 해 보자는 결론을 이끌어냈다.
우리 현대 문학사를 살펴볼 때 서로 대조되는 시적 형태가 공존했던 적
분석기 돌린 결과 자료의 총 어절수가 만 칠천(1,7000) 어절로 나타났으며, 이중에서 수정필요 오류 어절 수가 백사십팔(148)개로 분석되었으며, 형태소 분석기가 잘못 분석한 오류수가 오류 어절 수에 더해졌다. 다음은 오류 분석시 나타나는 말뭉치의 예를 보인 것이다.
(3)깜짝새를 통한 통계 분석
Ⅰ. 서 론
동물의 언어는 물론 우리와는 다르다. 우리가 사용하는 말을 동물이 구사하리라고 기대해서는 안 된다. 언어활동은 서로 약속한 기호를 이해하는 것이라고 생각해야 할 것이다.
앵무새에게 말을 한다고 해서 그 말을 이해하는 것은 아니다. 그런 면에서 언어활동은 수리문제를 푸는 것과 유
분석 등 언어지식을 분석에 활용되고 있다. 자연어 처리에 있어서 한국어는 처리가 까다로운 언어에 속하는데 같은 동음이의어처럼 중의성이 있는 단어는 머신러닝 기법을 활용하여 문제를 풀어나갈 수 있는데 그러한 기계학습 알고리즘으로는 딥러닝(Deep learning), 결정 나무(Decision tree), 선형분리자, SV