위와 같이 수집된 희곡 대본을 지문 및 기타 요소들을 모두 제거하고 대사만 말뭉치로 선정하여 연구를 진행하였다.
희곡 텍스트에 대사 이외의 요소들은 수작업으로 삭제하여 원시말뭉치를 구축했다. 원시말뭉치를 지능형 형태소 분석기를 사용하여 형태소 분석을 하고, 빈도분석기를 활용하여 빈
말뭉치를 구축하여야 한다.
임칠성(1997)에서는 단어별로 띄어 쓴다는 원칙을 준수하여 원칙적으로 띄어 써야 하는 단위를 개별 단위로 인식하되, 일반인들의 기본적인 인식 단위를 고려하여 단위를 설정한다고 하였다. 즉, 기본적인 인식에 근거로 하되 경우에 따라서는 원칙 규정이 아닌 허용 규정을
말뭉치’가 있다.
‘말뭉치’란 주로 언어 현실을 드러내는 자료를 전자 자료로 만들어 데이터베이스화 한 것을 일컫는데, 언어 중에서 구어를 대상으로 추출한 자료를 ‘구어 말뭉치’라고 한다. 비록 구어 말뭉치는 그에 대한 연구의 역사가 짧고 학계에서도 풍부한 자료 구축이나 그 활용에 대한
Ⅰ. 서 론
언어가 인간 정신 활동의 중심축이기 때문에 언어의 문제는 언어 자체에만 국한되지 않으며, 여러 다른 학문의 대상이기도 한다. 즉 언어학적 연구 분야는 다음과 같이 여러 학문과 관련이 되어 진다. 먼저, 언어의 의미 문제로서 논리학, 철학, 심리학과 직접적인 관련이 있으며, 언어가 하나
말뭉치의 예를 보인 것이다.
(3)깜짝새를 통한 통계 분석
마지막으로 형태소 태깅 부착한 말뭉치 파일에서 수정필요 부분을 모아서 합한 후에 , 외국인 이민자 여성의 발화에서 가장 많이 나타나는 오류를 분석하고 , 오류가 가장 많이 나타나는 오류를 정했다.
오류 중에서 조사와 어미에 의한