위와 같이 수집된 희곡 대본을 지문 및 기타 요소들을 모두 제거하고 대사만 말뭉치로 선정하여 연구를 진행하였다.
희곡 텍스트에 대사 이외의 요소들은 수작업으로 삭제하여 원시말뭉치를 구축했다. 원시말뭉치를 지능형 형태소 분석기를 사용하여 형태소 분석을 하고, 빈도분석기를 활용하여 빈
2. 말뭉치 자료와 띄어쓰기
1) 계량 단위로써의 띄어쓰기
띄어쓰기의 대원칙이 되는 한글 맞춤법 제2항은, "각 단어는 띄어 씀을 원칙으로 한다."이다. 여기서 단어란 인식의 기본 단위를 말하는데, 이러한 막연한 기준만으로는 단어를 규정할 수 없고, 또 통일된 표기를 이끌어낼 수 없게 된다. 따라
구어 말뭉치에 나타난 ‘그리고’에 대한 고찰
1. 서론
국어 문법 연구는 국어 화자가 내재하고 있는 언어지식을 명시하는 것을 목적으로 한다. 이러한 목적을 달성하기 위해서는 다양하고 풍부한 자료를 모아 분류하고 체계적인 방법론에 입각하여 설명해야만 한다. 이와 같은 관점에서 이 글은 말뭉
말뭉치 관련 국어 자료를 이용하여 연구를 진행하는 경향을 살필 수 있는데, 이와 관련하여 전산국어학적 성격이 통사론에서 보이는 것도 특징적이라 할 수 있을 것이다.
셋째, 문장에 국한된 기존 통사론뿐 아니라 문장 이상의 담화 차원에까지 접목되는 간분야적 통사론 연구도 많이 나타나고 있다.
말뭉치 및 음성말뭉치 그리고 문자말뭉치 등의 다양한 말뭉치를 구축하고, 이들 말뭉치에 대한 음성적 형태론적 통사론적 의미론적 분석을 통하여 컴퓨터에 언어능력을 제공하고, 또 정보전달 과정에서 정보생산자와 수신자 사이의 의사소통을 원활히 하기 위한 부호체계를 연구하는 등의 구체적인
말뭉치를 기반으로 하는 연구가 한 편도 없었다. 또한 기존 연구에서는 주로 ‘자기’, ‘자신’과 ‘自己’의 대조에 집중해서 연구해 왔으나 ‘자기’, ‘자신’을 ‘自己’, ‘自身’과의 대조가 한 편 밖에 없다. 중국어에서 재귀표현인 ‘自身’도 높은 빈도로 사용되고 ‘자기’, ‘자신’과 대
Ⅰ. 들어가는말
우리 조상들의 지혜와 슬기를 담은 유산을 꼽으라고 한다면 나는 단연 한글을 먼저 내세울 것이다. 세계 어느 민족의 언어보다 창의적이고 과학적인 한글. 그러나 우리의 한글은 세종대왕 때 훈민정음이 창제되고 수년간 보수주의자들에 의해 천시되어 왔고, 따라서 그에 대한 연구
세종계획’ 등이고, 그리고 세계화와 관련해서는 외국인과 국외 조선족을 대상으로 하는 교육부의 ‘한국어 능력평가제도’와 같은 것들이 그런 움직임들이다. 국어정보화는 컴퓨터공학의 문화환경에서 새로운 의제로 떠올랐지만, 정보화가 전제하고 있는 기계화는 특히 한글운동 진영을 중심으로
1. 국어 정보화의 개념
1)국어의 정보화란
국어자료를 전산화하여 필요한 형태와 방식으로 추출해 낼 수 있도록 가공·처리하는 것
컴퓨터에 인간의 다양한 언어 이해능력과 생성 능력을 갖게 하는 일
말뭉치
문자.음성 인식기
정보검색
번역기 통역기
전자 사전
2) 코퍼스 (corpus)
‘말뭉치’
말뭉치의 예를 보인 것이다.
(3)깜짝새를 통한 통계 분석
마지막으로 형태소 태깅 부착한 말뭉치 파일에서 수정필요 부분을 모아서 합한 후에 , 외국인 이민자 여성의 발화에서 가장 많이 나타나는 오류를 분석하고 , 오류가 가장 많이 나타나는 오류를 정했다.
오류 중에서 조사와 어미에 의한