법적으로 사용되는 비 개념어, 지나치게 빈도수가 높거나 낮은 어휘들, 여러 문서에 고르게 등장하는 어휘 등이다. 이러한 Stopping 과정의 수행 방법에는 Stopword 리스트를 사용하는 방법과 Lexicon을 사용한 방법의 두 가지가 있다.
가. Stopword 리스트를 통한 어휘 제거
일반적인 정보 추출 시스
법사전, 한자읽기 사전등 다양한 종류가 있었다. 국내 사전은 두산동아, 민중서림 등의 대표적으로 권위 있는 출판사가 있는 것 처럼 외국어 사전에도Oxford University Press, Cambridge University Pressemd 각 나라별 대표 출판사들이 있었다. 이처럼 권위 있는 출판사에서 출판된 언어 정보원들은 방대한 양의 어휘
정보를 처리하는 것처럼, 컴퓨터가 처리할 수 있는 정보에 대해서 매우 신속하고 정확하게 문제들을 처리하고 있다. 현대 언어학자들이 하고자 하는 임무는 역시, 이와 같은 화자, 청자 간의 의사소통과정을 컴퓨터가 처리할 수 있게 어떤 과정을 프로그램화하고 조직화하며 지식구조를 인공지능화 하
중의성이 있는 단어는 머신러닝 기법을 활용하여 문제를 풀어나갈 수 있는데 그러한 기계학습 알고리즘으로는 딥러닝(Deep learning), 결정 나무(Decision tree), 선형분리자, SVN, HMM, Maximum Entropy 등이 있다. 이 장에서는 언어의이해1B형 자연언어처리와 컴퓨터언어학에 대해 간략히 서술하기로 하자.