법적으로 사용되는 비 개념어, 지나치게 빈도수가 높거나 낮은 어휘들, 여러 문서에 고르게 등장하는 어휘 등이다. 이러한 Stopping 과정의 수행 방법에는 Stopword 리스트를 사용하는 방법과 Lexicon을 사용한 방법의 두 가지가 있다.
가. Stopword 리스트를 통한 어휘 제거
일반적인 정보 추출 시스
정보를 찾아 제공하는 시스템을 말한다. 인터넷 상의 문서의 수는 하루가 다르 게 폭발적으로 증가하는 추세에 있으며 이로 인해 검색해야 할 문서의 수가 방대하고, 사용자의 질의에 대해서 빠른 응답시간을 요구한다.
Stopping 기법
Stopword 리스트를 통한 어휘 제거
 
Ⅰ. 서론
웹은 상업화, 대중화, 멀티미디어화 되고 있으며 가히 인터넷 세상이라고 해도 될 정도로 발전하고 있다. 또한 웹은 유사 이래로 인류가 문자, 산업혁명, 자동화 과정을 거치면서 수천년간 이룩해 온 역사의 업적을 단숨에 능가하는 정보혁명을 예고하고 있다. 이러 한 웹의 응용분야는 그 동
1.1. 정보 검색의 원천은 도서관
정보 검색의 원천은 도서관에서 그 뿌리로 찾을 수 있다. 컴퓨터가 생기기 전에는 책이 가장 중요한 정보제공매체였고 이러한 이유로 기원전부터 유수의 국가들에는 도서관이 존재해 왔다. 하지만 방대한 양의 책이 존재하는 도서관에서 자신들이 원하는 책을 빠른
중의성이 있는 단어는 머신러닝 기법을 활용하여 문제를 풀어나갈 수 있는데 그러한 기계학습 알고리즘으로는 딥러닝(Deep learning), 결정 나무(Decision tree), 선형분리자, SVN, HMM, Maximum Entropy 등이 있다. 이 장에서는 언어의이해1B형 자연언어처리와 컴퓨터언어학에 대해 간략히 서술하기로 하자.