[데이터베이스] stemming에 대해서

 1  [데이터베이스] stemming에 대해서-1
 2  [데이터베이스] stemming에 대해서-2
 3  [데이터베이스] stemming에 대해서-3
 4  [데이터베이스] stemming에 대해서-4
 5  [데이터베이스] stemming에 대해서-5
 6  [데이터베이스] stemming에 대해서-6
 7  [데이터베이스] stemming에 대해서-7
 8  [데이터베이스] stemming에 대해서-8
 9  [데이터베이스] stemming에 대해서-9
 10  [데이터베이스] stemming에 대해서-10
 11  [데이터베이스] stemming에 대해서-11
 12  [데이터베이스] stemming에 대해서-12
 13  [데이터베이스] stemming에 대해서-13
 14  [데이터베이스] stemming에 대해서-14
 15  [데이터베이스] stemming에 대해서-15
 16  [데이터베이스] stemming에 대해서-16
 17  [데이터베이스] stemming에 대해서-17
 18  [데이터베이스] stemming에 대해서-18
 19  [데이터베이스] stemming에 대해서-19
 20  [데이터베이스] stemming에 대해서-20
※ 미리보기 이미지는 최대 20페이지까지만 지원합니다.
  • 분야
  • 등록일
  • 페이지/형식
  • 구매가격
  • 적립금
자료 다운로드  네이버 로그인
소개글
[데이터베이스] stemming에 대해서에 대한 자료입니다.
목차
1. 서론

2. 영어 색인의 전 처리 과정

1) stopping 기법

2) stemming 기법
① stemming 알고리즘이란?
② Information Retrieval(IR)의 절차
③ stemming 알고리즘을 사용한 IR의 잇점
④ stemming 알고리즘의 문제점

3) stemmer의 종류
① 테이블 검색 ( Dictionary Look-Up Stemmer )
② 후 속자 변형 ( Successor Stemmer )
③ n-Gram
④ 접사 제거 ( Suffixes and Prefixes Stemmer )
- 로빈의 최장일치 알고리즘
- 포터(Porter)의 순환 알고리즘

3. 한글 색인의 전 처리 과정

1) 어절 단위 색인 법
2) 형태소 단위 색인 법
3) n-Gram 기반 색인 법
4) 한국어 테스트 모델

4. 소 감

5. 참 고 문 헌
본문내용
1. 서 론
정보 검색 시스템(Information Retrieval System)이란, 사용자가 필요로 하는 정보를 수집하여 내용을 분석한 뒤 찾기 쉬운 형태로 조직하여서, 정보에 대한 요구가 발생했을 때 해당 정보를 찾아 제공하는 시스템을 말한다. 인터넷상의 문서의 수는 하루가 다르 게 폭발적으로 증가하는 추세에 있으며 이로 인해 검색해야 할 문서의 수가 방대하고, 사용자의 질의에 대해서 빠른 응답시간을 요구한다.
이 많은 정보를 각각의 사용자들이 원하는 질의어에 합당하는 정보를 추출하려면 엄청난 시간과 부하가 걸릴 것이다. 그렇기 때문에 검색엔진에서는 빠른 시간 내에 정확한 검색 을 하기위해서 질의어와 데이터 베이스간의 연관성을 사용하게 되었다. 다음 [그림.1]은 각각의 언어에서의 전 처리 과정을 보여주고 있다.
[그림 1] 전 처리 과정



(1) 영어 색인의 전 처리 과정
1) stopping 기법
Stopping 과정은 문서에 포함된 어휘 중 문서의 개념을 표현하는 데 불필요한 어휘들을 제거해 나가는 과정이다. Stopping 과정에서 제거되는 어휘들은 숫자, 기호, 수식과 같은 문 자열, 문법적으로 사용되는 비 개념어, 지나치게 빈도수가 높거나 낮은 어휘들, 여러 문서에 고르게 등장하는 어휘 등이다. 이러한 Stopping 과정의 수행 방법에는 Stopword 리스트를 사용하는 방법과 Lexicon을 사용한 방법의 두 가지가 있다.
가. Stopword 리스트를 통한 어휘 제거
일반적인 정보 추출 시스템에서는 불필요 어휘의 제거를 위해 Stopword 리스트를 사용 한다. Stopword 리스트에는 다음과 같은 품사의 어휘들이 나열되어 있으며 이러한 어휘 들은 문서로부터 제거된다.
• 관사 - a, an, the ...등등
• 전치사 - above, around, before.. 등등
참고문헌
(1) Stemming Algorithms
http://database.sarang.net/database/general/db-4/stem2.ppt
(2) What is Stemming?
http://www.comp.lancs.ac.uk/computing/research/stemming/general/index.htm
(3) ART2(Adaptive Resonance Theory)를 사용한 HTML 문서의 CLUSTERING
http://bi.snu.ac.kr/Courses/g-slt99/TermPrj/99460-810.doc
(4) 영어 색인어 추출
http://irlab.ssu.ac.kr/~ircourse/under/2003/lecture_note/chap06.ppt
(5) 형태소 분석
http://duan.chonbuk.ac.kr/~lesson/mtlecture/형태소해석.ppt