10장: 텍스트를 위한 파일

텍스트 파일: 텍스트로 구성된 파일

역 리스트 파일
(인덱스 파일 + 포스팅 파일 + 데이터 파일)로 구성된 파일

인덱스 파일: 키워드 + 관련 레코드 수 + 포스팅에 대한 포인터
포스팅 파일: 키워드를 포함한 데이터 레코드에 대한 포인터 리스트
데이터 파일: 문서 파일 (실체)

ex) ‘데이터베이스’라는 키워드는 (레코드1,5,6)에 위치한다.
‘질의어’라는 키워드는 (레코드1,7)에 위치한다.

역 리스트 파일의 탐색 방법

1. 불리언 질의 (논리 연산자를 이용해서 파일을 탐색한다)
ex) ‘데이터베이스 & 질의어’ 질의
-> <1,5,6> & <1,7> = 1 -> 레코드1을 찾아가면 됨

2. 랭킹 질의 (탐색 질의어와 데이터 레코드간의 근접도를 이용해서 탐색한다)

시그니처 파일
파일의 내용을 부호화하여 소량의 공간에서 질의 검색을 하기 위해 만들어진 파일

시그니처 파일을 이용한 탐색 방법

1. 질의 시그니처(단어 시그니처) 생성 – 해싱을 이용
2. 블록 시그니처 생성 (단어 시그니처들을 OR연산해서 생성)
3. 질의 시그니처 & 블록 시그니처 = 질의 시그니처 -> 키워드가 포함됐을 수도 있음
4. 실제로 키워드가 포함됐는지 확인해봄

SHA Computing