페이지

2014. 12. 15.

정보검색론 기말 시험

1. 다음 용어를 설명하시오.
R-정확률 :
적용율 :
신문헌율 :
상대 재현율 :
엔트로피 :

2. 다음 표와 같이 연관문헌이 총 4개가 발견되었을 때, recallfallout을 각각 구하여 표를 완성하시오.


n
doc #
relevant
Recall
fallout
1
588
x
 
 
2
589
x
 
 
3
576
 
 
 
4
590
 
 
 
5
986
 
 
 
6
592
x
 
 
7
984
 
 
 
8
988
 
 
 
9
578
x
 
 
10
985
 
 
 




4. 넓은 질의(border query)와 좁은 질의(narrower query)의 차이점을 설명하시오.
 
 
 
 
5. 사용자연관 피드백의 목적은 무엇인가? 또한 질의확장과 질의용어 가중치 재부여 방법은 무엇인지 비교 설명하되 각각 예를 들어 설명하고 장단점을 비교 설명하시오.
 
 
 
 
6. Standard Rocchio 등과 같은 알고리즘이 출현하게 된 동기를 설명하고, Standard Rocchio 방법의 식을 들어서 설명하고 특징을 설명하시오.
 
 
 
 
7. 자동전역분석방법은 시스러스와 같은 구조에 기반한다. 여기서 시소러스란 무엇인가?
    만약 용어가 정보검색이었다면 어떻게 표현될 것인지를 예를 들어서 나타내보시오.


 
8. 다음의 문장을 huffman 트리로 나타낸 후 압축률을 구하시오.
    원문 : For a student, student is in a student library
 

10. 다음을 설명하시오.
     (1) Zipf's law
     (2) Heaps law
 
 
 
11. 다음과 같은 키워드를 갖는 3개의 문서에 대해 벡터모델의 tf/idf 모델을 구현하시오.
     D1 = {a,b,b,c} // a,b,....는 키워드임
     D2 = {c,d,d,f}
     D3 = {a,a,c,c,c,k}
이때 질의가 q={a,c} 였다면 tf/idf 모델에 의해 어떠한 결과가 나오겠는가?
과정을 쓰시오.