informationretrieval

http://210.117.187.73/~selfsolee/Courses/ir_fall2004.html

불리언 모델

벡터 모델

확률 모델

클러스터링

http://vivisimo.com/ 검색결과 사용자 인터페이스에 클러스터링을 활용. 꽤 편리함

구글뉴스 클러스터링( 유사한 데이터를 모으는것은) 사건(기사) 추적 검색 하는 부분에 특히 많이 쓰인다고한다.

구글 구글 내부에서 유사한 문서 찾을때 미리 문서 클러스터링을 하여 정보를 제공해주는것 같다.

검색기를 사용할때 일반사용자는 검색엔진에 검색결과에 대한 피드백 주는것을 귀찮아 한다. 피드백을 주면 훨씬 좋은검색 결과를 줌에도 불구하고,.. 그래서! IR프로젝트를 사람들이 피드백하기 좋아하는(?) 인터페이스를 구성할려구 한다. 개인적인 필요한 인터페이스 이기도 하다. 구글을 통해 문서를 찾을때 문서 랭킹 순서대로 모아간다.(구글 랭킹이 매우 유용하지는 않다. '많이 참조된것, 많은단어의 노출이 유저가 필요한 정보라는 가정에서 랭킹이 이루어져있기 때문이다.') 구글이 랭킹을 판단하여 결과를 제공해주는 것보다 내가 원하는 부분을 차근차근 몰아가면서서 찾아가는게 더 유용하다. Facet분류에 의한 방법을 사용해 볼려고 한다. Seminar:서치자키

''앗! 비슷한 생각..''

IR분야를 보면, 어떤 가정에 의해서 문서에 대한 가중치를 주어지는데, 그 가정에 대해서 한번씩 의심해 볼 필요가 있다.

컴퓨터 분야에서의 경제에 관련된 문서를 찾는 효과적인 방법이 뭐가 있을까? '경제'나 '컴퓨터'는 흔한단어라서 변별력이 떨어진다. 벡터검색 기법을 사용하면 평균치는 나오긴 한데, 꼭 맞는걸 끄집어 주지는 못한단 말이야.