Here’s to the crazy ones
Blog Search와 Referer
Google의 페이지랭크의 가장 훌륭한 부분으로 이야기 되는 점이 referer를 검색 Relevace에 반영한다는 점이라는 것은 이쪽 분야에 있는 사람들이면 누구나 다 아니느 사실이다. (페이지 랭크는 한페이지 두페이지의 페이지가 아니라 Google창업자 페이지의 이름에서 따온 것이라고 한다.)
뭐 이부분이 특허가 걸려 있어는지 어떤지는 정확히 알 수 없으나, 우리나라 포털들의 검색에는 이러한 아이디어의 활용이 없는 것 같아 안타깝다.
WordPress를 사용하는 사람들은 관리자 화면 첫페이지에 Incoming Links라는 것을 볼 수 있을 것이다. 내 블로그가 얼마나 다른 사람의 글에서 참조가 되었는지를 보여주는 기능이다. (이 기능의 more를 눌러보면 Technorati로 연결이 되있다.)
사실 최근 야후코리아에서 오픈한 웹자리도 비슷한 기능을 제공해주고 있다. 검색 결과를 보면 내 블로그에 링크가 걸려있는 것들이 몇페이지를 차지하고 있고, 또 내가 다른 블로그에서 답글을 단 것들이 대부분이어서 의미 없는 정보를 제공해 주고 있지만. ㅡ,.ㅡ 그러나, 웹자리의 문제점은 쉽게 해결 가능할 것이다. 블로그는 모두 xml 형태로 인덱싱 될 테니, 검색 field에서 comment 부분에 달린 링크를제외하고. 검색한 같은 도메인 링크를 제외하면 쉽게 해결 됱 테니 말이다.
어쨌든, 적어도 야후코리아에서는 모든 블로그의 referer를 cheak 할 수 있는 기술을 가지고 있을 것이다. 우리나라 소위 big portal site들은 referer 정보를 가지고 오는 기술은 쉽게 개발 가능 할 수 있을 것이다.
그런데, 이 괜찮은 정보를 크롤된 사이트도 아닌 DB로 가지고 있는 블로그 검색에도 활용을 하고 있지 않은 듯 하다.
referer를 검색 Relevace에 활용한다는 것은 이 블로그를 누가 얼마나 참조를 해서 글을 썼느냐를 이 블로그가 얼마나 좋은 글을 쓰는 블로그 인지를 판단하는 지표로 활용한다는 뜻이다. 학계에서 논문을 평가할 때 해당 논문이 얼마나 많이 인용이 되었는지를 가지고 해당 논문을 평가하는 것과 비슷한 논리이다.
너무도 재미있게 내가 자주가는 블로그를 Technorati에서 referer를 cheak해 보면 괜찮은 글을 많이 쓰고. 어느정도 블로거 사이에서 인정을 받는 블로그 일 수록 incoming link 수가 많다는 사실을 확인 할 수 있을 것이다. (물론 테크노라티는 커멘트에 달린 링크는 카운트 하지 않는다)
요즘은, 어찌보면 좋은 DB를 가지고 있는 것 만큼이나, 너무 많은 정보 속에서 좋은 정보를 찾아서 보여주는 것이 중요해 진 것 같다. 네이버 검색을 해보면 정보가 없어서 문제가 아니라 비슷한 정보가 무지 많고 뭐가 좋은 정보인지 몰라서 수많은 정보 속에 정확한 정보를 찾는데 많은 클릭 품을 팔게 만들고 있다. 단지 단어 match가 정확히 된 것들과, 같은 단어가 여러번 쓰인 것들, 아니면, 글이 올라온 날짜가 최근 인 것들만 위쪽에 위치하고 있다. 그러다 보니, 중요한 정보보다는 스팸성 글들이 위에 올라오는 경우가 많다. (뭐 일부 포탈에서는 Human Touch에 의해서 결과를 만든다는 이야기도 있지만 ㅡ,.ㅡ 그래도 LongTail에서는 여지없이 문제의 결과들이 나온다.)
여기에 Relevacy Score로 referer score를 반영하면 지금보다는 더 좋은 검색 결과를 보여 줄 수 있지 않을가 생각된다. 구글의 페이지랭크와 완전히 같은 알고리즘을 피해서도 충분히 의미있는 score를 줄 수 있을 것이다. (일부 포탈에서는 referer 못지 않게 펌score도 의미가 있을 듯 하다.)
사실 각 포탈 블로그 검색에서 비슷한 알고리즘을 개발 하고 있을지도 모르고, 이런 알고리즘을 만드는 것이 기술적으로 얼마나 어려운 일인지는 모르겠다. 하지만, 확실한건 지금의 각 포탈의 블로그 검색 결과를 보면 이런 스코어는 그다지 반영되지 않아 보이며, 내 나름의 생각으로는 기술적으로도 결코 할 수 없는 일은 아니라는 생각이 든다.
엄청난 UGC DB를 가지고 있는 네이버나, 다음의 경우에는 좋은 검색 결과를 만드는 일에 가장 많은 투자를 해야 될 것이고, 그 해법 중의 하나가 referer 정보를 활용하는 일이 아닐까 싶다.
혹, 블로그 검색 쪽 일을 하고 계신 분이 이 글을 보신다면, 반론을 주셔도 좋습니다. 사실 그 일을 하지 않는 사람으로써 너무 주제 넘게 그냥 짧은 생각을 적었는지도 모르겠습니다.
| Print article | This entry was posted by jmirror on November 7, 2006 at 1:07 am, and is filed under JOON. Follow any responses to this post through RSS 2.0. You can leave a response or trackback from your own site. |
about 3 years ago
우선 저도 이 분야에서 일하고 있는 사람은 아닙니다만, 제 생각을 적어봅니다. 구글 창업자들도 논문 인용에서 힌트를 얻은 것 같습니다. PageRank에서 referer를 반영하는 과정은 수학적으로 굉장히 복잡한 문제라고 알고 있습니다. 복잡한 계산으로 속도가 문제되지 않을까요? 그래서 구글은 PageRank 알고리즘과 함께, 분산(?) 컴퓨팅 기술이 뛰어나다고 어디선가 들은 것 같습니다. 최근 국내 검색업체들이 Data Mining이나 AI 관련 인력을 채용하는 것으로 보아서는 개선된 알고리즘을 개발하고 있는 것으로 보입니다. 그리고 국내에서는 기술적인 문제도 있겠지만, 다른 이유도 있는 것 같습니다. 저도 현업에 계신 분들의 이야기가 듣고 싶어요… ^^
웹자리는 국내에서 개발한 건가요? 야후코리아도 본사 기술을 이용해 개발한 서비스가 몇몇 있다던데, 웹자리도 그런 줄 알았거든요…
about 3 years ago
반대로 트랙백을 이용한 스팸광고도 어마어마하다고 들었습니다. 쉽지만은 않다고…