크롤러
-
구글, 이제는 PDF 내부까지 검색해준다...IT topics 2008. 11. 3. 15:06
구글이 문서검색의 폭을 넓혔다는 뉴스가 들어왔다. 구글의 장점인 웹문서 검색, 그리고 텍스트 파일 내용 검색 뿐만 아니라 비정규적인 문서들까지 검색할 수 있다고 한다. 여기서 말하는 비정규적인 문서는 구글 크롤러가 인식할 수 없는 문서들, 즉 PDF와 같은 이미지 형태의 문서들까지 포함한다. 결국 구글이 이번에 검색대상을 웹문서와 텍스트 형식의 문서 파일 이외에 PDF와 그와 비슷한 류의 문서파일들까지 넓혔다는 것이다. 그동안 구글은 이미지 파일을 검색할 수는 있었지만 메타 정보 외에는 정보를 분석할 수 없었다. 그런데 이번에 Optical Character Recognition(OCR)이라는 기술을 채용하여 이미지에 있는 내용을 분석해서 인덱싱할 수 있도록 기능을 확장했다고 한다. OCR은 그림이나 사..
-
구글, 설치형 프리미엄 검색엔진 선보여..IT topics 2008. 6. 3. 18:25
구글에서 기업 웹사이트나 대형 커뮤니티 등에서 구글 검색엔진을 내부 검색 서비스로 활용할 수 있도록 커스터마이징을 할 수 있는 구글 사이트 서치(Google Site Search)를 내놓았다. 회사 웹사이트에서 구글 검색엔진을 이용하여 웹사이트 내부의 정보를 검색할 수 있도록 하는 서비스다. 구글 사이트 서치는 검색 서비스를 제공하고자 하는 웹사이트나 커뮤니티의 정보를 구글 검색엔진에서 사용하고 있는 웹크롤러를 이용하서 수집한다. 즉, 구글 검색엔진의 기술력을 기업 웹사이트나 커뮤니티에서 사용할 수 있다는 것이다. 구글의 웹크롤링의 수집능력 및 분석능력은 이미 정평이 나있기 때문에 신뢰도가 상당히 높다는 것이 장점이다. 구글 사이트 서치에서 내세우는 4가지 장점은 - 방문자의 만족도와 충성도의 증가 - ..
-
오랫만에 보는 구글 공익광고. ^^Blog 2007. 8. 14. 21:00
구글 애드센스는 블로그에 접속했을 때 해당 컨텐츠를 구글 크롤러가 분석해서 컨텐츠와 가장 연관있는 광고들을 애드센스가 배치된 부분에 광고로 내보내는 수익 프로그램이다. 구글 크롤러는 해당 컨텐츠의 메타 태그와 제목, 카테고리, 태그 등의 컨텐츠의 안보이는 부분부터 시작해서 컨텐츠 내용까지 분석한 후에 가장 잘 어울리는 광고들을 선정해서 배치한 구글 애드센스 자리에 광고를 내보낸다. 그런데 아무리 분석을 해도 연관된 광고를 찾을 수 없다면? 아마도 구글 애드센스를 설치할 때 연관성이 없을 경우 어떤 광고를 내보낼지를 선택했을 것이다. 색을 채워서 내보낸다던지 아니면 어떤 URL에 관련된 광고를 내보낸다던지 아니면 구글 공익광고를 내보낸다던지 했을 것이다. 내 경우에는 공익광고를 선택했다. 과연 어떤것이 나..
-
기업이여, 블로그에 마케팅하라!Blog 2007. 6. 15. 14:03
요즘 블로그를 보면 광고가 많이 설치되어 있음을 알 수 있다. 제일 대표적인 광고 시스템인 구글 애드센스를 비롯해서 다음 애드클릭스, 올블로그의 올블릿에 이제는 태터엔미디어 광고까지 등장해서 블로그에 설치되어 있음을 본다. 어떤 블로그는 애드센스만, 어떤 블로그는 애드클릭스만, 어떤 블로그는 애드센스에 애드클릭스까지 다양하게 자기네 블로그에 광고를 설치하고 수익이 나기를 기대하고 있다. 요즘 블로그는 광고의 홍수속에 빠져있다고 본다. 블로그에 광고를 설치하는 것에 대해서 나는 반대를 하지 않는다. 아니 어쩌면 환영하는 입장이라고 할 수 있다. 블로거는 자신의 블로그에 광고를 설치함으로 정성스래 올린 컨텐츠에 대한 조금이나마 보상을 받을 수 있다고 본다. 기업들도 큰 광고비를 들이지 않고 쉽게 널리 광고를..
-
다음, 검색엔진 자체 개발IT topics 2007. 5. 14. 13:41
다음이 검색엔진 시장에 들어온듯 싶다. 웹검색엔진 말이다. 다음, 검색엔진 자체 개발 (ZDNet Korea) 왜 나는 지금까지 다음에 검색엔진이 있었다고 생각했을까? 여하튼 그것은 그렇다고 치고. 우 리가 흔히들 얘기하는 검색엔진은 해외에서는 구글, MSN, 야후를 치고 국내에서는 네이버, 엠파스, 네이트, 다음, 파란을 이야기하곤 했다. 그런데 해외의 경우 거의 구글이 독식을 하는 가운데 국내에서는 네이버, 엠파스, 다음, 파란의 4파전이라고 볼 수 있겠다. 그런데 웹검색엔진에 대해서는 틀리다. 구글이나 MSN은 크롤러라는 웹검색 에이젼트(로봇)가 전세계의 웹을 돌아다니면서 정보를 수집해서 DB에 저장해서 검색하는 방식을 쓰고 있고 야후는 사용자가 등록한 사이트들에 대해서 검색해주는 것으로 알고 있다..