垂直网站就是垂直某一项服务或者某一项领域,注意力集中在某些特定的领域或某种特定的需求,提供有关这个领域或需求的全部深度信息和相关服务。
垂直某一项领域举例说明:安卓手机网、高清时代网,这样的网站就为网站相关的人群提供这个领域资讯网站。细化下:安卓手机网就针对使用安卓手机的用户群体。高清时代网符合高清视听、高清咨询用户的需求。
垂直某一项服务举例说明:教育网、育儿网,这些都更加专注于为特定的人群提供相应的服务。细化下:教育网只为传授有用知识。育儿网更多为了家有孩子的用户群体。
搜索领域有句名言:就是用户无法描述到底他要找什么,除非让他看到想找的东西。这个过程有点像找对象,“碰运气”是用户搜索行为的最大的特征。而垂直搜索引擎就是帮助用户提升“运气”。
垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。
垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。
整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。
垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索……几乎各行各业各类信息都可以进一步细化成各类的垂直搜索引擎。
举个例子来说明会更容易理解,比如购物搜索引擎,整体流程大致如下:抓取网页后,对网页商品信息进行抽取,抽取出商品名称、价格、简介……甚至可以进一步将笔记本简介细分成“品牌、型号、CPU、内存、硬盘、显示屏、……”然后对信息进行清洗、去重、分类、分析比较、数据挖掘,最后通过分词索引提供用户搜索、通过分析挖掘提供市场行情报告。