首页 > 新闻资讯 > 相关资讯 > 内容

典型聚类搜索引擎介绍

作者:红色果子时间:2012-01-03
  前面已经介绍过聚类搜索引擎的发展与技术了,这里给大家介绍一下已经被经常使用的典型的聚类搜索引擎吧 

Vivisimo系统

  Vivisimo系统的基本步骤:

  1、系统自动、并行地向多个大型搜索引擎提交查询请求;

  2、集每个查询返回的结果,对查询的结果进行聚类分析;

  3、去重、合并、分类等步骤后,通过输出处理显示给用户。

  Vivisimo的聚类对象是多个搜索引擎返回的搜索结果,以文本信息为主,通过对文本内容进行搜索和归类分析。可以使用户从没有预先标记或分类的资源中整合、分类内容。Vivisimo采用启发式算法,借鉴了人工智能的理念,对检索的结果进行聚类,可以把文本信息自动地分成等级排序的类目,它的每一步都是自动化的,不需要人工干预。

  目前
Vivisimo在商业上应用比较广泛,它对信息的分类很细致,具有人性化。其精细的检索结果显示方式使它成为了业界的精品,连续多年被誉为最佳元搜索引擎。但是,由于自身没有数据资源库,必须依附于其他大型搜索引擎生存,所以独立性较差,检索功能有待加强。

Carrot2系统

  
Carrot2是基于Java开发的开源聚类搜索系统,主要用于对搜索结果进行聚类。与Vivisimo相似,首先也是用户输入关键字在各大搜索引擎进行搜索,然后对返回的搜索结果进行聚类,并通过树形的分类图进行显示出来。Carrot2的聚类对象主要是各大搜索引擎返回的搜索结果,其通过文档聚类平台workbench,对搜索的数据进行聚类分析,并通过文档聚类服务器DCS,将聚类结果作为REST服务呈现。最后,Carrot2WebApp方式将聚类结果作为网络应用呈现给终端用户。Carrot2采用的聚类算法主要是Lingo(基于奇异值分解的索引结果聚类)算法和STC(Suffix Tree Clustering)后缀树聚类算法。

  目前Carrot2支持的聚类算法较多,代码开源可以进行版本的更新和改进。该系统应用广泛、可移植性较好。但是Carrot2中文分词效果不好,可视化效果不佳。

成都SEO培训基地(My-SEO.com.cn)版权所有   Copyright 2010-2012
地址:四川.成都.西大街1号新城市广场D座4楼  电话:18980767772   蜀ICP备09033478号-1