一种基于后缀树的Web搜索结果聚类方法

来源 :情报学报 | 被引量 : 0次 | 上传用户:fencer_200
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为同时满足Web搜索结果聚类的关联性、快速性以及类别描述的可浏览性等需求,本文提出了一种适合中文Web信息搜索结果的后缀树聚类算法,其中后缀树的构建以中文汉字为基本单位,一种有效的策略解决了基于二进制方法合并短语类后的类别描述问题,利用短语类语义层面的相似性合并同义短语类,有效地改善了聚类结果的质量。测试结果表明:与传统的文档聚类算法相比,基于后缀树的算法在Web文档聚类的精度和效率方面具有较强的优越性。
其他文献
针对R^*-树应用到逆向工程领域时遇到的适用性差等问题,提出一种新的R^*-树结点分裂算法,该算法以R^*-树结点最小边界矩形外接球半径为权值,对点、三角形、矩形等多种三维几何对
GB/T15498标准7.6.1条,开门见山明确地指出:“GB/T19001规定的质量手册、程序文件,是管理标准的一种形式”,为企业长期存在的认识上的混乱和争论作出了毫不含糊的说明。如此肯定的说
提出了企业人际竞争情报网络模型描述的方法论。社会网络模型是当前人际竞争情报网络模型描述的主流方法,其基本工具是图论和矩阵。但社会网络模型只能对同质网络进行分析,不能
训练数据中的噪声数据对文本分类结果的精度会造成不良影响,本文提出了一种对噪声数据进行修正的快速算法。针对以前的算法,每次迭代只对一个文档进行修正,迭代次数与噪声数据数
阐述了混沌系统的几个明显特征,简要提取了几个典型的城市现象和混沌理论的概念进行比较,并用这些理论来重新思考城市规划问题,以期由自然科学哲学的角度对城市规划观念进行
阐述了CL结构体系的特点,结合住宅的设计实例,介绍了简化设计模型和设计方法,对该住宅的结构方案确定和结构计算结果进行了分析,以合理应用CL结构体系.
对驾驶室的模态研究中发现驾驶室顶板的振动不能忽视。通过模态试验得到驾驶室七阶模态频率(15.67Hz)下的振型表现为驾驶室顶板明显的垂向振动;运用薄板理论对驾驶室顶板进行固
文件,即信息及其承载媒体(见ISO14001:2004标准第3.4条)。ISO14001:2004标准“4.4.4文件”一条给出了环境管理体系文件的原则范围:“环境管理体系文件应包括:a)环境方针、目标和指标;b)对
提出用单台变速泵或伺服泵,结合蓄能器和旁通比例节流阀复合控制差动缸,改善注塑机能量效率的回路原理.液压泵仅在液压缸进给过程工作,蓄能器存储液压缸运动和制动过程的能量
建立与社会主义市场经济体制相适应的标准化管理体制是我们面临的重大课题。《适应市场经济的标准化管理体制探讨》一文分析了我国现行标准化管理体制与市场经济的诸多不相适