【摘 要】
:
鉴于词语知识对提高文本聚类性能的价值,提出了一种用线性插值方式把词典词语之间的量化关系和余弦相似度结合起来的文本相似度计算方法.在实现文本聚类之前,基于词典中一个
【基金项目】
:
863计划(2001AA114210-11)和国家自然科学基金(60496326)资助项目.
论文部分内容阅读
鉴于词语知识对提高文本聚类性能的价值,提出了一种用线性插值方式把词典词语之间的量化关系和余弦相似度结合起来的文本相似度计算方法.在实现文本聚类之前,基于词典中一个词条和其释义在语义上等价的假设,构建出词条和释义中词语之间的量化关系,并把这种量化关系值作为文本聚类用到的知识.在k-均值聚类算法的框架下,这种以线性插值方式构造的新的相似度,给文本聚类系统性能带来了明显的提高.实验结果说明从词典中获取的词语量化关系对将来的文本聚类研究可能会有潜在的贡献.
其他文献
在分析人居环境理论发展基础上,探讨了城乡结合带人居环境理论研究现状,分析了我国城乡结合带现阶段普遍面临的困境,为城乡结合带人居环境理论的后续研究提供了参考。
为支持电信业务的个性化和智能化,研究了业务上下文信息的表示和推理,提出了一种统一地表示业务上下文信息的语法结构、语义以及上下文元信息(如时间、可信度)的本体建模方法。
概述了关于知识自由的争论,阐述了在知识自由与图书馆教育职能关系问题上的认识误区,指出保障公民知识自由是实现图书馆教育职能的有效途径。
针对当今医学影像领域的软件工具包普遍缺乏有效的算法集成机制和友好的用户图形界面的情况,采用 Java 2平台企业版(J2EE)的体系结构开发了一种基于工作流的医学图像三维可视化平台——POMI。在该平台上实现了一个切片数据重建及可视化模块,该模块以工作流机制集成了一系列算法和可视化工具。利用该模块完成了对虚拟中国人的部分切片数据分析、三维重建以及结果的可视化。基于 POMI 平台这种易于集成数据源
研制了一种与掩膜光刻机相配套的新型掩膜管理控制系统。系统硬件由1个4自由度机械手、2个版库、粗预对准机构、精细预对准机构、PIE控制器和伺服驱动器等构成;系统软件由基于
分析了大坝失事的原因,介绍了影响大坝安全的3个阶段,阐述了大坝安全监控的目的、范围和方法。
以kaiC基因簇部分已知序列为引物设计位点,采用PCR反应池法从节旋藻基因组fosmid文库中筛选到kaiC基因克隆,通过步移测序获得了kaiC基因全长序列。kaiC基因编码区长1554bo,基因G