基于分类词典的文本相似性度量方法

来源 :智能系统学报 | 被引量 : 0次 | 上传用户:snmydmyd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对现有基于语义知识规则分析的文本相似性度量方法存在时间复杂度高的局限性,提出基于分类词典的文本相似性度量方法。利用汉语词法分析系统ICTCLAS对文本分词,运用TF×IDF方法提取文本关键词,遍历分类词典获取关键词编码,通过计算文本关键词编码的近似性来衡量原始文本之间的相似度。选取基于语义知识规则和基于统计两个类别的相似性度量方法作为对比方法,通过传统聚类与KNN分类分别对相似性度量方法进行效果验证。数值实验结果表明,新方法在聚类与分类实验中均能取得较好的实验结果,相较于其他基于语义分析的相似性度量方法还具有良好的时间效率。
其他文献
在韩愈的众多古文中,《送李愿归盘谷序》是后人颇为称赏的名篇。作者以挥洒自如的笔触和别具一格的形式,淋漓尽致地刻画了中唐时期三种不同人物,展示出一幅逼真、鲜活的社会
一品红幼嫩茎段在离体培养过程中,不同光质对愈伤组织的诱导及根、芽分化有不同的效应.实验结果表明,红光、黄光、蓝光、绿光对愈伤组织的形成均有一定的促进作用,其促进作用
以生产绿色有机食品、塑造绿色有机品牌为己任的胜永绿色食品有眼公司。始终坚持“以人为本”走绿色有机食品发展之路……盛永绿色食品有限公司位于吉林省扶余县西南部,这里是
在遥感和GIS技术支持下,对TM、ETM遥感影像进行目视解译,获得内蒙古通辽市奈曼旗各类景观的基础数据,并运用景观生态学的基本理论和方法,对奈曼旗实施退耕还林还草工程后的景观格局及其景观动态变化进行分析研究.结果表明,奈曼旗实施退耕还林还草工程以后,其景观结构得到了明显改善,耕地景观和沙地景观面积明显减少,林地景观和草地景观面积明显增加;景观多样性降低,优势度提高,破碎度下降;景观结构逐渐向均质、
针对教与学优化算法容易陷入早熟收敛的问题,本研究提出了一种基于混沌搜索和权重学习的教与学优化(teaching-learning-based optimization algorithm based on chaotic sear
2016年3月18日,“宁波市农业科学研究院-浙江大学生物系统工程与食品科学学院”合作暨共建研究生教学社会实践基地签约活动在宁波市农科院举行.
渭干河流经南天山造山带南缘,为了解南天山洋演化历史,对该河流河砂样品中碎屑锆石进行U-Pb定年测试,结果表明,碎屑锆石年龄主要集中在460~400 Ma和310~260 Ma,少量分布在660
在调查研究及对大量资料进行综合的基础上,对内蒙古草原生态系统自然平衡中具有重要意义的捕食性,寄生性天敌昆虫的主要类群,分布情况以及捕食寄生对象,在草原生态系统中的作用进
渗漏是小型水库土石坝工程常见的病险形式之一。根据近几年已完成的安徽省几十座以土石坝为主的小型病险水库的工程地质勘察的经验,扼要论述了土石坝渗漏的主要类型、成因,同时
地质资料产业化是指将相关方面的地质资料汇交到网络平台上,并与其他机构、企业、组织或者个人进行共享,并在网络空间和现实空间中以地质资料信息产权经营理念为依据,对地质