基于关键词重提取的密文文本相似性度量方法研究

来源 :计算机科学 | 被引量 : 0次 | 上传用户:zxc286929269
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对密文的相似性度量问题,提出了一种新的密文文本相似性度量方法。该方法通过定义关键词的有效作用域、相对作用域、分散域的概念,有效克服了现有的关键词权重量化方法不能对篇幅不同、结构不同的文档进行相对公平的关键词权重量化的不足,同时显著减少了文本度量时所依赖的关键词数量。进一步对文档的关键词进行重提取,并建立文档的关键词密文索引条目,通过密文的索引条目来度量密文的相似性。将该方法在真实文档上进行实验,并同其它算法进行比较,结果表明所提出的方法在准确率和召回率两方面优于其它参与比较的算法,并能在准确率和召回率之
其他文献
根据美国农业部最新公布的报告显示,2008/09年度全球棉纺厂用棉量比2007/08年度减少5.5%,下降幅度略大于自1943/44年度以来逐年下降幅度最大的1974/75年度。目前,全球经济放缓影响到了
电池是体现笔记本电脑便携性的重要组件,笔记本电脑使用的电池主要有4类:镍镉电池、镍氢电池、锂离子电池和锂聚合物电池。简要介绍了这4类电池的组成、性能和工作原理,并介绍了
中国海关发布的最新统计数据显示,2007年1—11月,中国纺织品服装实现贸易顺差约占全国贸易顺差总值的60%。可见,纺织品服装依然是中国贸易顺差的最大制造者。
在高三化学关于实验设计的教学中,往往仅限于课本中的几个例子,或者编几道理论性的习题加以讲练,不能最大程度地激发学生的学习热情和培养实验探究能力。我们在一次教研活动中受
<正> 郑家亨同志撰写的《改革中的中国经济与统计》一书,最近已由经济科学出版社出版。作为该书的责任编辑,在编辑此书的过程中受到不少启发,学到不少知识。我觉得有责任和义务把这本书推荐给读者.郑家亨同志长期从事经济工作,特别是计划统计工作,有着较扎实的理论基础和较丰富的实践经验,结合工作他写过不少报告和文章,这本书就是从他1982—1987年间撰写的报告和文章中选编的。该书共收
国家将进一步规范粘胶、印染行业的准入条件,推进清洁生产和污染治理,努力完成纺织工业振兴规划提出的淘汰15%落后印染能力和加强粘胶污水、废气治理的目标,提出纺织行业落后产品
<正>"当代名医"与"临证心得"是本刊两个特色栏目,已保留多年,所刊登的稿件大都是医生个人的临床经验,受到广大读者的欢迎。两个栏目稿件的选择遵循以下原则,即"当代名医"栏目
期刊
高职院校认真、有效地开展科研工作是提升教学质量、培养专业人才的需要,是增强科研力量、促进科研成果转化的有效途径,是服务地方社会建设、实现可持续发展的客观要求。高效
智能运输系统(ITS)已经成为世界运输领域中的高新技术开发和应用的最热门的方向,各国都在大规模进行研究。ITS必将成为现代交通工程的发展趋势。
物哀这个概念简单地说,是“真情流露”,人的内心在接触外部世界时,触景生情,感物生情,于是乎,心为之所动。这些有所的感触就自然涌出或喜悦,或愤怒,或恐惧,或悲伤,或低徊婉转