基于语义词典和词频信息的文本相似度计算

来源 :计算机科学 | 被引量 : 0次 | 上传用户:leninho
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了克服传统的文本相似算法缺乏综合考虑语义理解和词语出现频率的缺点,在基于语义词典的词语相似度计算的基础上,提出了一种基于语义词典和词频信息的文本相似度(TSSDWFI)算法。通过计算两文本词语间的扩展相似度,找出文本词语间最大的相似度配对,从而计算出文本间的相似度。这种相似度计算方法利用语义词典,既考虑了不同文本间词语的相似度关系,又考虑了词语在各自文本中的词频高低。实验结果表明,与传统的语义算法和基于空间向量的文本相似度计算方法相比,TSSDWFI算法计算的文本相似度的准确度有了进一步提高。
其他文献
基于《现代汉语语义词典》,首先建立不同语义层次的词典,根据词典分别构建模型并进行语义预测,然后将各个模型进行集成,通过集成模型再对未登录词进行语义预测,得到较好的预
目的探讨伽玛刀合并钴-60治疗垂体瘤的疗效.方法对80例入选的垂体瘤患者随机分为单纯伽玛刀和伽玛刀合并钴-60治组.结果伽玛刀合并钴-60治疗组的疗效好于单纯伽玛刀治疗组.结
阐述了国有企业面临人力资源管理的新挑战,分析了目前国企人力资源开发与管理与国外相比存在的主要差距,论证了人力资源开发与管理是企业管理的核心,最终推动企业快速持续发展。
【正】 一、作业会计及其规则 成本的领导性和有效性是企业竞争的关键,管理当局在激烈的市场竞争中需要准确的成本信息用于各种决策。作业会计不仅可以提供企业过程(business
目的对两种声源声功率测量法进行比较,分析那种方法更适宜用于噪声控制工程。方法采用两种测量方法对某油田水冷式注水设备进行声功率现场测量。结果对于工程现场,简测法所需条
乾嘉学派是清代乾隆、嘉庆时期思想学术领域中出现的一个以考据为治学主要内容的学派,亦称"考据学派"。乾嘉学派作为中国古代文化史上的重要现象,在中国思想史方面占有举足轻
目的掌握自来水中总α、总β放射性水平及动态变化.方法对全部供水厂的出厂水及部分管网末梢水采集样品,按国家<生活饮用水标准检验方法>检测分析.结果总α10a平均为1.49&#21
目的测定新疆饮用天然矿泉水中总α、总β和^226Ra放射性,对1998—2005年间新疆饮用天然矿泉水放射性水平作出卫生学评价。方法采集全疆各地水样160份,采用直接蒸干厚层法测定
目的 改善糖尿病肾病患者的血液透析质量。方法 将29例DN病人2121次血液透析中最常见并发症给予观察分析,并采取处理措施。结果 经积极处理均未发生意外,提高护理服务水平。结
最近,我们对温州国营工业面临的问题和对策,进行了专题调查研究,主要情况和意见如下: 一、形势与挑战温州这几年经济形势很好。&#39;六五&#39;期间工业生产平均每年增长21.2%