基于HowNet多特征结合的句子相似度计算

被引量 : 0次 | 上传用户:coudoudou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,网上信息越来越多,如何在这些海量信息中快速准确地找到所需要的信息也越来越困难。虽然传统的搜索引擎(如Google等)已经取得了很大的成功,但这类搜索引擎只能获取与用户查询请求相关的文档,用户必须自己从这些文档中查找相关信息;其查询是一系列关键词而非自然语言问句,事实上,用户可能更习惯于用自然语言来描述一个问题;多数情况下,用户所需要的只是问题的确切答案,而不是与该问题相关的一系列网页。自动问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理技术。而在信息检索领域中,语义相似度起着重要的作用,提高语义相似度的精度有重要的理论和实际意义。计算机对于中文的处理相对于西文的处理存在更大的难度,集中体现在对文本分词的处理上。分词是中文句子相似度计算的基础和前提,采用高效的分词算法能够极大地提高句子相似度计算结果的准确性。本文在对常用的中文分词算法分析比较的基础上,提出了一种基于双数组Trie树中文分词算法及歧义消除策略,对分词词典的建立方式、分词步骤及歧义字段的处理提出了新的改进方法,提高了分词的完整性和准确性。在中文信息处理中,句子相似度的计算广泛应用于信息检索、机器翻译、自动问答系统、自动文摘等领域,是一个非常基础而关键的问题,长期以来一直是人们研究的热点和难点。本文分析比较了现有的句子相似度计算方法,然后提出了一种新方法,结合基于《知网》语义相似度计算和基于向量空间的TF*IDF方法,随后利用此方法结合前面提出的分词方法,给出了中文句子相似度的实现算法,并以问答式信息检索系统为例进行了测试,对所用方法进行了验证。实验证明使用本文的分词方法后,不仅时间效率和空间利用率得到很大提高,而且提出的句子相似度方法效果也不错。
其他文献
企业的核心价值观和战略定位是影响其生存发展的关键因素,作为宝业集团高层管理者,作者结合自己长期的实践经验,剖析了企业发展到一定阶段后存在的共性问题,同时探讨了从管理
声景观的研究是声学研究的一个新兴的领域。为了从经济效益、环境影响等方面寻求更有效的噪声控制手段和更合理的城市规划,并创造更健康的生活环境,本文进行了声景观方面的初
互联网、大数据、云计算等信息科技的发展,正在推动金融业发生历史性变迁,金融的信息属性和科技属性越来越突出,越来越明显。“金融科技”展示了金融与科技融合发展的清晰脉
背景全膝关节表面置换术后,膝关节屈曲终末时,股骨后髁与胫骨平台假体后缘的撞击被认为是阻碍膝关节进一步屈曲的限制性因素之一。详细了正常成人的股骨后髁的形态,从而实现个性
随着移动技术在电子商务中的应用,移动电子商务已经作为一种新兴的企业应用蓬勃发展。移动电子商务平台是移动电子商务的核心内容,涉及到移动网络运营商、金融机构、商家和移
目的:将小青龙汤进行剂型改革,研制成能黏贴于皮肤上,用于治疗支气管炎的外用膏贴制剂。进行小青龙膏贴的提取工艺、制剂成型工艺、制剂质量标准、释放度、离体透皮试验、影
数控设备是当今加工制造业中使用最为广泛的设备,但大多数都还停留在单机运行、分散管理的层面,无法进行集中监控,造成大量人力资源和固定资产投资的浪费,更不利于生产质量管
校园信息化是校园发展历史上最为深刻的变革之一。校园资源建设是校园信息化的基础,大力推进优质资源的共建、共享、运作和应用是校园信息化的重要内容。校园网是实施学校校
从1996年起,中国已经连续7年成为世界头号反倾销目标国。7年来,美国已成为对华反倾销最多的国家之一。本文概括了近几年美国对华反倾销的新动向及其对我国经济发展造成的影响
虽然CT技术已经发展得相当成熟,但保证检测数据重构的精度还存在较大困难。本文将工业CT图像转化为三维散乱点云数据,研究数据预处理算法;对处理后数据进行NURBS曲面插值,完