基于分词的中文文本相似度计算研究

被引量 : 123次 | 上传用户:jinhuikkkl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在中文信息处理中,文本相似度的计算广泛应用于信息检索、机器翻译、自动问答系统、文本挖掘等领域,是一个非常基础而关键的问题,长期以来一直是人们研究的热点和难点。计算机对于中文的处理相对于对于西文的处理存在更大的难度,集中体现在对文本分词的处理上。分词是中文文本相似度计算的基础和前提,采用高效的分词算法能够极大地提高文本相似度计算结果的准确性。本文在对常用的中文分词算法分析比较的基础上,提出了一种改进的正向最大匹配切分(MM)算法及歧义消除策略,对分词词典的建立方式、分词步骤及歧义字段的处理提出了新的改进方法,提高了分词的完整性和准确性。随后分析比较了现有的文本相似度计算方法,利用基于向量空间模型的TF-IDF方法结合前面提出的分词算法,给出了中文文本分词及相似度计算的计算机系统实现过程,并以科技文本为例进行了测试,对所用方法进行了验证。这一课题的研究及其成果对于中文信息处理中的多种领域尤其是科技类文本相似度的计算比较,都将具有一定的参考价值和良好的应用前景。
其他文献
英汉语言存在着语音,语意,语法上的巨大差异。而谚语,语言凝练,蕴涵隽永,兼备话语和书面语的语言特点,有着独特的艺术魅力和文化价值,谚语及其翻译吸引了不少研究者的目光。
本文研究成果主要应用于水利水电、工业与民用建筑、能源、交通、冶金、矿山等领域内的深基坑地下水控制工程。以安全可靠、经济合理、技术先进为原则,以先进的防渗和江水技
对几种油气回收技术进行了比较,并根据加油站的油气排放特点,对现有加油站油气回收系统进行了研究,为成品油销售企业提供了可供参考的加油站油气回收方案,指出管理者在进行油
收益不仅是会计学上的一个核心概念,而且也是众多会计信息使用者特别是投资者最为关注的信息。会计信息使用者通常通过以会计收益为基础的每股收益、净资产收益率等指标对上
武强年画业是手工业发展的一个类型。它兴起之初,只是本地生产就地销售的纯手工艺的一种家庭副业。到了近代,武强年画业虽然因为战乱频仍、国内政局动荡以及资本主义经济入侵
信息技术的发展使人们的学习和交流打破了过去的时空界限,为人类能力的提高和发挥作用带来了新的空间。二十一世纪以多媒体和网络技术为核心的信息技术,已成为拓展人类能力的
客观世界是一个大系统。在大系统中的各种子系统及其次系统,都有机地相互联系,使得研究这个系统的各种科学也相互联系。科学的联系性,为各种科学的融合提供了客观的可能。进
<正> 麻醉期间心跳骤停复苏后再手术是一个值得探讨的课题,现结合国内外文献和作者的临床体会综合如下。一、再手术的指征 Hanks等报告围麻醉期心跳骤停14例,复苏后延期手术
当今,中国经济正在迅速发展,中国品牌商品已进入国际市场,与国际竞争,品牌名称翻译在国际交流中的重要作用日益凸现。然而,在中国,品牌名称的翻译尚未得到充分的重视。作为广