【摘 要】
:
语言文字是信息的主要载体,现代社会对语言文字处理的要求越来越高。中文信息处理技术也随着计算机和因特网普及应用,面临着新的更大的挑战和机遇,语言文本处理的研究成为其
论文部分内容阅读
语言文字是信息的主要载体,现代社会对语言文字处理的要求越来越高。中文信息处理技术也随着计算机和因特网普及应用,面临着新的更大的挑战和机遇,语言文本处理的研究成为其中基础而关键的问题之一。全文相似度计算技术在自动文摘、知识挖掘、机器翻译、自动问答系统、信息检索及文档复制检测等领域有着广泛实际的应用。汉语全文相似度的计算包含词语的切分、词语语义及概念的研究、短语和句型的研究、语料库的建设、语言规则的研究等方面的内容。由于汉语本身的复杂性和进化性,汉语全文相似度的计算仍处在应用起步阶段,鉴于信息处理在国家信息化建设中的重要地位,对全文相似度计算进行深入的研究是非常必要的。针对目前全文相似度计算存在的问题,将基于统计方法和语言规则方法相融合来处理专门领域的问题是一个非常重要的趋势,本文做了以下的研究和探索:1.在文本句子层面,总结了国内外句子相似度计算方法的研究成果,分析了存在的问题和不足,在基于《知网》计算词语相似度的基础上,给出了句子相似度计算综合公式,研究了否定副词在句子相似度计算中的作用,设计了一种含有否定副词的句子相似度计算方法,通过实验证明,新算法在句子相似度计算中具有较好的效果。2.在文章层面,对全文相似度计算做了全面的分析和研究,总结了几种主要的全文相似度计算方法的优缺点,重点研究了基于向量空间模型的全文相似度计算方法,比较了几种常见的特征选择算法效果和应用范围。3.深入研究了具有一定结构形式的文章间相似度计算问题,设计了一种文章结构层次模型,将文章按照结构划分为句子、文章块和短文本三个层次。在此模型基础上,提出了一种基于文章结构层次的相似度算法,融合了句子、文章块和短文本相似度计算方法,并将其应用在全文相似度对比组件中。该方法结合了自然语言处理中基于统计方法和语言规则方法的优点,提高了计算结果的质量,具有较高的理论和应用价值。
其他文献
便携式γ能谱仪是放射性污染检测的主要工具之一。随着核科技的发展以及对核技术认识的不断深入,γ能谱仪向着高性能、高集成化、高智能化方向快速发展,方便、快捷的便携式γ能谱仪越来越多地成为人们的需求。国外的便携式多道γ能谱仪产品性能较高、功能较齐全,但价格也相对较昂贵,目前在国内大多数用户中还难以得到广泛应用。在国内,人们在尝试将嵌入式系统引入到放射性仪器的研制中。论文设计了基于嵌入式Linux的多道γ
间作模式作为新疆红枣种植模式的主要方式之一,红枣的间作模式既兼顾了粮食等作物的生产,也取得了红枣产业的收益。红枣间作果园在管理过程中不同程度的使用化学农药,不仅破
图像融合是指将两个或两个以上的传感器对同一场景获取不同图像的信息进行综合,通过对多幅图像间的相关性处理来提高图像的可靠性以及对多幅图像间的互补性处理来提高图像的清
再小的蔬菜花园有了合理的统筹安排和适当的种植技巧,都能够变成高产的菜地,确保整个生长季有充足的新鲜菜蔬供应饭桌。现在让我们一起分享了让小型蔬菜花园变高产的六个技巧
多径衰落和频谱效率是未来移动通信系统面临的两个严峻挑战。由于正交频分复用(OFDM)具有有效对抗多径衰落并提高传输速率等优点,使其成为下一代移动通信的关键技术之一。基于
随着环境与灾害监测小卫星A星的成功发射,我国拥有完全自主知识产权的可见光波段超光谱成像仪投入了使用。于此同时,短波近红外波段超光谱成像仪的研制也已经纳入了议事日程。本课题就是在此背景下,研究了基于碲镉汞焦平面器件的短波红外成像系统的关键技术。文章介绍了超光谱成像的进展、红外成像的基本理论、红外图像的预处理方法,然后分析了焦平面器件工作原理、设计了红外读出电路的时序,利用VHDL语言描述了时序关系,
第三代移动通信长期演进标准(LTE-A)中的广播电视业务解决方案采用的是增强型多媒体广播多播服务(E-MBMS),其物理层架构是通过单频网(SFN)传输MBMS来实现的,这种SFN传输可能
为了满足人们对高速率数据服务的需求,无线通信中的多天线系统正在由集中式向分布式转变。作为未来无线通信的重要组成部分,分布式天线技术具有系统容量大、信号覆盖广等优点
人类进入21世纪以来,微电子机械系统(Micro-electro-mechanismsystem,MEMS)、计算机、通信、自动控制和人工智能等学科的飞速发展孕育了一种新型的测控网络一无线传感器网络(W