基于中文检索纠错的航天情报系统的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:huimiandiadia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
航天技术的飞速发展累积了大量的航天情报信息,这对情报管理工作提出了更高的要求,传统的人工管理方式已经不能满足需求,为了更加科学地对航天情报进行管理,充分挖掘和利用好情报中的潜在价值,本文完成了航天情报系统的设计和开发。系统除了具有高效的情报管理和情报检索功能外,还将各类情报中的数据关联起来,同时提供了个性化统计功能和全方位的数据可视化服务。为了满足用户需求和提高用户体验,本文还详细研究了搜索引擎的中文检索纠错技术并应用到系统中。在用户进行检索的过程中,可能会因为输入错误而检索不到想要的结果,检索纠错技术就是对错误输入进行纠正,然后返回纠正的结果进行检索,将尽可能正确的内容呈现给用户,提高检索容错率。目前中文纠错方法分为基于字典的方法和基于统计的方法,基于字典的方法很难适应现在飞速变化的信息环境,而单纯地利用一种纠错方法很难应对搜索引擎中出现的各种各样的输入错误,因此本文通过对日志信息的分析总结出了常见的几种错误类型,并针对这些错误类型设计了一整套基于统计的中文检索纠错方法。本文提出的纠错方法主要思想是利用隐马尔可夫模型和编辑距离法共同确定候选集,然后通过多策略评估模型来解决候选集筛选问题,最终选出最优纠错结果。候选集的确定分为两个部分,一部分是利用隐马尔可夫模型,然后通过维特比算法得到的,这部分针对的是同音错误;另一部分是利用编辑距离法求出的,这一部分针对的是多字、少字、别字和顺序调换错误。这样候选集中的候选数据就涵盖了多种常见输入错误类型。本文提出的多策略评估模型综合考虑了候选数据的字符串质量、概率和点互信息特征,这些评估要素对于判断字符串的好坏都有一定的参考意义,其中字符串质量与关键词的检索次数和点击率密切相关,字符串概率可以衡量候选数据是否符合汉语语言习惯,点间互信息反映出候选数据中各个关键词之间的相关程度。本文通过实验为这些评估要素分配了权重,建立了多策略评估模型。本文提出的纠错方法所依赖的语料是从搜索引擎日志中提取的,保证了训练集、测试集等数据的真实性。除此之外,本文设计的纠错方法还针对航天情报系统做出了流程改进。例如提出了对汉字和编号分开处理的思想,减小了纠错难度;快速纠错步骤的加入缩短了平均纠错时间,提高了纠错准确率;纠错判断步骤的提出减少了纠错工作量,提高了检索效率。本文提出的纠错方法取得了不错的纠错效果,在实验中对比几种传统的纠错方法在准确率和F1值方面都有明显提升,验证了该方法的可用性。
其他文献
金属有机框架化合物具有巨大的比表面积和超高的孔隙率,良好的热稳定性,以及有机配体的易修饰性。这些优良的特性使得MOFs在光学薄膜的制备和光学性质的调控上具有巨大的潜力。本文通过水热法制备纳米级别的多种MOFs,采用旋涂法将其制备成光学薄膜,研究不同因素对MOFs光学薄膜光学性质的影响,并通过后修饰途径实现对MOFs光学薄膜光学性质的调控。主要开展了以下工作:(1)通过水热法制备了MIL-101系列
KDP晶体元件是高能激光装置的基本组件,它的损伤性能将直接影响激光光束的输出功率及质量。得益于晶体生长和激光预处理技术的发展,当前KDP晶体体损伤已得到有效控制,但表面损伤问题日益凸显。由于KDP晶体加工表面容易残留小尺度波纹、污染性杂质以及划痕等损伤前驱体,现有晶体元件的抗损伤能力还难以满足激光装置的要求。为了进一步提升KDP晶体的激光损伤阈值,本文以晶体加工表面前驱体缺陷为研究对象,重点研究了
CaCu3Ti4O12(CCTO)因其良好的介电响应和优异的压敏性能,近年来迅速在电容-压敏双功能材料领域掀起一股研究热潮。微电子器件功能一体化的发展要求,使得电容-压敏薄膜的研发设
我国西南地区岩溶流域分布广泛,其含水介质的非均质性常以管道—裂隙的耦合为特点。虽然管道和洞穴只占整个岩溶地质系统的很小一部分,但此处的地下水流主要以非线性层流和紊流形式存在,达西定律无法应用于这种方式的流动,这就使得传统的地下水流数值模型并不适用于岩溶含水层。在此背景下,有关复杂岩溶含水介质地下水流运动规律的模拟便获得了国内外学者的广泛关注。目前,通过一些简化和假定来建立合适有效的物理模型和数学模
近几年来光技术的研究和光器件的研制正以指数形式快速增长,这都得益于快速发展的工业需求。高度集成化是其发展的必然方向之一,光纤传感制备工艺技术是其发展的基石。在此我们利用光纤熔融拉锥设备不断探索新的制备工艺技术。锥形光纤作为光纤光波导中一个重要的发展方向,锥形光纤的光波导理论和制备技术正在迅速发展走向成熟。研究表明当单模光纤的结构尺寸发生改变时,光纤的特性也发生了巨大的改变。我们根据结构尺寸改变与光
激光熔化沉积常用于镍基高温合金粉末的增材成形。针对镍基高温合金粉末激光熔化沉积成形过程中的翘曲变形、表面缺陷、成形精度等问题,本文利用射流电解对激光熔化沉积样件进行后续加工,提出了激光熔化沉积和射流电解组合加工方法,并设计了一种新型摩擦辅助射流电解装置。主要研究内容如下:(1)提出了激光熔化沉积和射流电解组合加工方法,研究了激光熔化沉积和射流电解组合加工工艺过程,分析了激光熔化沉积和射流电解组合加
活性氧代谢与苯丙烷代谢在提高果实抗病性中具有重要作用。为了探究24-表油菜素内酯(24-Epibrassinolide,EBR)处理对杏果实采后抗病性的影响,本文以“赛买提”杏为试验材料,通过活性氧代谢、苯丙烷代谢及贮藏品质相关指标的测定,研究了EBR处理提高杏果实采后抗性的相关机制,以期为EBR在杏果实采后贮藏保鲜的应用提供理论参考,主要研究结果如下:(1)采用不同浓度(0 mg/L、0.5 m
油码头作业安全管理是事关人民福祉和重于泰山的重要工作,2019年是新中国成立70周年,创造安全稳定的社会环境意义重大。油码头在事故状态下,不但可能引发爆炸或火灾事故,造成经济损失、人员伤忙和不良社会影响,而且石油产品扩散还能造成海洋环境污染、破坏水体生态环境等影响,生态环境具有短时间内不易恢复的特点,因此加强安全管理,预防事故的发生极为关键。作为油码头的工作人员,发现安全管理工作是一个长期而又艰巨
透水混凝土是一种在普通混凝土技术基础上开发的环保多孔材料。它通常含有波特兰水泥,粗骨料,各种外加剂,水和很少或没有细砂。透水混凝土的强度较低,与结构系统中有意形成的空隙互连网络的大孔隙相关,渗透雨水径流,补给地下水含水层,并通过最大限度地减少侵蚀和沉积,显着减少暴雨期间增加径流的负面影响。孔系统或相互连接的空隙有利于减轻城市地区不透水表面造成的负面环境问题,然而,由于在透水混凝土中封装聚集颗粒的水
高级氧化工艺(AOPs)在水环境难降解污染物领域表现出出色的降解能力。由于更强的氧化还原电位及高选择性,基于活化过一硫酸盐(HSO_5-,PMS)的硫酸根自由基(SO_4·-)AOPs(SR-AOPs)受到越来越多的关注。各种铁(Fe)基催化剂由于其环境友好性和成本效率而被广泛用于PMS活化。然而,只适用于酸性pH值、Fe(III)与Fe(II)转换速率慢、铁离子泄漏量过高等问题限制了其广泛应用。