基于SLCA的IETM信息片段检索技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:wxy199
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现阶段计算机信息化的迅速发展,一些大型的复杂武器装备已经不能使用纸型技术资料手册很好的来描述其信息。而交互式电子技术手册(Interactive Electronic TechnicalManual,IETM)的出现很好地解决了这一问题,它取代了传统的纸型技术资料,而是将其转化为电子信息形式展示给用户,并且可以实现人机交互,更加方便管理和维护。IETM的制作要有相应的标准来规范,S1000D是现在较流行的一种国际标准,它是由欧洲航空航天和国防工业协会及美国航空航天工业协会共同制订,它使用模块化的形式对IETM中的技术信息进行管理,增加了技术信息的共享性。和其他的系统一样,都具有信息检索功能。当用户在IETM环境中的时候,可以通过输入关键字,快速访问到对自己有用的信息。本文针对现有的IETM技术信息检索功能存在的不足,设计了一种基于最紧致片段问题(Smallest Lowest CommonAncestor,SLCA)的IETM信息片段检索模型。首先本文对国内和国外现存在的比较成熟的专业的IETM平台进行分析研究,发现目前的符合S1000D标准的IETM技术信息检索过程存在两个问题,分别是检索过程中需要扫描整个数据模块,降低检索效率;检索结果无法定位到具体的技术信息片段。针对以上问题,本文设计了基于SLCA的IETM信息片段检索模型。在本文设计的模型中引入了XML关键字检索中的最紧致片段的思想。在用户输入若干个关键字的情况下,将问题转化为求解多关键字的SLCA节点的问题。本文通过对现存在的SLCA常用求解算法的分析,对XML文档的Dewey编码进行改进,设计了一种HS-D的编码方式,大大降低了编码长度。根据这一编码方式,提出了一种新的SLCA求解算法。为了使最终返回给用户的信息片段更精准、更有意义。在本文的模型中加入了元素提取模块,为不同的元素制定不同的提取规则。并且设计了技术信息简化模块,将对检索过程中无意义的元素和属性过滤掉,提高检索速率。在本文的最后,以一个描述类的数据模块为具体实例,演示了整个模型的具体工作流程,结果显示本文设计的模型可以快速、准确地返回给用户需要的有意义的检索信息片段。
其他文献
问题分类是自动问答系统中对自然语言问题进行问题理解的关键步骤。寻找与问题类别密切相关的特征,对提高问答系统整体的处理性能和效率非常重要。中心词是问题中最能表达“问
随着信息技术的不断发展,移动互联网和社交网络广泛兴起,以数字化为基础的多媒体技术逐渐在人类社会的各个领域得到越来越广泛的应用。图像/视频等视觉信号是数字多媒体内容
养老保险与社会民生息息相关,广大参保群众在参保过程中常常会遇到各式各样的问题。研究问答系统关键技术,并将其应用到养老保险领域中,用自然语言快速准确地回答用户的问题,具有
煤炭是我国丰富的资源,随着煤炭经济的快速发展,将信息技术应用于煤矿监测与通信是当务之急。通过无线信号的传输来取代有线传输,通过在井下节点的部署,对井下施工设备和交通工具
随着合成孔径雷达(SAR)技术的迅速崛起,SAR成像具有全天候、多波段、多极化、穿透性强等特点,在海冰检测、城市规划、军事侦查以及农作物病虫害防治中扮演着重要的角色。图像分割
风力发电是近几年大力发展的新可再生能源。是一种有效的降低发电成本,减少环境污染的新能源,能够很好的并入国网使用。保证风电机组的安全、稳定、高效运行最为重要。其中风力
大数据在广泛的领域形成并且快速的扩张,同时引入了大量劣质数据(错误的、不一致的数据)。因此数据质量在大数据时代日益显得重要,但是数据质量系统的定义和方法还不成熟,远远满足
随着信息技术的发展和办公自动化的普及,PDF文档逐渐成为人们工作和学习上必不可少的首选应用文本软件。尽管PDF文档带来诸多便利,使用过程中渐渐出现很多安全问题。攻击者利
随着互联网的发展,传统关系型数据库(RDBMS)已不能满足大数据时代所要求的系统水平扩展的需要。NoSQL存储提供了一个具有巨大的可扩展性、容错性、可用性、可靠性的下一代数据
近年来,基于位置的服务(Location-based service,LBS)在人们的日常生活中得到了越来越多的应用,其中隐藏的位置隐私安全问题也逐渐引起人们的关注:用户必须向位置服务提供商(如Go