财经问答系统问句解析预处理子系统的设计与实现

被引量 : 0次 | 上传用户:zhoumi2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着金融领域的不断发展,金融信息查询越来越受到人们的关注,然而传统的关键字查询难以满足金融领域用户的需求;因此语义查询方面的产品越来越受到人们的期待;然而语义解析过程是复杂多样的,在大规模真实文本的分析过程中,发现在以词为粒度的基础上进行句子的解析是很困难的,如果先进行句子的文本块分析;在此基础上再进行解析过程,能显著的提高解析的正确性,降低解析的复杂度。现阶段,用户输入查询问句时所采用的输入法基本都是拼音输入法,因而不可避免的就会输入拼音正确但是汉字错误的问句,为了提高问句解析系统的用户体检,因此出现了基于拼音的文本校对。本文所研究的内容为财经问答系统问句解析预处理子系统,包含了两个功能,基于拼音的文本校对以及chunk划分功能。基于拼音的文本校对,首先把用户输入的问句序列转化成为独立的拼音序列,之后使用多元文法、三元文法、二元文法进行填充,填充过程中考虑用户输入的汉字序列,填充之后如果没有产生歧义,则进行文本校对,反之不进行文本校对。对于chunk划分,本文中采用了三种不同的方法:最短路径法chunk划分、基于CRF chunk划分以及基于神经网络chunk划分,设计并实现了相应的使用方式;最短路径法使用类似于词典的分词方式进行;CRF chunk划分将chunk划分问题转化为标注问题,通过求解最优的标注序列,达到进行chunk划分的目的;基于神经网络的chunk划分首先需要进行分词,把问句序列转化为节点序列;之后通过在每一节点序列后添加chunk标记,查看该序列的可能性是否增加,如可能性增加,说明在该标记位置需要进行chunk划分。通过实际的测试发现,基于词典最短路径chunk划分,不能处理未加入词典中的chunk问句;CRF chunk划分方式虽然能解决未登录chunk问句,但标记信息过于简单,当训练语料增大时,对训练语料的预测出错比例显著增大。使用神经网络方式进行chunk划分时,预测耗时显著增加,但是对问句进行泛化是一个很好的思想。通过以上研究,进行chunk划分的合理方式为使用CRF方法进行,同时对问句进行适当泛化。最后经过测试后,证明本子系统满足了解析系统的需求,大大提高了财经问答系统用户体验,同时在很大程度上降低了解析复杂度,正确性和性能上都有很大提升。
其他文献
为了有效利用粉煤灰和废弃聚苯乙烯研制新型节能墙体建筑材料,以石灰、石膏作为粉煤灰活性激发剂,用废弃聚苯乙烯颗粒(EPS)作为保温成分制备砌块材料,采用X射线衍射(XRD),热
利用互联网进行交易的消费者日益增加,各种各样的网络消费纠纷亦相伴而生。这种纠纷因其交易方式的不同及数字化商品(d igital products)等特性,相比传统的交易更为复杂,因此
加强消费文化研究提高消费文明肖浩辉知名经济学家尹世杰教授,继创立消费经济学以后,又提出了开展消费文化研究的新课题。我认为这是一件非常有意义的事.首先,有利于弘扬我国传统
【正】 从唐朝都城长安,经过今甘肃、青海,联结吐蕃都城拉萨的驿道,世称唐蕃古道。由于唐蕃联姻通好,汉藏两大民族建立甥舅戚谊,在这条古道上留下种种优美动人的历史传说,以
目的:观察沙漠干热环境腹部肠管火器穿透伤后肾脏损害的病理学变化。方法:健康长白仔猪84头随机分为常温组及沙漠干热环境组,每组分为对照组、伤后1h、2h、4h、8h、12h和24h
<正> 我们运用推拿手法治疗了88例肩周炎患者,现报道如下:一、临床资料本组男42例,女46例;左肩52例,右肩36例;≤45岁4例,45~50岁28例,51~55岁47例,56~60岁9例;病程≤6月62例,7~14
目的:探讨胃印戒细胞癌组织中PTEN基因突变及其蛋白表达异常与胃印戒细胞癌发生、发展和临床病理特征的相关性。方法:采用聚合酶链反应-单链构象多态性(PCR-SSCP)分析法检测3
全面预算管理是企业内部控制的一种重要方法,是发达国家成功企业多年积累的经验之一,在企业管理实践中取得了良好的效果。但是,随着知识经济时代的到来和市场竞争的加剧,企业外部
司法所作为社区矫正基层执行机构在运作中呈现诸多弊端。浙江省台州市天台县司法局结合本县实际,大胆创新,率先建立了县级社区矫正执法大队作为社区矫正工作的实体执法部门。
司法鉴定是在诉讼活动中鉴定人运用科学技术或者专门知识对诉讼涉及的专门性问题进行鉴别和判断并提供鉴定意见的活动。司法鉴定意见与一般证据既有联系又有区别。与国外司法