面向开源文本的事件内容挖掘关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:xingyu9404
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面向开源文本的事件内容挖掘是将不具有固定结构或格式的文本中的事件内容信息转换成具有一定组织形式的事件数据,并对事件的领域进行识别的智能信息处理,是进行事件信息高级应用研究的基础。本文利用HNC理论知识,对利用概念知识的事件内容挖掘系统进行设计,并针对事件内容挖掘中的文本聚类、未登录词识别与词义自动学习、词义消歧等关键技术,探索了相应的解决方法和实现手段,取得以下研究进展:  1.提出了基于HNC概念基元的文本向量表示方法,为了解决未登录词造成的语义信息丢失情况,在此基础上进一步提出了概念与词形混合作为文本特征的文本聚类方法。这些方法与单纯基于词形的文本向量表示方法相比,在向量空间维度上都有超过幅度90%的下降;而在基于人工标注类F值的评价标准上,基于概念基元的方法比基于词形的方法提高9.6%,而基于概念基元与词形相结合的方法比基于词形的方法提高25.8%。  2.提出了一种基于数据挖掘技术和网络搜索引擎的未登录词识别方法,进一步形成基于网络百科全书的词义自动学习方法。这两项处理方法利用了网络信息资源,无需训练,适合对开源文本进行处理,在一定程度上解决了未登录词对基于语义的处理系统性能的制约问题。其中,未登录词识别方法运用数据挖掘的Apriori处理思想进行未登录词挖掘,并将网络搜索引擎应用于的词语确认;而词义自动学习方法则通过利用HNC概念基元知识以及网络百科全书的词条信息来实现。实验表明,本文提出的未登录词识别方法取得93.9%的准确率和97.9%的召回率;而词义自动学习方法在本文提出的10分评分机制中,种类评分的宏平均值为7.2329,领域评分的宏平均值为6.3542,总体处理效果良好。  3.针对词义消歧处理,在贝叶斯模型基础上提出上下文边界按词定制的处理策略,并对基于正确率和基于函数拟合两种最优上下文边界选取规则进行探索。与通常采取的对所有多义词采用统一上下文边界的策略不同的是,按词定制上下文的边界对每一个多义词分别求取最优上下文边界。本文从理论处理效果和实际实验结果两方面对按词定制上下文边界和统一上下文边界两种策略进行对比。在理论最优处理效果上,按词定制上下文边界的策略相对统一上下文边界的策略在3大组共6小组对比实验中取得的Macro-P和Micro-P的平均值上分别有6个百分点和5个百分点的提高。但在自动实现的对比实验中,按词定制上下文边界与统一上下文边界两种策略的表现基本持平。  4.对利用概念知识的事件内容挖掘系统进行了设计,为了使事件分类更为细致而引入了基于类型和领域的事件二维类别划分标准,并根据HNC句类语义块和事件要素的对应关系勾画了事件框架,服务于语言分析处理结果到事件抽取的处理。这一系统运用了HNC理论的语言概念空间知识和句类分析工具,不仅对事件内容进行组织和抽取,而且对事件领域进行识别,从而为挖掘同领域或相关领域事件的关系提供数据支持。这一设计为后续的事件内容挖掘系统研发提供了一套参考方案。
其他文献
干扰避免技术是LTE-A的主要研究内容,旨在通过无线通信系统中传输信号的处理、用户调度等算法的研究,提出一种革新的干扰避免方法,从而提高系统性能并增强用户体验,但是到目前为
在水文、气象和农业环境研究中,土壤水分是非常重要的参数。合成孔径雷达(Synthetic Aperture Radar,SAR)系统可以全天时、全天候获取观测区域高分辨率二维图像。利用雷达遥感
目的:(1)聚类分析干细胞临床应用高质量证据的结构特征,为评价干细胞治疗的方法特征、疗效及安全性,为高质量证据临床转化提供直接依据;(2)系统分析干细胞治疗心肌缺血性疾病及血液肿
目的:研究单核细胞趋化蛋白1(Monocyte chemoattractant protein-1,MCP-1)诱导血管平滑肌细胞增殖的机制;  方法:1.MCP-1作用VSMCs24 h后,用NADPH氧化酶活性测定试剂盒检测细胞内
地表温度(Land Surface Temperature,LST)是地表能量平衡中的一个重要参数,在地-气相互作用过程中扮演着十分重要的作用,在气象、地质、水文、生态等众多领域有着广泛的应用。高
miRNA是一类由19~26个核苷酸组成的内源性非编码小RNA,通过其“种子序列”识别并结合靶mRNA的3’端非翻译区(Untranslated region,UTR)从而调控基因的表达。研究发现,miR-205-5p与
给定一段语音,自动给出语音语种信息的语种识别技术,在多语种语音服务,信息安全等许多领域都有着非常广泛的应用。语音环境的复杂多变是语种识别技术从实验环境应用到实际环境中
研究背景乳源性的?-酪蛋白(β-CN)含有丰富的生物活性肽,这些生物活性肽在体内发挥着各式各样的生理功能,因此,?-酪蛋白被誉为乳蛋白中的战略活性蛋白。制备和提取?-酪蛋白为
【目的】 克隆人肥大细胞类糜蛋白酶(chymase)编码区基因(CMA),并在大肠杆菌中进行原核表达,制备重组类糜蛋白酶,以之为免疫原免疫家兔制备其多克隆抗体,为进一步研究类糜蛋白
学位