文本间语义相关性计算及其应用研究

被引量 : 0次 | 上传用户:chen_chen1111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息飞速膨胀的当今世界,文本由于其表达灵活、信息容量大以及最为关键的人性化特点,一直是信息传播和存储的主要形式。如何对浩如烟海的文本数据进行处理,帮助人们更好地管理和使用这些数据,是如今这个信息时代需要研究和解决的根本问题之一。而对文本之间的关系进行考查,将这些纷杂的文本依据它们的内容进行合理的关联和区分,从而使更加复杂和深入的后续处理能够被顺畅的应用,则成为文本信息处理的首要内容。长期以来,由于计算机领域的研究者们缺乏对相关性概念的深入思考,使得在文本间关系的考察中,以相似性度量代替相关性度量的方法长期占据主流地位。尽管在一些情况下,相似性度量能够在一定程度上模拟相关性度量。但是,在很多着重强调考察文本之间关联程度而非相似程度的应用当中,由于此类方法的出发点与应用的关注目标之间存在偏差,因此往往不能很好的满足应用对计算效果的要求。本文借助认知科学与信息科学等多个领域的研究者对相关概念的实质所进行的深入分析,在现有的技术条件下,对用户的一般性知识基础加以利用,在语义层面上通过对系统角度的相关性计算模式进行改进,使之向用户角度的相关性计算靠近,对人类的相关判断行为进行模拟。针对语句和文档这两种不同规模和级别的文本,本文对它们的相关性计算方法分别进行了研究,并探讨了它们各自在相关领域中的应用。具体内容包括以下几个方面。面向自动问答系统中候选答案语句抽取的任务,提出了基于系统相似理论的加强型系统相似模型,用以对问答系统中用户查询问句与候选文档问句之间的关系进行计算。该模型引入候选答案要素,赋予其相应的模拟相似度,使其对语句之间相似度产生正向贡献,进而实现相似性度量到相关性度量的转变,更加准确地满足问答系统的需求。以该语句相关性计算方法为主要创新点的问答系统在目前国际权威的问答系统评测中获得了优异的评测成绩,同时,在此评测数据集上针对该方法的测试结果也体现了该方法性能的优越性。除了对语句一级的文本间语义相关性计算方法进行研究,本文对文档之间的相关性度量也提出了新的计算方法。利用文档所具有的词汇集聚特性,借助语义辞典等知识源,本文对文档中词语间的语义链接关系进行了定义与考察,并以之为基础提出了文档的词汇链形式化表示、词汇链权重计算,以及相应的文档匹配等方法。在对人类相关性判断行为的特点进行分析的基础上,提出了利用文本分类对相关性计算效果进行考察的评价方法。实验证明,基于词汇集聚的文档相关性计算方法取得了良好的计算效果。在此基础之上,本文提出了可调节距离的词汇间链接关系定义方法,并且对文档词汇集聚所形成的词簇的内部结构做了进一步的分析,提出了对词簇结构信息加以利用的基于结构化词汇集聚的文档相关性计算方法。在相关实验中,该计算方法的优越性得到了充分的证实。此外,面向药物开发过程中,药代动力学模型训练所需的相关参数缺乏的问题,本文对基于词汇集聚的文本相关性计算方法在生物医药领域药代动力学参数相关文档过滤中的应用进行了研究,同时包括了系统的结构设计以及针对应用领域的特点所采取的特殊的文本预处理方法。在针对酶作用物、引物和抑制剂三个类别的8种药物的实验中,以基于词汇集聚的文本相关性计算方法为核心的文本过滤系统取得了良好的计算效果,对提高生物医药领域药品开发过程的效率具有非常重大的实际意义。
其他文献
目前国内高端超声波医疗设备绝大部分的市场都被国外医疗设备所占据,难觅国产设备的踪迹,究其原因是超声波的稳定输出,尤其是长时间稳定输出技术难度大。针对这一情况,本文从超声换能器的建模分析入手,提出了新的超声控制策略,并研制了超声波智能控制系统,其中的主要研究内容包括:1、通过对换能器等效模型的分析,发现换能器存在一个运行效果远优于谐振频率的最佳工作频率,在此频率下的转换效率约是谐振频率的1.7倍左右
随着移动互联网产品的流行,如何提高系统的性能,承受大用户量高并发的访问,成为该类型系统需要考虑的主要问题。本文从系统分析、技术选型、架构设计、软件设计、代码实现、软件
小流域综合治理取得了巨大成效,小流域综合治理过程中所涌现出的诸多理论问题值得我们去深入思考,并不断完善。通过对鄂尔多斯市各项目区进行了实地考察和调研,现就我市小流
中华文化源远流长,从古至今,中文典籍数不胜数。其中,宋代雕版印刷技术兴盛,书籍从抄写进入了印刷时代。宋版书因时间久远,印刷精良,一直就是历朝历代人们争相收藏的对象。进
管理风险是企业运营过程中必须有也必须进行的操作,是保障企业稳定运作的手段(Ghoshal,1987)。从2001年国内汽车市场迅猛发展以来,汇率风险已经成为企业利润目标可否实现的一
目的:探讨下肢静脉曲张肢体血流图表现及波型机理。方法:对32例下肢静脉曲张患者检测肢体血流图。结果:表明有28例出现双顶峰波型,占87.5%。有25例波幅值低于正常下限,占78.1%。结论:提示静脉回流障
随着市场经济的发展,现代企业制度在国内逐步确立,高管薪酬的管理问题日益受到各方的关注。薪酬作为激励高管的重要手段,一直是学者讨论的热点。建立符合我国企业的高管激励
我科近两年来采用酚妥拉明加新斯的明治疗婴幼儿重症肺炎引起的中毒性肠麻痹17例,收到满意效果,现报告如下。1临床资料1.1一般情况本组17例中男11例,女9例;年龄为0~3个月1例,~1岁12例,~3岁4例。原发症均为
背景:通过动脉粥样硬化动物模型深入了解动脉粥样硬化发病机制和发生发展过程,对动脉粥样硬化的临床诊断和防治都具有重大意义。目的:归纳和总结动脉粥样硬化建模方法及研究
发生在颌骨的良、恶性肿瘤易发生囊性变,X线、CT容易误诊。为提高颌骨良、恶性囊性肿瘤的影像诊断水平,对经X线及CT检查,并经手术病理证实的40例颌骨囊性肿瘤报告如下。1资料与方法40例中,男