基于查询扩展的信息抽取技术研究及应用

来源 :苏州大学 | 被引量 : 0次 | 上传用户:guanyuefei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的快速发展,关于某一主题的信息会通过不同渠道充斥着整个互联网。面对大量内容相近的主题文档集,有效地获取到真正需要的信息变得越来越困难。如何向用户提供全面简洁的主题信息、从而提高人们获取信息的效率日益受到研究者的关注。本文围绕中药副作用这一Web主题信息的抽取和汇总工作所需的查询扩展和信息抽取关键技术展开了研究。首先,针对主题信息所具有的多样性以及抽取工作对信息全面性的高度要求,本文提出了一种面向主题的关键词查询扩展方法,以解决主题信息查询中信息量不足的问题。该方法通过对给定主题的初始关键词搜索反馈网页进行分析,采用TF*PSF语义加权方法计算主题候选词的权重来进一步筛选主题关键词,以达到主题信息采集的目的。在此基础上,设计了面向Web主题的关键词迭代查询扩展算法,采用主题关键词的组合查询方法,来改善全面获取主题信息的查询策略。其次,根据网络主题信息所特有的噪音大、较稀疏、冗余性强、文本结构特征少等特点。本文提出一种基于可信度计算的主题句抽取方法,以抽取粒度较细的主题信息,并增加信息的置信度,从而实现信息的甄别操作。该方法通过多个侧面对目标主题的衬托,采用LDA(Latent Dirichlet Allocation)模型对主题信息进行建模,利用各个主题概率分布的平滑度进行候选句的可信度计算来抽取主题句。此外,在采用AP(Affinity Propagation)聚类基础上,提出一种基于信息比评价的主题信息层次化显示方法,进行最终的主题信息抽取及层次化显示。最后,本文对三种药品副作用信息进行信息检索和抽取实验,在面向Web的主题相关的信息抽取的具体应用中,取得了较好的效果。
其他文献
近年来我们国家出台了一系列的政策加大推广普通话,越来越多的人报名参加普通话水平考试。通过对普通话水平考试现状的调查和分析,针对目前普通话水平考试面临的一些困难。于
温室环境调控是一个多输入、多输出、非线性强的控制过程,用常规的控制方法来处理有时很难获得比较理想的效果,因此,对温室的控制需要引入智能控制的方法来解决那些难以用传
随着机器翻译技术的迅速发展,命名实体识别与翻译研究取得了突破性的进展,它是在自然语言处理中的关键性研究分支。如今,汉语-维吾尔语机器翻译领域中开展了大量的研究工作。
随着模型驱动开发技术的逐渐成熟以及代码自动生成技术的出现,基于模型驱动的开发方法在软件开发领域被广泛应用。模型驱动开发使得开发人员可以更多地关注于系统逻辑设计,即在
蛋白质-蛋白质对接是指在两个蛋白质分子之间试图找到最好匹配,蛋白质-蛋白质相互作用过程中通常会发生骨架构象变化,蛋白质-蛋白质骨架柔性对接就是设计相应的对接算法和协议
现代DSP(Digital Signal Processor)处理器大多使用VLIW(Very Long Instruction Word,超长指令字)体系结构,它主要通过挖掘指令级并行性,即将多条指令放在同一时钟周期发射来
电子技术、计算机技术、通信技术的飞速发展为我们的生活带来了便利,也为医疗体系的发展带来了新的机遇。无线通信技术已经在医疗监护领域取得广泛应用,主要包括远程医疗、跟
微弱信号检测是一门新兴的学科,从噪声背景中提取微弱有效信号是近代信息论中的一个重要内容,也历来是信号处理领域的核心问题和前沿课题之一。利用传统的功率谱,线性滤波等
在我国,由于人口众多、地区发展不平衡,教育资源分配也不均衡。在某些地区教育资源还是非常缺乏,东部沿海开放地区集中了大量的优势教育资源,而广大的西部地区教育资源却非常
H.264/AVC是最新的国际视频编码标准,该标准具有更强的网络适应能力,代表了未来多媒体数据压缩编码的发展趋势。及时跟踪和掌握H.264/AVC的核心技术,并结合实际应用在某些关