面向比较语义的互联网文本挖掘关键问题研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:wai123414
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
比较是人们日常生活中常用的一种行为方式,对获取知识有重要意义。随着社会发展和技术进步,可获取的信息量与日俱增,通过对比分析能够得到的知识也更为丰富。但通过人工方式处理数据需耗费大量人力物力,已无法满足广大用户的急切需求。通过文本挖掘等方法,从互联网海量数据中自动获取对比信息,成为一个亟待研究的课题。针对这个问题,本文总结了文本领域面向比较语义的自动挖掘的研究任务框架,并研究了面向比较语义的文本挖掘中的几个重要问题,包括比较句识别、可比对象发现、对比摘要和双语比较检索。  本文提出了一种基于序列模式特征的汉语比较句识别方法。通过频繁序列模式挖掘算法,学习汉语比较句和非比较句的特征模式,利用分类器对模式特征进行融合,将汉语句子分为比较和非比较两类。与词汇、词性相比,序列模式能够更好地反映汉语比较句的特征,提高比较句识别的效果。  本文提出了一种基于互联网检索的可比对象发现方法。针对用户输入单一查询对象的情况,综合利用人工定义的语言学规则和自动学习的半结构化模板抽取候选的可比对象,利用候选对象之间的共现关系和候选对象的上下文信息,将对象按照所属的概念进行划分,并根据其与种子对象的可比性进行排序。实验证明该方法与传统的可比对象抽取及对象扩展方法相比,具有更好的准确性和覆盖率。  本文提出了一种基于协同图排序的对比新闻摘要模型,为可比的新闻话题抽取对比摘要,概括话题之间共性和差异。基于同一个话题下句子间的相似性和不同话题中句子间的对比性,利用互相增强的图排序方法,计算每个句子的重要程度,抽取合适的句子组成摘要,使对比摘要既强调话题之间的对比点,同时又代表每个话题的重要内容。本文提出了一种基于线性规划的对比新闻摘要模型,以概念为粒度计算摘要的代表性和对比性,采用线性规划的方法进行摘要句子的选择。实验证明两种方法在所有评价指标上均优于基准方法,具有良好的效果,其中基于线性规划的方法效果最好。  最后,本文提出了一种双语对比互联网检索方法。给定双语中互为翻译的查询,通过搜索引擎获得相应的检索结果,并利用跨语言显式语义分析技术、机器翻译技术和聚类技术,挖掘检索结果中的不同概念,帮助用户了解不同语言群体中的认知差异。实验证明该方法能够有效地挖掘双语检索结果中的概念对比。
其他文献
网络教学是现代教育技术综合应用中的一个重要领域,也是实现教育信息化的重要手段。随着信息化时代的不断向前发展,各个高校的校园网建设也已经初具规模,顺应教育教学体制改革的
随着Internet的快速发展,以Web应用为主要形式的网络服务已成为现代社会不可或缺的重要组成部分,保障网络服务的正常运行并有良好的服务质量十分关键。软件故障诊断技术是一种
语种识别是指计算机自动判定一段语音所属的语言种类的技术,在近几年中,其应用需求显著增加。语种识别中的一个重要研究问题是提取语音的语种鉴别性信息。一般来讲,一个成功的语
人类已经迈入二十一世纪,信息化、智能化已经成为当今的热门话题,无论是在金融、医疗、军事、教育等各领域都在实行着信息化、智能化的革新。如何运用先进的技术实现现代化的管
面向服务的体系结构是一个广泛应用于企业级软件架构的模式。它通过将不同功能抽象为服务,通过使用接口将服务与服务联系起来。这样的体系结构满足现今对功能解耦的需求。于
生物信息学是将数学、计算机科学等领域的科学理论、应用技术等应用于生物科学,以达到了解生物数据的目的的一种跨学科前沿科研领域。第一生产力的科技,已然成为改善人类的生活
信息化社会对软件系统日益增长的需求与依赖,以及软件规模及复杂度的不断增加加剧了软件的“可信”问题。开发满足客户需求的可信软件是目前软件业的巨大挑战。软件过程技术的
随着中国科学院科研信息化进程的加快,Academia Resource Planning3.0(ARP3.0)项目加快了中国科学院科研人员信息化办公的效率,然而,网上办公的信息量激增,文献和文字数量曾指数
全过程计算机辅助动画自动生成技术由中科院陆汝钤院士于上世纪90年代提出,这一技术的目标是将适当的故事以受限自然语言的方式输入计算机,由此开始一直到动画的生成,每一步都是
二十一世纪,人类进入大数据时代,大量历史数据的积累导致数据量高速增长,海量数据领域越来越被人们所重视,该领域涌现出了许多新技术。一方面,人们需要高效存储日益庞大的数据集;