论文部分内容阅读
比较是人们日常生活中常用的一种行为方式,对获取知识有重要意义。随着社会发展和技术进步,可获取的信息量与日俱增,通过对比分析能够得到的知识也更为丰富。但通过人工方式处理数据需耗费大量人力物力,已无法满足广大用户的急切需求。通过文本挖掘等方法,从互联网海量数据中自动获取对比信息,成为一个亟待研究的课题。针对这个问题,本文总结了文本领域面向比较语义的自动挖掘的研究任务框架,并研究了面向比较语义的文本挖掘中的几个重要问题,包括比较句识别、可比对象发现、对比摘要和双语比较检索。 本文提出了一种基于序列模式特征的汉语比较句识别方法。通过频繁序列模式挖掘算法,学习汉语比较句和非比较句的特征模式,利用分类器对模式特征进行融合,将汉语句子分为比较和非比较两类。与词汇、词性相比,序列模式能够更好地反映汉语比较句的特征,提高比较句识别的效果。 本文提出了一种基于互联网检索的可比对象发现方法。针对用户输入单一查询对象的情况,综合利用人工定义的语言学规则和自动学习的半结构化模板抽取候选的可比对象,利用候选对象之间的共现关系和候选对象的上下文信息,将对象按照所属的概念进行划分,并根据其与种子对象的可比性进行排序。实验证明该方法与传统的可比对象抽取及对象扩展方法相比,具有更好的准确性和覆盖率。 本文提出了一种基于协同图排序的对比新闻摘要模型,为可比的新闻话题抽取对比摘要,概括话题之间共性和差异。基于同一个话题下句子间的相似性和不同话题中句子间的对比性,利用互相增强的图排序方法,计算每个句子的重要程度,抽取合适的句子组成摘要,使对比摘要既强调话题之间的对比点,同时又代表每个话题的重要内容。本文提出了一种基于线性规划的对比新闻摘要模型,以概念为粒度计算摘要的代表性和对比性,采用线性规划的方法进行摘要句子的选择。实验证明两种方法在所有评价指标上均优于基准方法,具有良好的效果,其中基于线性规划的方法效果最好。 最后,本文提出了一种双语对比互联网检索方法。给定双语中互为翻译的查询,通过搜索引擎获得相应的检索结果,并利用跨语言显式语义分析技术、机器翻译技术和聚类技术,挖掘检索结果中的不同概念,帮助用户了解不同语言群体中的认知差异。实验证明该方法能够有效地挖掘双语检索结果中的概念对比。