论文部分内容阅读
信息检索是信息服务中很重要的研究课题,它是现今人们面对信息“爆炸”时迫切需要的应对措施。研究自动有效的信息组织以及信息搜索方法,对使用大量甚至海量信息具有极为重要的理论意义和实用价值。信息检索包括检索模型、信息处理和应用等研究领域,本文分别在其中的检索模型和信息处理技术的若干问题上提出了一些解决方案,处理的对象是自然语言文本:首先研究了基于递归概念图的检索模型;之后为了实现这个检索策略,探讨了从机器可渎词典中获取概念结构以及从自南文本中构建概念间语义关系的方法;最后,从文本聚类和文本情感分析的角度进行了文本信息处理的研究。具体来讲,本文对文本信息检索的贡献主要体现在以下几个方面:(1)提出了一种基于概念(属性名,属性值)结构的递归概念图来描述特定领域文本内容的语义,用以标引文档以及用户需求。这种表示方式通过语义上的概念分析,以递归形式的概念图嵌套,对应于句法上的组合。这种结构上的对应,期望实现从句法范畴到语义范畴的映射,使得语义分析与语法分析同步。基于这种递归概念图的表示方法,本文标引了一定数量的网页文本标题和用户需求,并提出了在这种递归概念图上的文本语义相关度的计算方法,以解决检索模型中相关性问题。(2)讨论了以概念图标引为目的的概念(属性名,属性值)结构的自动获取。通过对以往获取词语(概念)知识研究的比较,可以看到词典是获取概念知识,尤其是概念内涵特征的有利资源。本文研究了属性值抽取模板的建立和模板适用性消歧等问题,提出了一种自动获取名词概念常用的五种属性值以及特定种类概念的部分属性值的方法。这种策略和传统提取词典信息主要依靠句法分析的方法不同,从而避开了汉语句法分析的难题。(3)就递归概念图的检索模型,提出了一种从网页文本语料中自动获取模板的Bootstrapping策略,这种模板用于概念关系的识别:由用户提供若干初始种子启动训练,不断迭代生成新的模板和概念对。和以往应用Bootstrapping挖掘关系模板的方法不同,本文引入生物信息计算中两序列比对的方法生成相似上下文的候选模板,使得单个模板的可理解性以及模板集的覆盖能力都得到了提高;定义了新的模板评价机制计算模板的置信度,提高了下一轮迭代抽取的质量。就“(地理)领属”、“(实体)功能”和“(动作)对象”概念关系的识别而言,本文的方法相比以往的系统,获得的模板集合识别正确率和覆盖率都更高。(4)提出了一种以线性插植方式结合余弦测度和量化概念关系的,应用于文本聚类的文本相似度计算方法。通过假设词典词条和它的释义在语义上等价来量化其概念关系,并作为文本聚类的词语知识。就优化聚类的硬准则函数和软准则函数而言,本文定义的这种文本相似度在k-均值聚类算法下能明显提高聚类系统的性能。实验结果说明从非结构化词典中合理量化的词语概念关系,对文本聚类研究具有较高的价值。(5)提出了一种应用于文本情感分析的基于语言建模的生成模型。把文本的感情倾向标定为“喜欢”或“不喜欢”,在文本检索时能提供细致的语义信息。本文分别在文本全局和局部的情感分析上引入了语言建模的方法。在全文语言建模中,基于相对熵构造语言模型的距离。而在局部语言建模中,则定义了一种触发式的语言模型来描述领域术语与其上下文中普通词语之间的依存连接。语言建模的方法表现出了较好的情感分析性能,为将来探索更加适用于情感分析的语言模型提供了依据。