面向信息检索的文本内容分析

来源 :上海交通大学 | 被引量 : 27次 | 上传用户:tengyuansai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息检索是信息服务中很重要的研究课题,它是现今人们面对信息“爆炸”时迫切需要的应对措施。研究自动有效的信息组织以及信息搜索方法,对使用大量甚至海量信息具有极为重要的理论意义和实用价值。信息检索包括检索模型、信息处理和应用等研究领域,本文分别在其中的检索模型和信息处理技术的若干问题上提出了一些解决方案,处理的对象是自然语言文本:首先研究了基于递归概念图的检索模型;之后为了实现这个检索策略,探讨了从机器可渎词典中获取概念结构以及从自南文本中构建概念间语义关系的方法;最后,从文本聚类和文本情感分析的角度进行了文本信息处理的研究。具体来讲,本文对文本信息检索的贡献主要体现在以下几个方面:(1)提出了一种基于概念(属性名,属性值)结构的递归概念图来描述特定领域文本内容的语义,用以标引文档以及用户需求。这种表示方式通过语义上的概念分析,以递归形式的概念图嵌套,对应于句法上的组合。这种结构上的对应,期望实现从句法范畴到语义范畴的映射,使得语义分析与语法分析同步。基于这种递归概念图的表示方法,本文标引了一定数量的网页文本标题和用户需求,并提出了在这种递归概念图上的文本语义相关度的计算方法,以解决检索模型中相关性问题。(2)讨论了以概念图标引为目的的概念(属性名,属性值)结构的自动获取。通过对以往获取词语(概念)知识研究的比较,可以看到词典是获取概念知识,尤其是概念内涵特征的有利资源。本文研究了属性值抽取模板的建立和模板适用性消歧等问题,提出了一种自动获取名词概念常用的五种属性值以及特定种类概念的部分属性值的方法。这种策略和传统提取词典信息主要依靠句法分析的方法不同,从而避开了汉语句法分析的难题。(3)就递归概念图的检索模型,提出了一种从网页文本语料中自动获取模板的Bootstrapping策略,这种模板用于概念关系的识别:由用户提供若干初始种子启动训练,不断迭代生成新的模板和概念对。和以往应用Bootstrapping挖掘关系模板的方法不同,本文引入生物信息计算中两序列比对的方法生成相似上下文的候选模板,使得单个模板的可理解性以及模板集的覆盖能力都得到了提高;定义了新的模板评价机制计算模板的置信度,提高了下一轮迭代抽取的质量。就“(地理)领属”、“(实体)功能”和“(动作)对象”概念关系的识别而言,本文的方法相比以往的系统,获得的模板集合识别正确率和覆盖率都更高。(4)提出了一种以线性插植方式结合余弦测度和量化概念关系的,应用于文本聚类的文本相似度计算方法。通过假设词典词条和它的释义在语义上等价来量化其概念关系,并作为文本聚类的词语知识。就优化聚类的硬准则函数和软准则函数而言,本文定义的这种文本相似度在k-均值聚类算法下能明显提高聚类系统的性能。实验结果说明从非结构化词典中合理量化的词语概念关系,对文本聚类研究具有较高的价值。(5)提出了一种应用于文本情感分析的基于语言建模的生成模型。把文本的感情倾向标定为“喜欢”或“不喜欢”,在文本检索时能提供细致的语义信息。本文分别在文本全局和局部的情感分析上引入了语言建模的方法。在全文语言建模中,基于相对熵构造语言模型的距离。而在局部语言建模中,则定义了一种触发式的语言模型来描述领域术语与其上下文中普通词语之间的依存连接。语言建模的方法表现出了较好的情感分析性能,为将来探索更加适用于情感分析的语言模型提供了依据。
其他文献
低压差分信号LVDS(Low Voltage Differential Signal)是一种用于高速信号传输的国际通用接口标准。LVDS因具有高速度、低功耗、低噪声、低成本等优点,在解决高速数据传输这个
我国的高速公路建设基本符合开建高速公路的各项指标,但服务区餐饮服务存在一些问题。自高速公路开通至今,相关部门对餐饮的关注、重视、管理不够,或者是将餐饮外包,以包代管
文章主要对采煤机自动调高系统及其应用情况进行了分析,希望能够为促进我国矿业的持续发展提供一定裨益。
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
分析了高速齿轮传动的特点和齿部修形原因,进一步研究了直,斜齿高速齿轮齿部(齿形与齿向)修形的设计原则与计算修形量的经验公式。经生产实践验证,齿部修形有利于解决高速齿轮传动