论文部分内容阅读
随着信息时代的到来,网络在人们生活中的重要性越来越大。而不管网络中各种技术怎样革新,人们都需要从海量数据里面找到自己所需要的信息。由此可见无论技术怎样进步,搜索引擎的重要性都不会改变。目前传统的搜索引擎大多基于关键字查询,对于用户输入的复合结构会被视作离散的字符串集,把原本完整的复合结构打碎成孤立的单词。用户的需求也被割裂,从而导致准确率的下降。这是本文的应用背景及研究起始点。另一方面,在自然语言处理中复合结构也普遍出现,因此寻找适合对复合结构进行语义解释的理论和方法具有重要的理论研究意义和广阔的应用价值。目前对于汉语复合结构概念图的标引已经基本成熟,但大部分都是通过手工来完成,对于浩瀚的汉语复合结构而言,单纯采用手工标引基本无法完成。因此如果能够在复合结构原子概念图的基础上,探究到原子概念图的复合运算,那么对于真正实现通过汉语复合结构概念图的方式提高搜索精度会有一定的贡献。本文研究的是汉语复合结构的概念图复合运算,复合结构是由两个或两个以上的词直接组合而成。复合结构的概念图是指利用概念图的方式来表示汉语的整个复合结构。本文的研究从实例分析出发,尝试在内涵逻辑模型下探究复合结构词与词之间的可能存在的关系以及之间可能存在的操作,从而探究复合结构中词与词之间可能存在的概念图复合运算。本文的主要工作为:通过分析用户查询日志中的复合结构,为复合结构中原子概念建立原子概念图库,然后通过对于汉语复合结构的预处理,定义复合结构词与词之间概念图的复合运算。其中主要的运算方式有3种:填值运算,添加属性名和属性值对运算,抑制属性名和属性值对运算。从语义语法角度分为:修饰关系和联合关系。其中修饰关系包括:邻近词复合运算,跨词复合运算,未登录词运算,借代修辞运算。联合关系包括:多中心概念运算。本文的创新性工作主要有以下方面:1打开单个概念的内涵逻辑,用<E,A,V>的方法表示概念的内涵逻辑。从而从深层语义上挖据词语的内涵,达到深层次挖掘词语内涵逻辑的目的。2通过分析汉语复合结构词与词之间的各种关系,提出了汉语复合结构词之间的各种运算,从而在一定程度上可以达到自动生成汉语复合结构概念图的目的。对于搜索引擎的语义查询有一定的帮助,从而有可能提高搜索的精度。