论文部分内容阅读
概念比关键词具有更大的语义粒度,包含更多的语义信息,用于本体构造、文本的语义表示和语义标注、语义搜索等,以提高文本语义处理的效率。概念语义处理的效果直接影响文本语义处理的效果和效率。在面向文本集的概念语义处理领域,目前研究主要关注概念语义处理算法本身,很少关注文本概念语义的一些基本问题,例如,文本概念形成的条件是什么?一个文本概念用多少关键词表示才经济合理?文本概念语义演化的动力和规律是什么?这些问题涉及到文本概念语义运动的基本规律,能够为文本概念语义处理的各种具体算法提供方法论的指导,所以关于概念基本规律的研究和具体算法的研究一样重要。本文借鉴热力学定律和耗散结构理论的基本思想,面向Web文本语义处理的应用领域,提出文本概念语义空间(Textual Concept Semantic Space,TCSS)作为概念语义运动和演化的空间,通过对该空间的宏观和微观研究,初步揭示了概念语义运动的基本规律,能够为各种文本概念语义处理研究提供支持和参考。本文的具体研究内容包括:1.通过类比热力学系统和概念语义系统以发现两者的相似之处,并据此提出文本概念语义空间(TCSS)模型,通过类比热力学系统和TCSS建立起两者之间的联系,为TCSS的研究确立了理论工具。2.在对TCSS定量分析的基础上,基于热力学基本定律,提出TCSS信息熵收敛定理、TCSS信息熵计算方法、TCSS信息交换的信息熵计算方法,共同构成了TCSS的基本性质,初步揭示了文本概念语义运动的一般规律。同时基于以上性质定理提出一种无先验知识和人工参与的TCSS的构建方法,可应用于文本概念提取、本体自动构造、以及文本语义标注等方面。3.利用领域中存在的少量先验知识对TCSS的构造过程进行优化,以提高TCSS的精度,为基于TCSS的各种应用提供更好的支持。首先,提出一个通用的基于先验知识指导的算法优化模型,为TCSS构造过程各环节的算法优化提供方法论指导;然后,使用该模型对TCSS构造主要环节的算法进行优化,具体包括在先验知识指导下提高关键词提取算法的精度,提高关联规则挖掘的精度,对关键词关联语义链网络的构造进行优化和提高概念层次树生成算法的精度,最终实现TCSS的优化。4.基于耗散结构理论,对TCSS进行耗散结构建模,以研究概念的形成和语义演化过程。提出TCSS耗散结构形成的定量判断方法;初步揭示了TCSS中概念演化的动力;对概念演化过程中宏观和微观演化现象进行了分析;初步揭示了文本概念语义演化的基本规律;并对TCSS耗散结构在非常规突发事件检测中的应用进行了讨论。5.基于TCSS给出两个具体应用研究:(1)大规模概念语义标注测试数据集的构造:为解决文本概念语义标注研究中测试数据集规模偏小、无法对标注算法的效率进行全面评价的问题,基于TCSS思想,以MeSH医学主题词表和PubMed医学论文数据库为数据源,构造了一个较大规模的文本语义标注测试数据集,并基于该数据集给出了算法的评价参照标准,为文本语义标注研究提供支持。(2)网页集分面自动提取:基于TCSS思想,提出网页集的多维语义索引结构(MDSI),实现了对网页集的富含语义的索引组织;通过分析MDSI中不同语义维度的映射关系实现了分面的自动提取,一定程度上解决了海量非结构化文本的分面自动提取问题,能够为分面搜索提供支持。本文的研究内容初步揭示了文本概念语义活动的基本规律,同时也为文本概念的研究提供一些具体的方法和算法,可直接应用于面向文本集的概念提取和表示、本体构造、文本的语义表示、文本的语义标注、语义搜索、Web事件监测、分面搜索等方面,以提高Web的使用效率。