【摘 要】
:
本文阐明了系统相似度计算的基本原理,提出了一种新的系统相似度计算函数,论证了该函数的代数特点.作为系统相似度计算的应用之一,本文进而提出了一种新的信息检索模型-系统相似模型,论证了向量空间模型为该模型的特例,且该模型能有效地弥补向量空间模型的缺陷.
【机 构】
:
哈尔滨工业大学计算机学院,黑龙江,哈尔滨,150001
论文部分内容阅读
本文阐明了系统相似度计算的基本原理,提出了一种新的系统相似度计算函数,论证了该函数的代数特点.作为系统相似度计算的应用之一,本文进而提出了一种新的信息检索模型-系统相似模型,论证了向量空间模型为该模型的特例,且该模型能有效地弥补向量空间模型的缺陷.
其他文献
比较研究了决策树模型和最大熵模型在中文文本分类中的应用.利用分类训练集的文档类别标号已知,按类别进行文本的特征选择,去除了对分类任务作用不大的词语特征.在上述得到的特征集合下,对目前应用较多的决策树模型和最大熵模型,分别进行了特征词的二值情况下和加入特征词的频率信息的情况下的中文文本分类实验.实验结果显示,在相同的条件下最大熵的分类性能要优于决策树,最大熵模型的分类准确率要比决策树高近20%.另外
汉语的句法结构可以从多角度、多层次进行分析,但如果服务于框架语义分析,则有其特定的要求.本文试图构建一个汉语句法分析模型,它是一个词汇化的句法分析模型,能够解决框架语义分析的特定需要.我们使用了BaseNP的界定和依存关系模型,后者中心词的确定是研究重点.由于框架语义分析的实质是研究中心词与支配词之间的依存关系,因而面向框架语义分析的句法分析需要分析出句法中心词.而词汇的引入必然带来严重的数据稀疏
本文针对现代藏语名词组块的构成与结构,对名词组块做了初步定义,并根据名词组块的句法功能开展了名词组块的分类研究,提出名词组块的形式标记可分为三种类型,一是词格、派生词缀、名物化标记等显性标记,二是代词、数词、指示词等可穷尽性词类作为自指标记,三是名词、形容词等构词词缀作为隐性标记.名词组块识别的基本策略可依靠右边界开展.
本文对人民日报标注语料的索引方法进行了研究,提出一种词语和标记的二元混合索引的方法,在可以同时检索词语和标记串的基础上,有效地提高了检索效率.
汉语多音词自动标音的研究可以为语音合成及汉语教学等领域服务.本文采用N元模型的统计方法对现代汉语中的多音词进行自动标音,通过引入相似词,采取"词形-相似词-词性"三步回退的策略,缓解了数据稀疏问题,实验结果说明这个方法是有意义的.
在网络信息资源持续膨胀的情况下,用户行为分析已经成为网络信息检索研究的重要热点.用户行为分析不仅对改进信息检索算法指出有益的方向,而且事实上已经成为任何一种成熟的网络信息检索评测方案不可缺少的一部分.本文试图从改进检索算法以及评测检索效果两方面对用户行为分析的研究情况进行概述,并对用户行为分析在网络信息检索中的应用做出展望.
信息抽取是自然语言处理领域的重要课题.传统多槽信息抽取系统的规则是基于零阶逻辑的,表达能力有限.归纳逻辑编程(ILP)借助一阶谓词逻辑的强大描述能力,可以自然地表述各种特征,将其整合到一个逻辑框架下,从中学习目标关系.本文研究了ILP学习算法在多槽信息抽取中的应用.实验结果表明,本算法学到的规则比基于零阶逻辑的典型代表WHISK算法具有更好的性能.
由于自然语言的灵活性和复杂性,给语言知识自动获取带来一定的困难.本文提出基于内容的词义本体知识自动获取方法,该方法首先定义了词义本体知识描述框架,然后从语料库中获取词本身与同现的其它信息在语义、语用、句法等方面的用法,形成词义的本体知识库,并以量化的形式保存.利用所获得的词义本体知识,本文实现了文本相似度计算、信息过滤等有关实验,与现有方法相比,较好解决了精确率偏低问题,取得了较好的效果.
传统搜索引擎技术满足了人们一定的需要,但由于其通用的性质,仍然不能满足不同背景、不同目的和不同时期的用户个性化的需求.本文介绍了个性化Web信息采集系统PSearch的设计,重点分析了Psearch中用户兴趣个性化信息的获取、待采页面的选择和相关度的判定.实验结果表明,Psearch具有较高的采集准确率.
非正规语言广泛应用于以网络为媒介的通信中,如聊天室,BBS,电子邮件和短信等.我们称在这些环境中使用的特殊语言表达为网络非正规语言(NIL)表达,例如中文ICQ中"偶"等同于"我".NIL表达处理需要非常规知识和技术,而目前面向正规语言的自然语言处理技术在处理NIL文本时效果并不理想.这一问题导致了NIL处理研究,即通过研制NIL处理系统,提高自然语言处理技术对NIL的适应性.研制开发了NILER