搜索的未来

来源 :全国第八届计算语言学联合学术会议 | 被引量 : 0次 | 上传用户:zlh888617
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的迅猛发展使搜索引擎成为必不可少的工具,它能帮助人们在浩瀚的信息海洋中方便快捷地获取众多的信息服务.同时互联网正在提供庞大和丰富的语料资源,为中文技术研究提供强大助力.本文首先通过对各代搜索引擎,特别是中搜网络猪的介绍,揭示了搜索引擎正在从内容、形式和搜索范围等方面发生巨大的演变.接着以实例显示了代表搜索未来的网络猪因其搜索方式的改变,极大地改善了用户的搜索感受.最后基于中国搜索的搜索引擎结构框架的分析,说明搜索引擎作为互联网上庞大的实时服务平台,正在从较专一的检索服务平台向互联网综合信息服务平台演变,同时中文搜索引擎系统正在成为各种中文技术的研究与应用平台.
其他文献
本文对人民日报标注语料的索引方法进行了研究,提出一种词语和标记的二元混合索引的方法,在可以同时检索词语和标记串的基础上,有效地提高了检索效率.
汉语多音词自动标音的研究可以为语音合成及汉语教学等领域服务.本文采用N元模型的统计方法对现代汉语中的多音词进行自动标音,通过引入相似词,采取"词形-相似词-词性"三步回退的策略,缓解了数据稀疏问题,实验结果说明这个方法是有意义的.
在网络信息资源持续膨胀的情况下,用户行为分析已经成为网络信息检索研究的重要热点.用户行为分析不仅对改进信息检索算法指出有益的方向,而且事实上已经成为任何一种成熟的网络信息检索评测方案不可缺少的一部分.本文试图从改进检索算法以及评测检索效果两方面对用户行为分析的研究情况进行概述,并对用户行为分析在网络信息检索中的应用做出展望.
信息抽取是自然语言处理领域的重要课题.传统多槽信息抽取系统的规则是基于零阶逻辑的,表达能力有限.归纳逻辑编程(ILP)借助一阶谓词逻辑的强大描述能力,可以自然地表述各种特征,将其整合到一个逻辑框架下,从中学习目标关系.本文研究了ILP学习算法在多槽信息抽取中的应用.实验结果表明,本算法学到的规则比基于零阶逻辑的典型代表WHISK算法具有更好的性能.
由于自然语言的灵活性和复杂性,给语言知识自动获取带来一定的困难.本文提出基于内容的词义本体知识自动获取方法,该方法首先定义了词义本体知识描述框架,然后从语料库中获取词本身与同现的其它信息在语义、语用、句法等方面的用法,形成词义的本体知识库,并以量化的形式保存.利用所获得的词义本体知识,本文实现了文本相似度计算、信息过滤等有关实验,与现有方法相比,较好解决了精确率偏低问题,取得了较好的效果.
传统搜索引擎技术满足了人们一定的需要,但由于其通用的性质,仍然不能满足不同背景、不同目的和不同时期的用户个性化的需求.本文介绍了个性化Web信息采集系统PSearch的设计,重点分析了Psearch中用户兴趣个性化信息的获取、待采页面的选择和相关度的判定.实验结果表明,Psearch具有较高的采集准确率.
非正规语言广泛应用于以网络为媒介的通信中,如聊天室,BBS,电子邮件和短信等.我们称在这些环境中使用的特殊语言表达为网络非正规语言(NIL)表达,例如中文ICQ中"偶"等同于"我".NIL表达处理需要非常规知识和技术,而目前面向正规语言的自然语言处理技术在处理NIL文本时效果并不理想.这一问题导致了NIL处理研究,即通过研制NIL处理系统,提高自然语言处理技术对NIL的适应性.研制开发了NILER
本文阐明了系统相似度计算的基本原理,提出了一种新的系统相似度计算函数,论证了该函数的代数特点.作为系统相似度计算的应用之一,本文进而提出了一种新的信息检索模型-系统相似模型,论证了向量空间模型为该模型的特例,且该模型能有效地弥补向量空间模型的缺陷.
基本词汇是词汇的核心,是汉语教学、语言本体研究及信息处理领域的基础.当前对基本词汇的研究还远远不够,还没有一个现实存在的基本词汇集,更没有对其量化测定的手段,本文介绍了基于动态流通语料库的现代汉语基本词汇研究的一项前期工作--现代汉语基本词汇先验集及特性的考察.这对实现基本词汇的计算机自动提取有十分重要的意义.
兼类词消解一直是中文信息处理句法分析的难点,对实际语料的研究发现,有些抽象名词和组织类名词对兼类词起着限定作用.本文通过程序设计提取了这些词,并对若干问题进行探讨,希望能对自然语言处理起到积极的推动作用.