中文智能搜索引擎的研究

来源 :北京理工大学 | 被引量 : 0次 | 上传用户:hfs191
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文从中文搜索引擎的分类技术,自动分词技术和检索技术等主要三个方面探讨中文智能搜索引擎的研究,系统论述了智能搜索引擎技术的概括,总体技术,组成和特点,以及中文智能搜索引擎的关键技术.分类技术是指按一定的算法从文章中提取出它的内容特征,据此将文章划分到与它相似的某一类或几类型文章中,形成一类文章集的过程,该文主要介绍了两种常用的分类方法:NaiveBayes分类算法和矩阵变换分类算法以及对两种算法结果的测试;自动分词技术是智能搜索引擎核心,词是文章的最小的能够独立活动的有意义的语言成分,文中从预处理过程的词语粗切分,切分排歧与未登录词识别以及词性标注三个过程介绍具体的分词技术,并引入了基于三元的汉语分词及标注一体化的统计粗分模型和基子N- 最短路径的非统计粗分模型两种处理模型;检索技术部分介绍了一种改进的全文智能检索模型:超巨型索引文件智能检索模型,使用倒排文件索引技术,并谈了即将到来的检索技术-智能信息检索技术.
其他文献
软件测试贯穿于软件定义与开发的整个期间即整个软件开发过程中.为保证软件开发各阶段的一致性,软件测试的主要依据应该来自于软件需求和软件设计.该文的研究范围即属于基于
发布计算资源是与计算机网络的出现和发展相伴随的一个必然的现象,由于以往发布计算资源的过程较为简单,而未受到足够的重视.Internet规模的迅速扩大,网上资源的不断增多,使
(1)分析并阐述Dublin Core元数据与网络标记语言结合的原理和标记方法.(2)实际解决CNMARC与Dublin Core之间的相互映射转换关系.提出了光盘资源的Dublin Core描述方式.(3)开
随着信息时代的到来,传统的企业业务模式也在随之转变,为适应快速变化的竞争环境,出现了动态联盟(虚拟企业)的工作模式。我们将其成功地应用在住宅建设行业中。一个行业级的并具
电子商务的蓬勃发展使得Internet上的资源和服务更加丰富多彩,这些丰富的资源和服务每天又都会产生许多新的、蕴涵着大量重要的信息的异构、不确定性和非结构化海量数据,其复
发布/订阅是一种分布式系统的事件驱动过程范式,对消息的生产者与消费者进行空间、时间和控制的解耦,它的异步和多点通信的特点增强了分布式系统的灵活性和可扩展性。在现有应
该课题的设计目标是建立一个电子商务平台,为应用服务提供商(ASP)提供底层的应用服务支持,从而使应用服务提供商可以在统一的应用平台上迅速架构自己的服务.这种电子商务平台
该文的工作正围绕数据挖掘技术在基金评估与时间序列分析中的应用展开.主要的工作如下:(1)该文详细分析了数据处理和数据挖掘相关技术的发展现状.讨论了各种实现方法的特点、
近年来随着互联网技术的高速发展,学术研究领域也发生着翻天覆地的变化,网络上学术论文的数量呈爆炸式增长。研究人员在网络上查找其所需要的学术论文信息时,往往需要花费大
该文在图像检测、分割以及检索三个方面分别提出了相应的纹理模型来表示纹理特征:在敏感图像检测方面,该文分别基于DCT变换和Gabor小波变换两种方法进行皮肤纹理的特征提取,