校园网搜索引擎核心技术——中文自动分词

来源 :北京机械工业学院 北京信息科技大学 | 被引量 : 1次 | 上传用户:xiang88_77
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和网络技术的不断发展,校园网作为学校内部信息共享、校际间信息交流的平台也得到了快速发展。校园网上信息量的增加,以及信息的分布存储,给用户检索信息带来了困难。导致校园网上大量资源得不到充分利用,造成了信息资源的浪费。校园网搜索引擎是一个对校园网内部信息资源进行搜集整理,然后供用户查询的系统,它包括信息搜集,中文分词,索引和检索四个部分。本课题是校园网搜索引擎课题的一个子课题。研究的目的是为校园网搜索引擎课题提供一个高效的中文分词软件包。为了实现这一目标,首先建立了中文分词子系统实验平台的结构模型以及与其它模块间的数据接口;然后,通过对词典结构机制、未登录词识别和分词算法的研究,提出了适合校园网搜索引擎中文分词的一整套解决方案。该方案是以机械分词为基础,包括逆向词库的建立与扩充、基于整词二分的二层索引结构、基于规则统计的未登录词识别算法以及改进的逆向最大匹配算法等。最后,实现了中文分词子系统实验平台以及中文分词软件包,并进行了速度和内存容量的测试,得到了字典占用内存4.28M,分词速度每秒11k字节的实验数据。实验表明,这个分词软件包可以满足当前校园网搜索引擎课题的使用。本论文中提到的中文分词子系统实验平台和中文分词软件包是在JDK 1.4和Oracle9i上实现的。
其他文献
随着计算机网络技术和微处理器技术的发展,嵌入式系统在工业控制领域得到了越来越广泛的应用。而传统的工业控制领域中的监控系统大多是基于现场总线的方式构建的,需要铺设昂贵
柑橘是世界第一大水果,其种植面积与产量均居首位。土壤是由多层矿物质组成的自然体,是农业生产的物质基础。土壤的理化性质与土壤中含有的营养元素的丰缺,是制定柑橘园土壤
近年来,随着传感器技术、通信技术、嵌入式和分布式计算技术的飞速发展和日益成熟,无线传感器网络开始在世界范围内出现。流数据管理技术是传感器网络的核心技术。由于流数据
移动外采系统是为大连血液中心设计的。用于大连市血液中心移动外采管理系统.根据血液中心献血工作的实际需要,通过对原有的大连市红十字血液中心的外采管理系统中缺陷的分析,
随着软件系统的规模越来越大,业务越来越复杂,整个系统的结构和规格说明显得越来越重要。对于大规模的复杂软件系统,其总体的系统结构设计和规格说明的重要性已经远远超过了对计
随着嵌入式技术和网络技术的蓬勃发展,嵌入式Internet的应用已经遍及各行各业。由于一些服务行业、关键岗位对语音记录需求的不断增长,传统的录音设备在功能上、效率上和管理上
随着3G在全球电信市场的大规模商用,IMS受到了越来越多的关注,IMS被广泛的认为是NGN的核心网络技术,IMS希望可以为不同的用户、不同的业务提供不同的QoS保障,这就对IMS中QOS的管
随着因特网的蓬勃发展和社会信息化水平的日益提高,数据及多媒体业务的重要性越来越突出,实现网络与业务融合的需求也越来越迫切。而第三代移动通信的IMS域汇集了移动业务领域
计算机网络的快速发展,使得数字内容比如音频、视频产品在网络上的传播变得更加容易,由此衍生出的数字版权保护问题受到了人们的广泛关注。叛逆者追踪模型是实现数字版权保护
非线性理论由三大理论构成:混沌理论、分形理论、孤立子理论,它们是非线性这门学科的理论基础。基于非线性理论,本文研究了混沌和分形领域中的若干问题,具体研究内容如下: (1)