位置服务中的中文自动分词技术研究与应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:xiong100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
位置服务(Location Based Services,LBS),是指通过移动终端和移动网络的配合,确定移动用户的实际地理位置,从而提供用户所需要的与位置相关的服务信息。这是利用用户位置信息进行增值服务的一种移动通信与导航融合的服务形式。中文自动分词技术于20世纪80年代初在中文信息处理领域被提出,大致可以分为机械分词方法和分机械分词方法两类。机械分词方法基于字符串匹配的原理,易于实现。按照切取字串的方向,机械分词方法可以分为正向匹配法和逆向匹配法;按照每次匹配时优先考虑长词还是优先考虑短词,机械分词方法可以分为最大匹配法和最小匹配法;按照匹配不成功时重新切取字串的策略,机械分词方法又可以分为增字法和减字法。其中最大匹配法、最小匹配法和逐词遍历法被认为是中文分词的基本分词方法,但逐词遍历法并不实用。其它的分词方法都只是在分词过程中采用的一些技巧,并不是纯粹意义的机械分词方法。非机械分词方法主要包括专家系统方法和神经元网络方法。歧义切分字段的处理的是分词算法中的一个难点,在自动分词过程中分词歧义的出现是难以不可避免的。产生歧义的原因主要有:(1)由计算机自动分词产生的特有歧义;(2)由自然语言中的二义性所引起的歧义;(3)由于分词词库的大小而引起的歧义。从构成形式上,歧义切分字段分为交集型歧义切分字段和多义组合型歧义切分字段。从分词结果看,歧义切分字段还可以分为真歧义和伪歧义两类。从切分歧义所需的知识层次分类,可将歧义字段分为:语法歧义、语义歧义和语用歧义。目前,国内几所知名高校都研制了自己的分词系统,并且在分词速度和分词精度上都达到了一定的要求。浙江电信114号码百事通超级搜索服务平台是一个为浙江电信内网用户提供的地图查询系统。在这一平台中,我们需要把存储在数据库中的地址转换成地图经纬度,以便在地图上标识出其地图位置。本文所说的中文地址转换就是指将中文地址转换为其对应的地图经纬度以满足超级搜索服务平台的功能需求。由于人们的诸多书写习惯,中文地址的出现形式较为复杂,但却存在一些使用频率较高的关键字。利用这些关键字作为分词标志,使用中文分词技术,可以完成地址的初步切分。有了地址分词的结果,就可以在经纬度信息数据库中较为准确的检索出与地址相关的经纬度信息,并通过计算最终得出地址所对应的大致经纬度。
其他文献
随着城市轨道交通的快速发展,客流量的大幅增加,自动检票系统应运而生。本文主要研究了城市轨道交通中闸机的智能识别技术以及通行算法,设计开发了一套智能识别系统,将乘客的
自然景观的模拟在计算机图形学中一直占有一定的重要性,本文的主要研究内容就是构建模拟自然场景的特效系统,该系统综合运用了两种自然场景模拟技术:粒子系统和视频的合成技术,这
随着网络和分布式应用的发展和普及,大量的异构数据源应运而生。为了更好的利用这些资源,人们迫切需要解决这些异构数据源的集成问题。本文在回顾这方面的研究现状的基础上,
计轴设备用于实时检查所防护轨道区段占用还是空闲,其作用等效于轨道电路。它的工作原理是基于列车驶入或驶出轨道区段计数点时所记录轴数的比较结果,以此确定该轨道区段处于占
万维网WWW的产生和发展改变着社会生活的各个方面。随着我国经济的持续发展,在经济发展中具有重要地位的股市也受到万维网发展的影响,其信息表示方式也呈现多元化发展的趋势,基
随着信息时代的发展和人们生活水平的提高,家庭实现信息化越发显得重要。家庭信息化就是把所有的家用电器和电子设备联结在一起,形成家庭网络。通过家庭网络与外部网络的连接,不
在当前电子政务系统的整合过程中,对“信息孤岛”的处理是要解决的核心问题。要想把这些孤立的信息节点完全纳入电子政务系统框架或企业信息系统框架之内,使各个业务节点的信息
随着互联网络的迅猛发展,传统的IPv4技术所表现的诸多问题在很大程度上制约着网络的扩展、应用以及管理。这些问题主要表现在地址空间匮乏、路由表过大、网络管理与配置复杂
随着计算机网络技术的不断发展,目前世界已经开始进入了以网络计算为中心的时代。通过计算机网络把全世界所有可利用的计算资源连在一起,组成一个巨大虚拟的存储器和处理器,从而
当前中国互联网迅速发展导致的恶性事件逐渐增加,从而引起全社会范围的关注。中央政府包括各级地方政府也认识到了这个问题的严峻性,已经出台了若干法规希望能够规范网络的使用