论文部分内容阅读
位置服务(Location Based Services,LBS),是指通过移动终端和移动网络的配合,确定移动用户的实际地理位置,从而提供用户所需要的与位置相关的服务信息。这是利用用户位置信息进行增值服务的一种移动通信与导航融合的服务形式。中文自动分词技术于20世纪80年代初在中文信息处理领域被提出,大致可以分为机械分词方法和分机械分词方法两类。机械分词方法基于字符串匹配的原理,易于实现。按照切取字串的方向,机械分词方法可以分为正向匹配法和逆向匹配法;按照每次匹配时优先考虑长词还是优先考虑短词,机械分词方法可以分为最大匹配法和最小匹配法;按照匹配不成功时重新切取字串的策略,机械分词方法又可以分为增字法和减字法。其中最大匹配法、最小匹配法和逐词遍历法被认为是中文分词的基本分词方法,但逐词遍历法并不实用。其它的分词方法都只是在分词过程中采用的一些技巧,并不是纯粹意义的机械分词方法。非机械分词方法主要包括专家系统方法和神经元网络方法。歧义切分字段的处理的是分词算法中的一个难点,在自动分词过程中分词歧义的出现是难以不可避免的。产生歧义的原因主要有:(1)由计算机自动分词产生的特有歧义;(2)由自然语言中的二义性所引起的歧义;(3)由于分词词库的大小而引起的歧义。从构成形式上,歧义切分字段分为交集型歧义切分字段和多义组合型歧义切分字段。从分词结果看,歧义切分字段还可以分为真歧义和伪歧义两类。从切分歧义所需的知识层次分类,可将歧义字段分为:语法歧义、语义歧义和语用歧义。目前,国内几所知名高校都研制了自己的分词系统,并且在分词速度和分词精度上都达到了一定的要求。浙江电信114号码百事通超级搜索服务平台是一个为浙江电信内网用户提供的地图查询系统。在这一平台中,我们需要把存储在数据库中的地址转换成地图经纬度,以便在地图上标识出其地图位置。本文所说的中文地址转换就是指将中文地址转换为其对应的地图经纬度以满足超级搜索服务平台的功能需求。由于人们的诸多书写习惯,中文地址的出现形式较为复杂,但却存在一些使用频率较高的关键字。利用这些关键字作为分词标志,使用中文分词技术,可以完成地址的初步切分。有了地址分词的结果,就可以在经纬度信息数据库中较为准确的检索出与地址相关的经纬度信息,并通过计算最终得出地址所对应的大致经纬度。