基于汉语拼音首字母索引的混合分词算法

来源 :计算机系统应用 | 被引量 : 0次 | 上传用户:wdhjhh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文自动分词是web文本挖掘以及其它中文信息处理应用领域的基础.蓬勃发展的中文信息处理应用对分词技术提出了更高的要求.提出了一种新的分词算法FPLS,该算法用拼音首字母作为词语表一级索引,词语的字数为二级索引构造分词词典,采用双向匹配方法,并引入规则解决歧义切分问题.与现有的快速分词算法比较,该算法分词效率高且正确率高.
其他文献
分析焦炭的光学组织是一种重要的评估焦炭质量的方式,目前这种评估方式还停留在人工阶段.为了改变现状,本文设计和实现了一套自动分析系统,可以自动采集焦炭切片的显微图像并自动分割和识别其中的焦炭光学组织.系统由图像采集系统和图像分析系统两个子系统构成.在图像采集系统中,我们使用多角度极化技术拍摄得到焦炭切片在不同极化角度下的反射率图像,本文称这种特殊图像为超反射率图像.在图像分析系统中,我们提出了一种针
支持向量机的核函数类型分为两类:局部核函数和全局核函数.局部核函数的值只受到相距很近数据点的影响,有很好的学习能力.全局核函数的值会受到距离较远数据点的影响,有很好的
针对当前Web服务组合过程的复杂性,提出了一种基于改进DAG的Web服务组合方法.该方法通过构造有向无环图(DAG)表示服务之间可能的匹配,并对有向无环图进行优化,删除无效的组合路径及
根据政务网站在各个媒体上信息发布的特点,提出一种集成各种媒体内容管理功能的综合内容管理解决方案,采用统一的信息资源池集中管理各种数据资源,实现信息的多渠道汇聚和一
天津分公司经过多年的信息化建设,目前已经形成了以Maximo系统为核心的设备管理信息化系统.随着系统不断深化应用,客户化程序日益增加,业务数据量日趋增大,系统负荷不断加大,
针对电纸书显示屏灰度等级不足的问题,提出了利用半色调图像处理技术的改进算法实现电纸书显示优化的方法.在阐述半色调技术与电子纸特点的基础上,介绍了抖动算法和误差扩散算法,通过对这两种算法进行改进提高电纸书显示的灰度级数及视觉效果.其中重点对误差扩散算法中的阈值、滤波器及扫描方式的设定进行设计,并提出一种基于误差动态检测的新的改进算法,能有效提高图像灰度级数,改善电纸书的图像显示质量.最后在电纸书系统
对IVI(Interchangeable Virtual Instrument)技术规范的结构、特点及在软件中的应用进行了研究.通过虚拟仪器技术利用Lab Windows/CVI工具开发了一套基于IVI驱动的虚拟信号发生
基于P2P的网络测量系统以降低单点瓶颈和部署开销为目标,其中结构化P2P一般假设节点具有相同的能力,不适合大规模部署;非结构化P2P通信负载过大,可扩展性差.因此,本文结合多
在线考试相比传统考试方式有着很多的优点,例如在线考试的成本更低,在线考试试题的即时更新性,在线考试可以更快给出应试人员的答题情况的统计分析,还可以给不同的应试人员随
针对网络控制系统中存在于传感器.控制器.执行器间的双时延问题,提出了一种基于Markov模型的状态反馈控制策略.与传统应用Markov随机过程的方式相比,该策略采用两个Markov链描述每