基于汉语拼音首字母索引的混合分词算法

来源 :计算机系统应用 | 被引量 : 0次 | 上传用户：wdhjhh

【摘要】

：

中文自动分词是web文本挖掘以及其它中文信息处理应用领域的基础.蓬勃发展的中文信息处理应用对分词技术提出了更高的要求.提出了一种新的分词算法FPLS,该算法用拼音首字母作

【作者】

：

杨进才陈忠忠谢芳胡金柱

【机构】

：

华中师范大学计算机学院,湖北工业大学计算机学院

【出处】

：

计算机系统应用

【发表日期】

：

2016年4期

【关键词】

：

中文分词拼音索引双向匹配歧义切分 Chinese automatic segmentation Pinyin index bidirectional

【基金项目】

：

教育部社科基金（13YJAZH117）, 国家社科基金（14BYY093）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

中文自动分词是web文本挖掘以及其它中文信息处理应用领域的基础.蓬勃发展的中文信息处理应用对分词技术提出了更高的要求.提出了一种新的分词算法FPLS,该算法用拼音首字母作为词语表一级索引,词语的字数为二级索引构造分词词典,采用双向匹配方法,并引入规则解决歧义切分问题.与现有的快速分词算法比较,该算法分词效率高且正确率高.

其他文献

焦炭光学组织的超反射率图像分析系统

分析焦炭的光学组织是一种重要的评估焦炭质量的方式,目前这种评估方式还停留在人工阶段.为了改变现状,本文设计和实现了一套自动分析系统,可以自动采集焦炭切片的显微图像并自动分割和识别其中的焦炭光学组织.系统由图像采集系统和图像分析系统两个子系统构成.在图像采集系统中,我们使用多角度极化技术拍摄得到焦炭切片在不同极化角度下的反射率图像,本文称这种特殊图像为超反射率图像.在图像分析系统中,我们提出了一种针

期刊

焦炭光学组织显微图像多角度极化图像分割形态剖面随机森林coke optical texturemicroscopic imagemulti-di

增量支持向量机核函数的优化

支持向量机的核函数类型分为两类：局部核函数和全局核函数.局部核函数的值只受到相距很近数据点的影响,有很好的学习能力.全局核函数的值会受到距离较远数据点的影响,有很好的

期刊

支持向量机增量学习全局核函数局部核函数联合核函数support vector machine incremental learning globa

基于改进DAG的Web服务组合优化

针对当前Web服务组合过程的复杂性，提出了一种基于改进DAG的Web服务组合方法．该方法通过构造有向无环图（DAG）表示服务之间可能的匹配，并对有向无环图进行优化，删除无效的组合路径及

期刊

智能用电服务组合QOS有向无环图用能分析smart power service composition QoS DAG energy-cons

政务网站新媒体发布集成环境建设探讨

根据政务网站在各个媒体上信息发布的特点,提出一种集成各种媒体内容管理功能的综合内容管理解决方案,采用统一的信息资源池集中管理各种数据资源,实现信息的多渠道汇聚和一

期刊

新媒体内容管理微博微信OAuth2.0new media content manage weibo wechat OAuth2.0

使用负载均衡提高Maximo系统性能

天津分公司经过多年的信息化建设,目前已经形成了以Maximo系统为核心的设备管理信息化系统.随着系统不断深化应用,客户化程序日益增加,业务数据量日趋增大,系统负荷不断加大,

期刊

系统性能负载均衡硬件集群提升system performance load balancing hardware cluster upgrad

多级半色调技术在电纸书显示优化中的应用

针对电纸书显示屏灰度等级不足的问题,提出了利用半色调图像处理技术的改进算法实现电纸书显示优化的方法.在阐述半色调技术与电子纸特点的基础上,介绍了抖动算法和误差扩散算法,通过对这两种算法进行改进提高电纸书显示的灰度级数及视觉效果.其中重点对误差扩散算法中的阈值、滤波器及扫描方式的设定进行设计,并提出一种基于误差动态检测的新的改进算法,能有效提高图像灰度级数,改善电纸书的图像显示质量.最后在电纸书系统

期刊

电纸书半色调误差扩散电子纸驱动electric paper book halftone error diffusion electronic pa

具有可互换性的虚拟信号发生器

对IVI（Interchangeable Virtual Instrument）技术规范的结构、特点及在软件中的应用进行了研究.通过虚拟仪器技术利用Lab Windows/CVI工具开发了一套基于IVI驱动的虚拟信号发生

期刊

远程测量虚拟仪器可互换性remote measurement virtual instrument interchangeability

基于混合P2P的端到端网络测量系统

基于P2P的网络测量系统以降低单点瓶颈和部署开销为目标,其中结构化P2P一般假设节点具有相同的能力,不适合大规模部署;非结构化P2P通信负载过大,可扩展性差.因此,本文结合多

期刊

网络测量P2PDHT心跳检测簇首network measurement P2P DHT heartbeat detection regiona

B/S模式在线考试系统性能优化及实现

在线考试相比传统考试方式有着很多的优点,例如在线考试的成本更低,在线考试试题的即时更新性,在线考试可以更快给出应试人员的答题情况的统计分析,还可以给不同的应试人员随

期刊

在线考试分布式缓存Ajax局部刷新高并发online examination distributed cache Ajax partial page

网络化时滞控制系统的有限时间稳定性分析

针对网络控制系统中存在于传感器．控制器．执行器间的双时延问题，提出了一种基于Markov模型的状态反馈控制策略．与传统应用Markov随机过程的方式相比，该策略采用两个Markov链描述每

期刊

MARKOV跳变系统有限时间稳定状态反馈随机时延线性矩阵不等式Markovian jump system finite-time stability

基于汉语拼音首字母索引的混合分词算法

与本文相关的学术论文