面向文本知识管理的自适应中文分词算法

来源 :重庆大学学报：自然科学版 | 被引量 : 0次 | 上传用户：w198911154

【摘要】

：

针对传统字典匹配分词法在识别新词和特殊词处理方面的不足,结合2元统计模型提出了面向文本知识管理的自适应中文分词算法——SACWSA。SACWSA在预处理阶段结合应用有限状态机

【作者】

：

冯永贺迅唐黎陈显勇陈贞

【机构】

：

重庆大学计算机学院

【出处】

：

重庆大学学报：自然科学版

【发表日期】

：

2010年10期

【关键词】

：

知识管理文本处理统计方法自适应算法 knowtl edeg management text processing statistical methods

【基金项目】

：

重庆市自然科学基金资助项目（2008BB2183）, 中央高校基本科研资助项目（DJIR10180006）, “211工程”三期建设资助项目（S-10218）, 中国博士后科学基金资助项目（20080440699）, 国家科技支撑计划资助项目（2008BAH37B04）, 国家社会科学基金“十一五”规划教育学重点课题（ACA07004-08）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对传统字典匹配分词法在识别新词和特殊词处理方面的不足,结合2元统计模型提出了面向文本知识管理的自适应中文分词算法——SACWSA。SACWSA在预处理阶段结合应用有限状态机理论、基于连词的分隔方法和分治策略对输入文本进行子句划分,从而有效降低了分词算法的复杂度;在分词阶段应用2元统计模型,结合局部概率和全局概率,完成子句的切分,从而有效地提升了新词的识别率并消除了歧义;在后处理阶段,通过建立词性搭配规则来进一步消除2元分词结果的歧义。SACWSA主要的特色在于利用＂分而治之＂的思想来处理长句和长词,用局

其他文献

中国是否属于亚细亚生产方式的当前论争

关于中国是否属于亚细亚生产方式的论争,早在20世纪二三十年代就开始了。在30年代后期为了反对日本的反动言论,国内学者大多不承认中国属于亚细亚形态的社会。改革开放后,特

期刊

亚细亚生产方式东方社会社会类型社会发展阶段Asiatic mode of production Oriental society social type

一种用于评价PD信号去噪前后波形畸变的新参数

针对常用的波形评价参数（normalized correlation coeffiient，NCC）和变化趋势参数来描述振荡波形畸变情况的不足，利用数字化测量中不同离散波形对应时刻的微分的比值越趋于1波形

期刊

信号去噪波形畸变变化细节参数综合评价signal de-noising waveform distortion alternating detail p

医院要重视药品管理

当前,医院的药品销售收入约占全部业务收入的百分之五十,然而,药品管理却是医院管理的薄弱环节,我

期刊

药品管理药品采购药房药品医院药事管理委员会恩施自治州微机管理财务科医院管理贿赂和回扣

房屋建筑施工质量的常见问题及改进对策探讨

随着我国科技与经济的快速发展,现阶段我国人民日益增长的物质文化需要逐渐增大,近些年又由于乡村与城镇的大力发展,城乡改造使人民对住房的需求大大增加。在大量的需求下,房

期刊

房屋建筑施工质量常见问题措施

邓小平游黄山

粉碎“四人帮”后，邓小平重新恢复工作。由于国务浩繁，邓小平休息和运动的时间相对减少，为了保持健康的身体和旺盛的精力，邓小平在同志们和家人的劝说下，决定到黄山一游。　　登山之前，邓小平对安徽省的负责同志提出三点要求：第一，不要妨碍群众游览；第二，省委同志不要来陪；第三，不准特殊化。起初，为了安全起见，保卫人员还是想悄悄控制一下上山游客的人数。邓小平发现后，便说：“要让群众上山，不要搞得戒备森严。”　

期刊

黄山邓小平人格修养政治家

熔融盐法合成球形锂离子电池正极材料LiNi0.8Co0.2O2

采用热分析法对不同组成的LiOH—LiNO3二元体系进行研究，绘制了具有最低共熔点的该二元体系T-x相图，该体系的最低共熔点为175．7℃．利用低共熔混合物LiNO3-LiOH为锂盐，与前驱体球形

期刊

锂离子电池熔融盐正极材料LiNi0.8Co0.2O2

测量微球覆层厚度的X射线衍射法

对采用X射线衍射测量微球覆层厚度的方法进行研究，首先在建立微球X射线衍射数学模型的基础上，利用1组已知厚度和X射线衍射线积分强度的标样，用计算机模拟求解的方、法，得到微球衍

期刊

微球厚度测量X射线衍射法计算机模拟microball thickness measurement X-ray diffraction computer

溴化锂溶液竖管内降膜蒸发传热性能分析

为了直接高效利用低温烟气余热驱动制冷,对不同热流密度、不同浓度溴化锂水溶液竖管内层流降膜蒸发的传热性能进行了实验研究。结果表明,降膜传热系数随溶液进口浓度升高而减

期刊

溴化锂溶液降膜蒸发传热系数关联式lithium bromide solution falling film evaporation heat trans

GIS支持下的公路生态环境评价

通过GIS(Geographic Information System)分析功能和熵权计算,研究公路生态环境质量问题。采用压力—状态—响应概念框架模型和专家咨询相结合的方法确定公路生态环境评价指标,对各评价指标进行无量纲化处理后,利用熵理论计算评价指标的权重,并建立公路生态环境质量评价模型。在RS(Remote Sensing)和GIS支持下,分析青海省某公路生态环境现状,借用MATLAB工具计算

期刊

公路GIS熵权生态环境评价highway Geographic Information System（GIS） entropy weight ecol

颗粒增强铝基复合材料的制备及热膨胀性能

以复合材料在电子封装方面的应用为目标,选择粒径大约为4μm的Al2O3、AlN和SiC颗粒,采用挤压铸造法方法制备了颗粒体积分数为40%的3种铝基复合材料。研究表明,所制备的复合材

期刊

线膨胀系数复合材料颗粒电子封装coefficient of thermal expansion composite particle electroni

面向文本知识管理的自适应中文分词算法

与本文相关的学术论文