基于单字提示特征的中文命名实体识别快速算法

来源 :第三届全国信息检索与内容安全学术会议 | 被引量 : 0次 | 上传用户:geqatm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来条件随机场(CRF)模型在自然语言处理中的应用越来越广泛。标准的线性链(linear-chain)模型一般采用L-BFGS参数估计方法,收敛速度慢。本文在分析模型复杂度的基础上提出了一种改进的快速CRF算法。该算法通过引入小规模单字特征降低特征的规模,并通过在推理过程中引入任务相关的人工知识压缩Viterbi和Baum-Welch格搜索空间,提高了训练的速度。在中文863命名实体识别评测语料和SIGHAN06语料集上进行的实验表明,该算法在不影响中文命名实体识别精度的同时,有效地降低了模型的训练代价。
其他文献
随着无线通信技术的演进和移动终端设备成本的降低,用户不满足移动服务商提供的固定咨询业务,希望能随时随地从因特网获得更丰富的信息。但移动终端设备的屏幕、运算处理能力以
会议
目的 分析严重急性呼吸综合征疾病的发病原因、传染方式以及临床诊治方法.方法 针对在本院接受诊治的严重急性呼吸综合征患者44例,按性别不同将患者分为男组(25例)和女组(19
目的 针刺配合TDP神灯照射治疗带状疱疹的疗效观察.方法 治疗带状疱疹先用蛋肝解郁、清热解毒方法在全身相应穴位进行平刺、留针30分钟、然后在疱疹周围用三棱针刺络放血、再
查找相似文挡在文本挖掘和文档管理中具有重要的地位。一般的文本聚类都关注单分类情况,本文目的是研究文档隶属于多个分类的情况。本文中的相似文档查找系统是基于模糊分类技
粉碎敌人的“空中优势”美帝国主义去年八月制造北部湾事件,发动对越南民主共和国大規模的空中襲击,到現在已經一年了。一年來,美帝国主义按照它的“逐步升級”战略,在不断
目的 分析螺旋CT后处理技术对肺癌的诊断价值.方法 特选取我院收治的32例肺癌患者,使用国际上最新的TNM分期检测标准进行治疗诊断操作,使用多平面重组、最大密度投影、表面遮
Snake模型即活动轮廓模型,在图像分割中有着广泛的应用。针对Snake模型处理复杂背景图像时的初始轮廓自动选取问题,论文采用种子填充技术对图像进行分割,并将得到的边界作为Snak
通过在普通搜索引擎上增加个性分析引擎,本文给出了一种能够根据用户兴趣返回不同搜索结果的个性化搜索弓}擎系统,具体解决了用户兴趣记录获取、用户兴趣记录的存储、基于向量
现在大家都在议论提拔中青年千部。说起这件事,我扰想起了有远见率识的李顺达。 一九六二年,我到山西省平顺县西沟大队采访。那个时候李顺达已经把大队第一把手的位里让给了
目的 分析2型糖尿病患者患者糖化血红蛋白与血糖波动的相关性.方法 对104例2型糖尿病患者进行72小时的动态血糖检测,按照糖化血红蛋白数值将其分成A、B、C三组,其中A组的糖化