基于边界点词性特征统计的韵律短语切分

来源 :中文信息学报 | 被引量 : 29次 | 上传用户:iris_1204
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于基于规则方法的文本处理系统在系统建立时需要总结大量的规则 ,而且很难保证它在处理大规模真实文本时的强壮性 ,因此本文在使用统计方法进行韵律短语切分方面做了一些有益的探索。先对文本进行自动分词和自动词性标注 ,然后利用从已经经过人工标注的语料库中得到的韵律短语切分点的边界模式以及概率信息 ,对文本中的韵律短语切分点进行自动预测 ,最后利用规则进行适当的纠错。通过对一千句的真实文本进行封闭和开放测试 ,词性标注的正确率在 95%左右 ,韵律短语切分的召回率在 6 0 %左右 ,正确率达到了 80 %。
其他文献
C语言凭借功能强大、语法简洁、使用方便等优点成为目前程序设计工作中使用最广泛的语言之一.结合教学实际,分类例举出C语言中常见错误并分析产生原因,提出解决方法,以提高学
<正>本文介绍一种实用的汽车电压调节器,可直接安装在汽车发电机上,并能适应任何负极搭铁的车辆,它具有工作灵敏可靠、无机械触点、控制效果好、寿命长以及兼有电路故障指示
以结晶硫化钠和对二氯苯为原料,采用碱金属醋酸盐催化剂合成高线型聚苯硫醚(PPS)树脂,考察了碱金属醋酸盐催化剂用量、反应温度和反应时间对PPS产品进行表征对PPS产品的熔体流
DHCP服务器可以为网络中的主机动态分配IP地址.从技术性和实用性角度,阐述如何在Linux系统下通过配置DHCP服务器和DHCP中继代理,实现多网段共享一台DHCP服务器.
<全衡>是第一个较全面考虑香港和国际的需求的网上汉字输入系统,其核心部件是词典.<全衡>使用的是一部拥有六万余词条的词典,每一词条讲述一个词语,信息包括该词语的简体字形
分析了彩色副载波和伴音内载波差拍干扰产生的原因、设计应考虑的问题以及测试方法。
据成都日报报道,自称“词坛怪才”的词作者张俊以日前因涉嫌诈骗被拘,据说涉案金额上亿元人民币。据法律界人士介绍,如果巨额诈骗成立,张俊以最高将被判无期徒刑甚至死刑,如
<正>~~
文本的形式化表示一直是文本检索、自动文摘和搜索引擎等信息检索领域关注的基础性问题。向量空间模型(Vector Space Model)中的tf.idf文本表示是该领域里得到广泛应用并且取得较好效果的一种文本表
股份制是适应社会化大生产条件、符合现代企业需要的资本组织形式,股份合作制是适应社会主义市场经济要求、符合社会主义初级阶段生产力发展水平的企业组织形式。对国有大中