【摘 要】
:
上下文是统计语言学中获取语言知识和解决自然语言处理中多种实际应用问题必须依靠的资源和基础。近年来基于字的词位标注的方法极大地提高了汉语分词的性能,该方法将汉语分
【机 构】
:
安阳师范学院计算机与信息工程学院,北京理工大学计算机科学技术学院
【基金项目】
:
高等学校博士学科点专项科研基金项目(No.20050007023), 河南省高等学校青年骨干教师项目(No.2009GGJS-108)
论文部分内容阅读
上下文是统计语言学中获取语言知识和解决自然语言处理中多种实际应用问题必须依靠的资源和基础。近年来基于字的词位标注的方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,当前字的词位标注需要借助于该字的上下文来确定。为克服仅凭主观经验给出猜测结果的不足,采用四词位标注集,使用条件随机场模型研究了词位标注汉语分词中上文和下文对分词性能的贡献情况,在国际汉语分词评测Bakeoff2005的PKU和MSRA两种语料上进行了封闭测试,采用分别表征上文和下文的特征模板集进行了对比实验,结果表明,下文对分词性能的贡献比上文的贡献高出13个百分点以上。
其他文献
多载波码分多址(MC-CDMA)系统的微小载频偏移将破坏子载波之间的正交性,恶化系统性能,因此需要载频偏移估计和补偿;各个载频偏移的最大似然估计是个多维的全局搜索过程,计算复杂。
首先对剪纸纹样进行R变换,求出峰值数,对R变换数据进行归一化处理,通过奇异值分解得到图像识别的特征向量,根据特征向量值和峰值数对剪纸纹样的识别。使用该方法提取到的特征向量具有平移、旋转和尺度不变性,能较好地识别有一定艺术夸张变形的剪纸纹样。
根据生物入侵的思想,将入侵的概念引入到遗传算法中,提出了一种新的基于动态入侵自适应遗传算法。在选择操作结束后,根据当前的种群类型自适应调整入侵率;根据种群所属的种群类型
模糊C均值算法在进行关键帧提取时难以取得全局最优值,导致所提取的关键帧无法完整地描述镜头信息。提出一种基于自分裂竞争学习(SSCL)的关键帧提取方法,根据SSCL的分裂机制确定全局最优类数目的特点来确定关键帧的数量,同时根据SSCL的竞争学习机制有效确定类中心的特点来确定准确的帧图像作为视频的关键帧。实验证明基于SSCL的关键帧提取的方法比基于模糊C均值关键帧提取的方法能够更好地描述镜头内容。
雷击灾害是造成输电线路跳闸,破坏电力系统安全可靠供电的主要原因之一。本文在深入研究各种输电线路雷击跳闸率计算方法的基础上,提出了输电线路反击分析模型,利用ATP/EMTP电磁
针对OFMDA解码-转发中继系统的资源分配问题,提出了一种以系统总功率和用户间的数据速率比例公平为约束条件,以最大化系统总速率为目标的资源分配算法。该资源分配问题为非线性
提出周期为2pn的二元序列k-错线性复杂度曲线的一个快速算法,这里2是模p2的一个本原根,该算法推广了计算周期2pn的二元序列线性复杂度和k-错线性复杂度的快速算法。
针对不相容决策表中一些属性约简算法的不足,结合粗糙集的代数观与信息观的优点,对差别矩阵加以改进,提出了一种新的属性约简算法,该算法在保证约简后决策表的正域和条件信息
理论上已经证明PSO算法用所有微粒的当前位置与全体最好位置相同时算法停止作为收敛准则是有缺陷的,不能保证全局收敛。而已经证明模拟退火算法依概率1收敛于全局最优解集,因此
采用密度泛函理论研究了CO2、N2、H2O、二氯甲烷和三氯甲烷在A520中的吸附位点、吸附构型和吸附能。结果表明,A520中气体的吸附位点主要有两类,对不同的气体有不同的吸附构型