基于相码模型的汉字表征

来源 :科学技术与工程 | 被引量 : 0次 | 上传用户:cxx163252
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为解决汉语自然语言处理任务中未登录词问题,人们经常利用汉字的笔画、偏旁、拼音等细粒度特征提高模型的学习能力。为找出这类特征的最佳组合,通过统计方法研究了汉字的音节、起笔、偏旁、声调、词频、笔画数等特征,提出一种可融合多种汉字特征的跨象限助记符映射模型,即相码模型,该模型可自动实现中文字、词与字母编码间的可逆映射。在字符级模型的文本分类实验中,效果理想。此外,模型生成的编码长度适中,保留了可读特性,可用于特殊场合的文本标注,也能为中文文本提供等量的平行语料数据。可见,相码模型是自然语言处理中一个较好的辅助模
其他文献
陈峰系全国老中医药专家学术经验继承工作指导老师、浙江省名中医。陈师守正创新、勤于临床,临证时重视针术取穴、腧穴配伍、针灸并用、针药结合,每每针拂疾去。笔者有幸侍诊
目的探讨正交鸟笼线圈与CTL脊柱线圈在颅脑扫描中的应用价值。方法采用MRI所配备的正交鸟笼头线圈和CTL脊柱线圈对标准ACR水模行轴位T_(1)FLAIR序列扫描,对每层图像的信噪比(
教师主体性的发展对教学的发挥具有重要的作用。新课程改革取得了一些显著的成效,但也出现了教师主体性缺失的问题。针对教师主体性缺失的表现,分析了原因并提出教师主体性回
在解释司法审查概念的基础上详细阐述了高校与学生的法律关系,并提出了完善高校司法审查的五点措施:增强法律知识;健全司法制度;更新管理理念;规范管理权力;完善管理秩序。
高新技术及高新技术产业已经成为我国社会主义市场经济的重要组成部分,高新技术及高新技术产业的发展要求相应的立法规范。当前国外高新技术产业立法的成功经验为我国提供了宝
在网络已经完全融入大学校园的时代,网络文化也在蓬勃发展。本文通过一些校园网络文化现象的透析,揭示了当代一些大学生的社会心理,同时提出了一些关于大学生思想教育的思路和方
为了准确检测轴承在生产加工过程中出现的滚动体漏装等缺陷,提出了基于预测匹配差与全局-局部阈值化的轴承缺陷检测与定位算法,完成滚动体缺失、破损检测与定位。首先,引入分段线性图像增强技术,扩大滚动体与轴承背景的对比度;其次,综合全局与局部阈值化方法,结合种子填充技术,对轴承进行连通边缘标记;再设计一种圆验证机制,将轴承中的非圆边缘滤除,以提取滚动体的ROI区域,缩小了目标检测范围,提高滚动体缺陷的检测
以目前高校并行的两种绩效考评方式为例,对考评目标考评技术和考评结果导向等方面的偏差进行了认真的分析,并指出了其偏差的危害性,为进一步完善高校教师绩效考评工作提供了参考
通过顶空固相微萃取结合气相色谱-质谱鉴定Lager啤酒中挥发物,并利用主成分分析、偏最小二乘-判别分析(partial least squares-discrimination analysis,PLS-DA)法及随机森林
以某可靠性试验台用异步伺服电机安装平台为研究对象,拟对其动态特性开展研究。利用ANSYS软件建立安装平台结构有限元模型,对结构在不同预应力状态下的模态进行仿真,确定不同