面向社会媒体的中文文本校对方法研究与实现

被引量 : 0次 | 上传用户:zj5536
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0技术和社会媒体的高速发展,人们以网络为媒介,在各类社会媒体中自由发表言论。同正规的新闻文本相比,用户生成的社会媒体文本存在大量的错别字、谐音词语等病态输入或非标准的表述形式。如何准确地识别并纠正这些非标准表达已成为面向社会媒体的自然语言处理相关研究面临的一个重要挑战。本文在深入分析社会媒体文本中存在的错别字和谐音词语的分类及其分布基础上,分别采用统计语言模型和语义相似度两种方法探索错别字校对和谐音词语校对问题,以提高文本的可读性和规范性,为后续的社会媒体研究工作打下良好的理论基础和应用基础。具体地,本文从以下两个方面展开研究:1.基于语言模型的社会媒体文本校对。错别字和谐音词语作为中文最常见的病态输入或非标准表述,大量存在于社会媒体文本中。本文采用基于音素和形近字表两种方法构造错别字正字候选,通过构建不同粒度的谐音还原知识库构造谐音还原候选集。然后,在N元语法模型的框架下,从错别字正字候选集和谐音词语还原候选集中进行语言解码,以确定相应的校对结果。实验结果表明,当训练语料规模足够大时,三元语言模型具有更准确的描述能力,采用三元新闻文本训练的语言模型进行语言解码工作有利于提高错别字和谐音词语校对性能。2.基于语义相似度的社会媒体文本校对问题。测试句子与校对后标准句子具有相同的语义信息,因此本文提出从语义角度出发,利用语义特征实现文本校对工作。首先,利用词嵌入模型从大量未标注的普通文本数据中无监督地学习出词向量。然后,获取候选词语及其上下文的词向量。最后,通过计算语义相似度选取最佳候选,实现错别字和谐音词语的校对工作。实验结果表明,基于语义相似度的方法对文本校对工作有效。
其他文献
伴随着智能手机和基础电信的推广,数据流量套餐捆绑的普及,互联网得到了更加快速的发展。腾讯公司推出的微信支持多平台,其目的是要促进人与人的沟通与交流。图书馆所面对的
余甘子(phyllanthusemblical)营养丰富,含有多种对人体有益的活性物质。本文中通过查阅近年来研究余甘子的文献报道综述了余甘子的特性、营养成分、药理、作用及开发利用前景
培养学生的创新精神和解决问题的能力是当前教育的重点,而在当前中学物理教学过程中,部分学生却不能灵活运用所学的知识解决问题。究其原因,是建模能力有欠缺,物理学习离不开
随着信息时代的迅速发展,信息量飞速增长,图书馆存储的信息资源数量及种类也越来越多,数字图书馆的蓬勃发展使得各种信息资源通过网络提供给用户,带给用户便捷的信息服务。然
本文从区域整合的视角分析了旅游目的地营销系统的功能特征。以大连旅游网为例 ,从目标—对象—结构—功能这一思路对旅游目的地营销系统作了详细的分析 ,认为目的地营销系统
对富铬污泥中铬的提取作了研究,确定了分离剂和提取剂的配方,选择了分离和提取铬的最佳工艺条件。将富铬污泥中的铬提取为Cr2(SO4)3,并将其应用于皮革工业中的一浴铬鞣。结果表
图书行业竞争愈加激烈,实体书店要走出目前所处的困境和发展自己,必须在保持自己以往优势的同时,应顺应市场发展的需要,以消费者为中心,不断满足消费者的需求,需要以4C理论为
随着城市化社区的飞速发展,人们对专业化物业管理模式和人性化物业管理服务的要求逐年增高。社区生活与每个人息息相关,良好的社区人文、自然环境对提高人们生活水平起积极作
在现今的大都市生活里,人们的物质生活水平越来越高,优越的生活条件让孩子们在吃穿住行上从来不会亏欠到,并且都足够的幸福。唯独在玩儿这一方面上家长还是不够重视。如今对
提高税务文化建设实效性,不仅有利于促进税务干部提升素质、全面发展,推动税收工作顺利开展、规范运行,还有利于促进征纳和谐与社会和谐。但当前很多基层税务部门的税务文化