基于统计的汉语意见文本校对系统设计与实现

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户：canghaiyuemenglong

【摘要】

：

随着近年来Web2.0技术和社交媒体的快速发展，网络中出现大量的产品意见文本。同正规的新闻文本相比，产品意见文本书写自由，存在大量的错别字、标点误用和谐音等病态输入现象，由于

【作者】

：

李柏玲

【出处】

：

黑龙江大学

【发表日期】

：

2014年期

【关键词】

：

意见挖掘错别字校对标点校对 CRF序列标注

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着近年来Web2.0技术和社交媒体的快速发展，网络中出现大量的产品意见文本。同正规的新闻文本相比，产品意见文本书写自由，存在大量的错别字、标点误用和谐音等病态输入现象，由于这些不规范的语言行为的存在，严重影响了后续的意见挖掘工作的效果。如何去掉这些非正规描述或噪声信息已成为产品意见文本分析亟待解决的一个重要课题。本文在深入分析汉语产品意见文本特点的基础上，在统计方法框架下，从标点符号和错别字校对两个方面探索汉语意见文本校对问题，以提高意见文本的可读性和规范性，进而为后续的意见挖掘打下良好的基础。具体地，本文的主要工作包括以下两个方面：(1)针对产品意见文本中存在的标点错误，本文在融合多级别语言特征进行CRF序列标注的基础之上，融合原文标点信息，设计并实现一个基于标点位置预测的三阶段的汉语标点校对系统。实验结果表明，引入原文标点信息有利于标点纠错性能的提高。(2)针对产品意见文本中存在的错别字，本文深入分析了错别字与其正确形式之间的潜在联系，重点探索了汉字录入过程中错别字的形成原因。在此基础上，提出了一种基于汉字‐拼音‐汉字转换的错别字纠正方法。实验结果表明，探究错别字读音上的特点对错别字校对存在积极作用。

其他文献

关于世界现代史时代特征的思考

文章从人类社会生活、资本主义制度、世界格局及思想文化几方面,宏观阐述了20世纪前半叶这一过渡时期世界调整与变化的时代特征.

期刊

法西斯殖民帝国经济危机时代特征国家干预经济凡尔赛

河流相油田水平井着陆技术研究及应用——以渤海Q油田为例

水平井以最佳的井斜角和入层深度着陆中完是实现目标产能的关键和基础保障,但由于河流相油田储集层具有横向变化大、油水关系复杂、油藏类型多样等特点,储集层特征难以准确刻

期刊

水平井着陆储集层模型邻井优选着陆原则夹层识别

共享经济时代人力资源管理的创新研究

目前,我国是社会经济迅猛发展的新时期,伴随着共享经济的深度发展,所带来的深刻影响已经从生活领域延伸至社会生产、商业发展等方面。文章以此为背景,研究了共享经济的发展背

期刊

共享经济人力资源管理资源配置

浅析单通道相关干涉仪的设计特点

1概述在广播电视信号监测业务中，无线电测向是一种重要的技术手段，它对于跟踪、定位无线电干扰源，查找、监控非组织无线电信号和广播电视违章节目起着重要的作用。

期刊

相关干涉仪设计特点单通道无线电测向电视信号监测广播电视无线电信号干扰源

矿物种类对微生物利用木质素形成细胞代谢产物及矿物-菌体残留物的特性影响

微生物驱动下的木质素降解与腐殖质形成关系密切,然而在真实土壤环境中腐殖化进程无法摆脱矿物的参与,为探索矿物对于木质素参与腐殖化进程的影响机制,文章采用液体摇瓶培养

期刊

矿物微生物木质素矿物-菌体残留物细胞代谢产物

行政体制改革的新思路——行政职能分离模式创新

在西方各国普遍开展以市场、参与、放松内部规制为指导的行政改革的大背景下，我国的行政体制改革也可以依据将政府行政管理的决策职能、执行职能和监督职能适度分离的方式，实现

期刊

行政改革体制创新职能分离

光纤针头座注塑模具设计

以牙科治疗机上最细一款的光纤针头座为例介绍其注塑模具设计过程,包括型腔数及模架确定、浇注系统设计、抽芯方式确定、冷却及推出方式确定,重点探讨了成型直径0.26 mm微孔

期刊

光纤针头座注塑模具微孔定位精度尺寸公差

河北省无管局各派出机构举行新名称挂牌仪式

10月11日至12月2日，河北省无线电管理局各派出机构——张家口、承德、秦皇岛、唐山、廊坊、保定、石家庄、邢台、邯郸、沧州、衡水无线电管理局分别举行了新机构名称挂牌仪式

期刊

机构名称河北省挂牌无线电管理局张家口秦皇岛石家庄局长

人工智能对新闻业的影响及思考

人工智能与多种技术形成的新型交叉技术已经广泛地应用于移动互联网、金融、安防等多个行业中。新闻业也在进一步推动与人工智能技术的融合,同时,人工智能对新闻行业带来了前

期刊

人工智能AI新闻业新闻生产

一切为了地震灾区

2008年5月12日，四川汶川发生里氏8．O级特大地震，地震夺走了我们数万同胞的生命，毁坏了数十万人的家园。从地震发生的那一刻开始，部无线电管理局就立即行动起来，认真落实党中央、国

期刊

地震灾区无线电管理局地震发生应急指挥大地震国务院信息化汶川

基于统计的汉语意见文本校对系统设计与实现

与本文相关的学术论文