【摘 要】
:
随着互联网技术的发展和移动通讯工具的普及以及微信、微博等社交平台的广泛应用,以提高交流效率或者表达某种情感为目的的、采用包含有自创、缩略词语、特定符号及其独立或者
论文部分内容阅读
随着互联网技术的发展和移动通讯工具的普及以及微信、微博等社交平台的广泛应用,以提高交流效率或者表达某种情感为目的的、采用包含有自创、缩略词语、特定符号及其独立或者相互交叉组成的的网络文本应运而生;这类文本中被不同年龄段、行业及具有不同的阅历及知识背景网民所频繁的使用和广泛传播的词语、符号及其组合被称为网络语言,其大多反映的是社会热点话题和广泛社会生活现状。将网络语言中的网络新词及颜文字进行快速有效的发现识别、标识含义及并入词集,对信息处理系统在面向网络文本、网络语言进行处理时,对提高语义整体理解、社会热点分析及用户情感表达,互联网监控、企业决策和社会学研究都有重要的意义。 论文首先对微博语料进行预处理并分词得到“散串”语料;然后,基于候选词内部组成结构,通过采用互信息统计模型向候选词内部组成元素右邻元扩展统计的方法建立了候选词集;向右邻元扩展统计的措施解决了基于互信息统计模型用于新词发现时只能统计两组成元素的局限性,同时规避了影响新词发现研究准确性能的N元重叠问题;依据语料文本短小,候选词外部位置特征及行文规则,采用外部统计量制定了基于候选词外部邻接量过滤规则和计算方法,最终实现网络新词发现和识别。构建出了基于互信息模型向右邻元扩展统计+外部邻接量统计过滤的网络新词发现方法。 统计与分析了大规模已知颜文字的结构和符号组成特点,基于颜文字内部构造元素的耦合度、核心组成元素的左右邻结合度等信息进行统计识别;基于颜文字表达的人类面部特征元素进行匹配识别,并采用隐马尔可夫模型对整体识别结果做出了补充。 以新浪微博为原始语料,与传统互信息统计法及相关文献进行了对比分析,结果表明;对于新词发现,该方法比传统互信息统计法的整体获取新词数量多,召回率提高至61%、总体评价F值达到75%;比参考文献所提方法的召回率提高了4%、准确率提高了3%;对于颜文字识别,通过基于统计模型与基于面部特征模型的交叉补充,通过实验验证,可成功识别获取大部分的颜文字,在颜文字识别方面,召回率达到62%,验证了所研究方法的有效性。
其他文献
随着互联网技术和浏览器技术的快速发展,越来越多的桌面应用成功地转向了浏览器平台,但浏览器基于HTTP协议的特性,使得客户端和服务器端难以维持持久连接的状态。服务器推送
灾难现场危险的工作环境给人员搜救带来了极大的困难。随着计算机技术的发展,机器人技术得到了广泛的应用,如何将机器人应用于灾难现场的人员搜救工作是一个有重要研究意义的
无线传感器网络(Wireless Sensor Network, WSN)中的关键问题就是传感器节点能量的有限性,节能高效地使用节点能量是WSN面临的一大挑战。本文研究WSN中传感器节点能量高效控
车牌识别是智能交通系统中最关键的研究课题,有着广泛的应用前景,如交通道路监控、高速公路自动收费、停车场管理等。随着经济社会发展,机动车辆日益增加,对车辆进行安全管理
以往的生产调度一般是将产品按工件分解,加工和装配分别处理,但这些生产作业调度的算法主要适用于大批量相同产品的生产。当生产产品属于多品种小批量,特别是具有树状结构的单件产品时,将加工与装配分别处理,必然影响产品加工与装配内在的可并行处理关系,影响调度效果。因此本文研究的复杂产品加工和装配综合调度优化具有重要的理论和实际意义。表面上产品工艺树中最长路径上工序的加工时间和是产品完工时间的下界,事实上由于
机器翻译(Machine Translation,MT)是指用计算机自动地将一种源自然语言,翻译成用户需要的目标自然语言,在本课题中即是将蒙古语翻译成为汉语。机器翻译作为自然语言信息处理
电子化量身定制服装eMTM (Electronic Made to Measure)是21世纪新兴的一种服装生产方式,它利用现代三维人体扫描技术、计算机技术和网络技术将eMTM系统中三维虚拟人台生成、
数据挖掘是近年来热门的计算机应用技术,聚类是数据挖掘中重要的研究分支。聚类技术是将未分类的样本,通过其相似度进行分类,使得类簇内部样本间相似度最大,而不同类簇间相似
近几年,对象提取成为计算机视觉领域一个重要的研究方向,为准确估计出图像中的对象或部分,对象检测、对象识别等各种操作方法层出不穷。如今多数方法一般是在单幅图像中针对
在软件生产领域中,系统需求分析是软件生产的基础,业务模型应当与系统需求保持一致才能保证软件质量。对于业务模型如何根据需求的变化而快速和正确的修改,已经成为软件领域