网络舆情监控中新词识别问题的研究

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:yy030412
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在网络舆情监控中,由于事件的突发性和网络词汇的泛滥,各种各样的新兴词汇以及新的字符串大量涌现,而有穷的分词词典对新词的识别基本上无能为力,这些无法识别的字符串将被现有的分词系统分为零散的碎片,这将极大地影响热点词和主题词提取的准确性,成为网络舆情监控系统性能提升的瓶颈。文中分析了当前主要的几种分词技术的优缺点,利用网络舆情监控中未被词典收录的主题词的局部高频这一特性,通过计算异常分词与周围分词之间的粘结度,从而识别出未被词典收录的主题词。实验结果表明:所提出的分词算法能识别出未被词典收录的主题词,相比传统的分词算法,更加适合于网络舆情监控。
其他文献
采用固相萃取-气相色谱法同时检测全血中佐匹克隆、褪黑素、唑吡坦和扎来普隆4种新型安眠药。对目标物采用Oasis HLB固相萃取柱进行萃取,先后用去离子水、0.5%氨水-甲醇/水溶
目的 探讨HBVDNA复制和表达的跨种属特异性 ,为HBVDNA转染跨种属原代肝细胞模型的建立提供实践基础和理论依据。方法 分离培养原代鸭肝细胞 (PDH) ,电转线性HBVDNA(转染组
"己所不欲,勿施于人"是孔子提出的处理人际关系的基本准则,它已被世界公认为具有普世价值的道德金律。从法的视角看,"己所不欲,勿施于人"还蕴含着丰富而深刻的法理内涵,即尊
功能性胃肠病(FGIDs)是一组临床常见消化系统疾病,其病因和发病机制尚不完全清楚,目前认为主要与胃肠动力异常、内脏高敏感等有关。G蛋白是一类细胞内信号转导分子,可介导多
<正>文化大革命中的红卫兵究竟是些什么样的人,所谓的红卫兵运动到底是怎么回事?三十年过去了,这问题显然还没有确切可信的答案。虽然当年的数千万红卫兵至今健在,正当壮年,
"梅党"的所为,已经远远超出了普通意义上的"捧角儿",进而深化成了梅兰芳的策划人、制作人、经纪人、理财师、投资人、艺术顾问及导演。
进入2012年以来,电视剧《甄嬛传》在全国范围持续热播,占据了各地卫视的排名榜首,并在北京、上海等地创造了有史以来电视剧收视率的最高纪录。在《甄嬛传》中,权力甚至完全扭
<正>北宋末年,苏州建了个居养院。南宋淳熙五年,该居养院重建,规模宏大,有房300多间,有官民捐献的田地1660亩,募民耕种,每年可得租米700多石。院旁建有三个粮仓,开凿了三口水
文中介绍了Modbus RTU通讯协议的特点,阐述了该协议在VC2005编程环境下串口调试软件的具体实现方法。并编制了相关的程序,该程序采用了模块化思想,结构清晰,操作简便,实现了
5-羟色胺(5-HT)是重要的生物活性物质,参与体内多种生理和病理生理过程,与摄食、精神情绪、神经内分泌、心血管活动等密切相关。人体约95%的5-HT源自胃肠道,对胃肠运动和内脏