基于互信息的中文新词发现算法研究及系统实现

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:liwenwu042
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网高速发展的今天,人们习惯于通过网络来发表一些言论,舆论传播速度不断加快,影响力度也不断增强,于是有关舆情监控的产品在市场上竞相涌现。而随着时代的发展,人们的语言也在慢慢发生着变化,在网络中会有一些潮流新语诞生,在特定领域也会有一些专用术语或固定表达不断产生,这些频繁出现的新词,不仅对现有的自动分词技术带来挑战,也对舆情热点分析、网络文本挖掘、情感分析等带来重要的影响,中文新词发现研究日益得到重视。近年来,很多学者或研究机构在新词识别这一领域做了许多工作,但目前在中文新词的识别中,新词识别的准确率并不是很高。影响现有算法准确率的关键问题在于高频垃圾词串的识别,由于现有的统计方法无法对其进行区分,故语义是一个很好的切入点。本文拟对中文新词提取进行研究,利用网络爬虫获取微博、新闻等构建语料库,对文本采用从左至右的方式切割语料形成子串,使用其进行模型训练,再对子串过滤筛选形成候选词,最终根据相应指标识别出新词。本文采用的方法是在现有根据互信息、左右信息熵、词频等统计信息进行的无监督新词发现算法基础上,结合语义层面做进一步改进,凝练出筛选新词的新指标。通过实验表明,本文提出的算法在准确率上有较好的提升,是一种无监督、准确率较高、能适用于较小规模数据的算法,且满足实际生产需要。同时,在改进新词发现算法的基础之上,设计并实现了舆情系统,并在系统架构层面有所改进,使其可以支持海量数据的实时检索与分析,提高数据分析的准确性。图22幅,表6个,参考文献32篇。
其他文献
本文对杭州市西湖风景名胜区防火林带营造技术,包括树种选择,山脊线、游步道、林权分界线、林茶林田交界地、文物景点、村庄和建筑物周围的防火林带的造林图式,提出了探索性
收缩徐变作用导致混凝土叠合梁挠度增加,从而影响构件的力学性能。为了研究收缩徐变作用下混凝土叠合梁挠度增加规律,建立了收缩徐变作用下混凝土叠合梁挠度计算方法,与数值
研究了在均相催化丙烯二聚合成四甲基乙烯(DMB-2)反应中,Ziegier型均相催化剂的组成对反应活性与选择性的影响,实验确定了均相催化剂组成为氯化镍、三乙基铝、三异丙基膦、五氯苯酚和异戊二烯
在中国现代文学史上,闻一多(1899-1949是以新诗创作和新诗理论研究著称于世的.但应该指出的是,闻一多还是一位杰出的古典文学批评家.从1928年8月发表<杜甫>,到1946年6月11日<
高等教育不断改革的背景下,高校教师面临着巨大的工作压力,其职业倦怠成为近年来值得关注的现象。通过对20名高校教师进行访谈,基于工作要求-资源模型,采用扎根理论构建出高
提出一步法由棉业油酸甲酯与二乙醇胺缩合高选择地合成棉籽油酸二乙醇酰妥的工艺。适宜的一步法工艺条件是:0.7%KOH、70℃、稍减压、反应2h。实验室制备的1:1.6型棉籽油酸二乙醇酰胺接近椰子油
在我国的政治体制下,国内商业银行被赋予不同的属性,且每一类银行都承担着一定的社会责任,易受监管制度的影响,政策性强。因此对于不同性质的银行来说,什么样的股权结构是最佳的,答案可能并不唯一。农村商业银行作为农村金融体系中的主体,凭借其覆盖面广、网点机构数量众多和各项惠农支小政策,承担着支持“三农”发展的重要使命。国内农村金融体制改革成功的关键之一是农商银行有效运行。以往的农信社自进入农村商业银行转型
通过土壤全氮、速效磷和速效钾的测定和竹笋产量的调查,发现①浙江湖州市毛竹笋用林土壤的全氮和速效磷供应水平相对于农业土壤来说是比较低的,故通过施用氮肥和磷肥,竹笋的
随着新课程改革的不断深入,小学品德与社会新课程标准倡导的“主体活动性教学”理念已被广大教师普遍接受,给品德与社会课堂教学带来了生机和活力。但是,伴随而来的问题也逐步出
首次从可食勾儿茶果中提取一种新的食用色素,有酸性乙醇水溶液提取时,提取率为8.44%。色素的理化性质实验表明:PH值不同,色素吸收光谱不同;PH=3时色素最大吸收波长为520nm,并有一定的耐光性及耐热性