基于特征识别与实证分析的热点事件识别技术研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:qiansujiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络热点事件反映了社会动态、民生意愿,受到社会各界广泛关注,但是新闻门户网站中存在大量冗余的信息,人工的方式难以有效获取网络热点事件相关信息,且部分网络热点事件爆发迅速、影响巨大,人们需要及时了解事件发展态势。因此人们需要计算机能够在大量的新闻信息中自动发现网络热点事件,甚至在网络事件的早期对热点事件进行识别。网络热点事件识别技术受到研究者们的广泛关注,很多研究者使用不同的文本表示模型提升了热点事件识别的效果,根据已发生事件和新发生事件之间的相似性预测新发生事件的热度。但是在新闻领域中,提升网络热点事件识别效率的研究较少,网络热点事件早期识别方法的研究还有所欠缺。本文实证分析网络热点事件特征及网络事件早期特征,基于网络热点事件特征改进文本表示方法从而提升网络热点事件的识别效率,同时基于网络事件早期特征提出网络热点事件早期识别方法。本文的研究内容及贡献如下所示:(1)提出了KSSP网络热点事件识别方法。本文基于多源新闻爬虫系统采集的新闻数据,实证分析了网络热点事件的特征。研究发现网络热点事件讨论的话题不止一个,在话题偏移的过程中,新话题的部分文本会在文本的开头对其他话题进行简短的阐述。根据这一特征,本文创新性地使用关键词集及相关话题词集形式化表示新闻文本,降低了新闻文本表示的复杂性,根据新的文本表示方法改进了Single-Pass算法,提出了KSSP网络热点事件识别方法。实验结果表明,本文提出的KSSP网络热点事件识别方法在保证了网络热点事件识别效果的同时,提升了识别的效率且具有较好的稳定性。(2)提出了基于网络事件早期特征的热点事件早期识别方法。首先,本文实证研究了网络热点事件的生命周期特征,根据舆论影响可接受程度,合理定义了网络事件的早期。其次,实证研究了新闻媒体和互联网用户在网络热点事件上表现特征,提取了新闻数、评论数、媒体关注度等9个网络事件的早期特征,提出了基于网络事件早期特征的热点事件早期识别方法。最后,通过实验证明了该方法的有效性。(3)结合本文研究的网络热点事件的识别方法,本人开发了基于大规模新闻数据的舆情定制系统。本文研究的网络热点事件识别方法是该系统开发的关键所在,系统识别出的网络热点事件为情感分析、事件热度周期分析和相关关系识别等功能提供了数据支持。本文提出的KSSP网络热点事件识别方法,在保证识别效果的同时提升了识别的效率,且具有一定的稳定性;同时,本文提取新闻领域网络事件早期特征,提出了能够在事件早期有效识别热点事件的新方法。因此本文的研究能够为新闻领域的热点事件发现与追踪提供理论和技术上的支持。
其他文献
由于电力行业的蓬勃发展,国家电网近年来利润持续上升,资金持有量也十分巨大。资金的管理水平决定着企业发展能力,因此近年来全国各省、市公司不断提高资金集中管理水平,为公司的稳定经营和长远发展奠定基础。但是由于我国各省、市发展水平参差不齐,近年来国家电网系统内部资金安全事故频发。本文主要研究在保障国家电网资金管理统一要求在各地市公司落地的同时,资金集中管理实践过程中存在的问题,并提出相应的建议,作为参考
近年来,快递业呈现高速发展的态势,行业内的竞争形势也愈加严酷,更多的快递企业加速推动资源和资金、市场和客户的整合进度,以占领资本市场完成融资来满足资金缺口。由于快递企业普遍具有重资产缺乏、毛利率低下的特点,其直接上市往往难度较大,不易成功。近年来一些快递企业纷纷采取借壳上市的方式来实现上市融资,那些先登陆资本市场的快递企业便能获得资金优势而得以更好地发展。事实上,借壳上市的方式有着效率较高、周期较
汉语缩略语是当代汉语词汇研究中成果颇丰的一个课题,公文中的数字缩略语是近年来演变较为显著的一种语言现象。但专注于研究公文中数字缩略语,或将公文与数字缩略语结合起来进行研究的专著或论文则为数不多。本项研究在综述前人研究成果的基础上,以1978-2018年共计40篇国务院政府工作报告、2000-2018年共计18篇广东省人民政府工作报告、2000-2018年共计18篇广州市政府工作报告作为语料库,提取
自上个世纪九十年代以来,产业在空间上的集聚提高了要素的生产率,进而带动了国民经济的增长,成为产业发展、经济发展的重要推动力。因此,相关的研究也引起了业界和学界的广泛重视。其中一个关键性的问题,就是如何精准地测度产业集聚的水平。从早期的GINI系数、Herfindal指数到后来发展起来基于地理信息的DO指数、M函数,测度的精度越来越高。然后一些方法仍存在不足,比如M函数法在测度集聚趋势时,由于没有扣
随着工业互联网的快速发展,工业制造体系慢慢发生了改变,对工业生产线的信息系统及其应用进行研究具有重要意义。本文结合制造业新型通讯技术以及当前市场对个性化定制产品服务的需求,研究将OPC UA(OPC Unified Architecture,OPC统一架构)技术应用于小规模个性化定制生产线,主要研究内容如下:(1)提出一种适用于小规模个性化定制生产线信息系统的OPC UA架构,研究并实现了基于OP
随着“制造强国”等战略的出台,我国工业设备逐步趋于系统化、复杂化,其故障的发生方式也变得更加复杂多样。而滚动轴承作为机械中最常见、也最易损坏的零件之一,若其发生故障,可能导致机件断裂、传动装置失灵等情况,进而导致生产的停滞,造成难以估计的损失,甚至会导致严重安全事故。因此,对滚动轴承的运行特征、故障类型、发生部位、受损程度等维度进行诊断与预测,成为目前研究的热点之一。工业设备的运行作为一个非线性系
随着房地产市场飞速发展,住宅专项维修资金(以下简称住维资金)作为住房的“养老金”,是保障业主安居乐业和社会和谐稳定的有效手段。住维资金制度的发展和完善,对房地产业的发展起到非常重要的作用,影响着广大人民群众的切身利益,也越来越引发社会各界的广泛关注。本论文通过研究C市B区住维资金的政府规制,针对该区住维资金规制上存在的申请使用难、续存和补缴难、保值增值率低、管理不够透明以及公众参与度低等多方面问题
宽带盲源分离是指在源信号为宽带信号,源信号及传输信道各种参数均未知的情况下,仅根据观测信号自身特性恢复出源信号的过程。现有针对宽带信号的盲分离算法不完善,可以采用宽带盲波束形成解决宽带盲分离问题。宽带盲波束形成指在信号来向和阵列流行不知道的情况下,仅通过自身算法,即可有效实现空域滤波,实现期望信号的提取。因此,本文主要研究基于盲波束形成的宽带盲分离算法及其应用,主要研究内容如下:1、针对传统盲分离
丁澎,明末清初浙江仁和文人,字飞涛,号药园。生于明末天启二年(1622年),为崇祯壬午年(1642年)举人,入清后,于顺治十二年(1655年)中进士,官礼部主客司,历升仪制司员外郎,顺治十四年(1657年)奉旨典试河南为副主考,因循旧制,用墨笔于考生硃卷上改易数字,有违科场新例,被贬辽东五载,多得兄弟亲友经济其家。著有《扶荔堂诗稿》、《扶荔堂诗集选》、《扶荔堂文集选》和《扶荔词》等。本论文主要围绕
以研发一种新型、高效、节能、环保的冷芯盒制芯材料及其在缸体铸件砂芯上应用为目标,使其满足既具有优异的工艺性,又能适合绿色、环保的铸造生产大批量制芯的需求。论文研究取得以下成果:(1)优化了酚醛树脂本体合成工艺确定最佳的工艺参数和原材料配比,得到了具有较高强度的甲阶酚醛树脂本体。采用分段升温等工艺方式,以Na OH为催化剂,由甲醛和苯酚等材料在碱性催化剂作用下通过缩合反应获得/制备。技术参数为:Na