论网络舆情监测系统中关键词智能追踪模型的建立

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户:liulg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:本通过分析舆情信息采集策略,提出智能化的关键词追踪模型,通过关键词智能追踪模型的应用,网络舆情监测系统能及时抓取热点事件的热点关键词,从而实现网络舆情监控系统对热点事件发展趋势的灵敏响应,并为网络舆情热点事件的预警提供数据支持。简单来说关键词智能追踪模型就是以一定的关键词权重算法为基础,依据舆情事件变化速度,通过多次的反复的归纳计算,对之前选取的关键词进行修改、调整和校对的过程。
  关键词:网络舆情监测;关键词;智能追踪
  中图分类号:TP393.09
  1 舆情采集与分析
  1.1 信息采集
  根据互联网中热点分布特征,在进行信息采集时,系统针对时效性强的主流媒体网站进行信息采集,信息来源可靠性高、实时性好,信息采集量小,分析处理速度快,热点分析速度快、准确率高,预警及时。合理利用主流媒体网站的搜索引擎,进行基于主题的信息采集。由于这些网站的分词技术参差不齐,为了保证信息采集的准确性和实时性,采用了二次搜索的方案。在基于主题的信息采集之前,对要采集的主题进行分词,根据分词的结果,先按照“大范围”的关键词进行采集并存储,对采集的结果再按照“小范围”的关键词进一步搜索,这样采集的信息准确率高。
  1.2 信息预处理
  网页上面除了系统所需要的舆情信息之外还包括很多其他信息,如:Flash、视频、图片、广告和冗余链接等。在过滤掉这些垃圾信息之后,还需要对相同话题的舆情信息进行话题合并,也就是去重。并根据系统的规范将舆情统一存储为下一步数据分析挖掘打下基础。信息预处理主要包包括:主题关键字抽取、正文关键信息提取、自动摘要、超链接分析、URL去重、垃圾信息过滤等工作。
  1.3 舆情分析
  (1)舆情自动分类。舆情信息的自动分类也就是文本分类。就是在指定的分类模型下,让计算机自动识别舆情信息的内容并划分舆情类别的过程。舆情自动分类首先设置类别关键词,为每一个关键词都设置一个相应的权值。对采集到的舆情信息进行最基础的分析扫描。分别对标题和内容进行扫描,统计分析的关键词出现的次数,最后根据类别关键字模型对每个关键字进行权值统计。权值超过一定分值的将其自动划入对应的分类。
  (2)舆情相似性排重。根据舆情信息主要内容的相似度来决定是否为重,比其他方法有更强的实用性和准确性。通过分词技术对舆情关键字进行比较计算,得出舆情的相似度,并设置相似度高阀值,超过阀值的确认为重,与原来的主题进行合并,且无需再进行任何操作。合并后再加入人工再确认环节,以确保排重万无一失。
  (3)倾向性分析技术。倾向性分析就是用程序根据舆情中的关键字提炼出信息发布所要表达的意图。首先根据中文的特点,设置一个语义库。再将舆情信息中包含特征关键词与语义库进行对比进行语义分析,最后根据结果决定舆情事件的倾向性。对倾向性分析可以明确发布者所要表达的观点和立场。
  2 舆情关键词提取
  2.1 单文档关键词提取
  提取关键词之前,首先对文档进行分词处理,然后利用停用词表和过滤规则对分词结果进行过滤,停用词表中包括助词、介词、连词等虚词以及词语长度为1的无实际含义的词。对于明显的无用词,如数词与量词、无意义的前后缀等,可设计相应的过滤功能对无用词进行过滤。然后对过滤后的分词结果进行权值计算,得到每个词的权重。
  2.2 关键词权值计算
  文本关键词提取较多基于权值向量生成方法,其中最常用的就是TFIDF算法,TFIDF的主要思想是如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力(IDF值大),适合用来分类。但是每个词除了包括TF和IDF外,还有词性、词在文档位置信息等有效信息。
  2.3 文档集热点关键词提取
  文档集的热点关键词应该是某些文档的关键词,所以以所有文档关键词集建立候选关键词集,进行特征抽取,获得文档集关键词。如果一个关键词出现的次数越多,就证明其受热点关注的程度就越高;IDF值越大,说明词的区分能力强,更符合主题的特点。
  3 关键词的智能追踪
  3.1 话题聚类
  考虑到不同网站的权威性、影响力和热点时效性等特点,对采集到的话题以其来源权重为第一要素,发表时间为第二要素,以权重和时间降序排序。
  首先默认一个关键词代表一个热点话题,然后对这些热点话题进行凝聚聚类。以关键词集中的第一个关键词作为第一个热点话题线索,以此关键词查找文章关键词进行聚类,以搜到第一篇文档默认作为热点话题,然后对其余的页面文本进行聚类,采用夹角余弦值计算本话题与已有热点话题的相似度,若相似度超过阈值P则将当前话题合并到已有话题中,若相似度小于阈值P则将当前话题当作一个新的热点话题。然后以关键词集中第二个关键词对剩余页面进行聚类。算法迭代执行,直到待分析的页面处理完或达到设定的话题个数为止。
  3.2 智能追踪模型
  参考文献:
  [1]李恒训,张华平,秦鹏.基于主题词的网络热点话题发现[C].第五届全国信息检索学术会议论文集,北京,2009:134-143.
  [2]张寿华,刘振鹏.网络舆情热点话题聚类方法研究[J].小型微型计算机系统,2013(3):18-19.
  作者简介:张伟佳(1982-),女,硕士,讲师,研究方向:计算机技术。
  作者单位:河北大学,河北保定 071000
其他文献
【正】 严中丞枉驾见过地分南北任浮萍《集注》引洙曰:“谓长安有南杜北杜也。”又引赵曰:“公自言也。自蜀望长安,则长安为北,而蜀为南也。”傅卿引赵说而以洙解为非。金圣
【正】 忧患,即对天灾人祸的忧虑,人皆有之。而忧患意识,则有着深刻而丰富的内涵。它是人的生命忧患的觉醒,是人的生命意志的顽强表现。人意识到死必然追求生,而生之满足只是
选择一种最为合适的知识表示对于多数通过知识处理的智能化应用来说极为重要,不过,由于缺乏一套较为普遍且有效的评判准则,很多情况下都是以经验来判断,所以,选择合适的方法
为了使普通高校女生在短时间内更快、更好地掌握行进间单手肩上投篮技术,采用了数理统计法、实验对比法对普通高校女生行进间单手肩上投篮教学方法进行了改革实验尝试,教学中收
随着计算机网络技术、多媒体技术的发展,使得远程交互式网络教学成为可能。“数据库原理”作为计算机专业必修的一门重要的专业基础课程,具有内容繁多、概念性强等特点,不易
软土地基种类很多,施工要结合岩土实际地基情况,进行有效处理,将工程实践中的不可控性降到最低,实现工程效益最大化。
导语:国外媒体近日撰文称,随着云计算技术的发展,数年更新一次的盒装软件模式已经越来越难以满足用户的需求,所以各大企业都开始转而以网络服务的方式提供软件功能,就连一直以
摘要:本文以IPV6校园网建设为研究对象,首先针对校园网建设过程中IPV6技术的应用进行了简要分析,在此基础之上详细分析了IPV6校园网建设中的部署方式,希望能够为高校IPV6校园网建设实践的开展提供一定的意见与建议。  关键词:IPV6;校园网;技术;部署;建设;分析  中图分类号:TP393 文献标识码:A 文章编号:1007-9599 (2013) 01-0059-02  既有校园网建设建立
为观察研究脱位在治疗骶髂关节炎中的作用、实际操作运用和临床价值,对收治的骶髂骨折、脱位的患者进行钢板的固定治疗和恢复,其中钢板的固定形式为后路双钢板式,对治疗组进行骶
脑梗塞在我国具有较高的发病率,且此类病症的致残及致死率也相对较高。动脉硬化及具有高血压\糖尿病病史的患者,脑梗塞的发病率也会相对较高。临床上此类疾病多采用西药治疗,但有