论文部分内容阅读
摘 要:本通过分析舆情信息采集策略,提出智能化的关键词追踪模型,通过关键词智能追踪模型的应用,网络舆情监测系统能及时抓取热点事件的热点关键词,从而实现网络舆情监控系统对热点事件发展趋势的灵敏响应,并为网络舆情热点事件的预警提供数据支持。简单来说关键词智能追踪模型就是以一定的关键词权重算法为基础,依据舆情事件变化速度,通过多次的反复的归纳计算,对之前选取的关键词进行修改、调整和校对的过程。
关键词:网络舆情监测;关键词;智能追踪
中图分类号:TP393.09
1 舆情采集与分析
1.1 信息采集
根据互联网中热点分布特征,在进行信息采集时,系统针对时效性强的主流媒体网站进行信息采集,信息来源可靠性高、实时性好,信息采集量小,分析处理速度快,热点分析速度快、准确率高,预警及时。合理利用主流媒体网站的搜索引擎,进行基于主题的信息采集。由于这些网站的分词技术参差不齐,为了保证信息采集的准确性和实时性,采用了二次搜索的方案。在基于主题的信息采集之前,对要采集的主题进行分词,根据分词的结果,先按照“大范围”的关键词进行采集并存储,对采集的结果再按照“小范围”的关键词进一步搜索,这样采集的信息准确率高。
1.2 信息预处理
网页上面除了系统所需要的舆情信息之外还包括很多其他信息,如:Flash、视频、图片、广告和冗余链接等。在过滤掉这些垃圾信息之后,还需要对相同话题的舆情信息进行话题合并,也就是去重。并根据系统的规范将舆情统一存储为下一步数据分析挖掘打下基础。信息预处理主要包包括:主题关键字抽取、正文关键信息提取、自动摘要、超链接分析、URL去重、垃圾信息过滤等工作。
1.3 舆情分析
(1)舆情自动分类。舆情信息的自动分类也就是文本分类。就是在指定的分类模型下,让计算机自动识别舆情信息的内容并划分舆情类别的过程。舆情自动分类首先设置类别关键词,为每一个关键词都设置一个相应的权值。对采集到的舆情信息进行最基础的分析扫描。分别对标题和内容进行扫描,统计分析的关键词出现的次数,最后根据类别关键字模型对每个关键字进行权值统计。权值超过一定分值的将其自动划入对应的分类。
(2)舆情相似性排重。根据舆情信息主要内容的相似度来决定是否为重,比其他方法有更强的实用性和准确性。通过分词技术对舆情关键字进行比较计算,得出舆情的相似度,并设置相似度高阀值,超过阀值的确认为重,与原来的主题进行合并,且无需再进行任何操作。合并后再加入人工再确认环节,以确保排重万无一失。
(3)倾向性分析技术。倾向性分析就是用程序根据舆情中的关键字提炼出信息发布所要表达的意图。首先根据中文的特点,设置一个语义库。再将舆情信息中包含特征关键词与语义库进行对比进行语义分析,最后根据结果决定舆情事件的倾向性。对倾向性分析可以明确发布者所要表达的观点和立场。
2 舆情关键词提取
2.1 单文档关键词提取
提取关键词之前,首先对文档进行分词处理,然后利用停用词表和过滤规则对分词结果进行过滤,停用词表中包括助词、介词、连词等虚词以及词语长度为1的无实际含义的词。对于明显的无用词,如数词与量词、无意义的前后缀等,可设计相应的过滤功能对无用词进行过滤。然后对过滤后的分词结果进行权值计算,得到每个词的权重。
2.2 关键词权值计算
文本关键词提取较多基于权值向量生成方法,其中最常用的就是TFIDF算法,TFIDF的主要思想是如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力(IDF值大),适合用来分类。但是每个词除了包括TF和IDF外,还有词性、词在文档位置信息等有效信息。
2.3 文档集热点关键词提取
文档集的热点关键词应该是某些文档的关键词,所以以所有文档关键词集建立候选关键词集,进行特征抽取,获得文档集关键词。如果一个关键词出现的次数越多,就证明其受热点关注的程度就越高;IDF值越大,说明词的区分能力强,更符合主题的特点。
3 关键词的智能追踪
3.1 话题聚类
考虑到不同网站的权威性、影响力和热点时效性等特点,对采集到的话题以其来源权重为第一要素,发表时间为第二要素,以权重和时间降序排序。
首先默认一个关键词代表一个热点话题,然后对这些热点话题进行凝聚聚类。以关键词集中的第一个关键词作为第一个热点话题线索,以此关键词查找文章关键词进行聚类,以搜到第一篇文档默认作为热点话题,然后对其余的页面文本进行聚类,采用夹角余弦值计算本话题与已有热点话题的相似度,若相似度超过阈值P则将当前话题合并到已有话题中,若相似度小于阈值P则将当前话题当作一个新的热点话题。然后以关键词集中第二个关键词对剩余页面进行聚类。算法迭代执行,直到待分析的页面处理完或达到设定的话题个数为止。
3.2 智能追踪模型
参考文献:
[1]李恒训,张华平,秦鹏.基于主题词的网络热点话题发现[C].第五届全国信息检索学术会议论文集,北京,2009:134-143.
[2]张寿华,刘振鹏.网络舆情热点话题聚类方法研究[J].小型微型计算机系统,2013(3):18-19.
作者简介:张伟佳(1982-),女,硕士,讲师,研究方向:计算机技术。
作者单位:河北大学,河北保定 071000
关键词:网络舆情监测;关键词;智能追踪
中图分类号:TP393.09
1 舆情采集与分析
1.1 信息采集
根据互联网中热点分布特征,在进行信息采集时,系统针对时效性强的主流媒体网站进行信息采集,信息来源可靠性高、实时性好,信息采集量小,分析处理速度快,热点分析速度快、准确率高,预警及时。合理利用主流媒体网站的搜索引擎,进行基于主题的信息采集。由于这些网站的分词技术参差不齐,为了保证信息采集的准确性和实时性,采用了二次搜索的方案。在基于主题的信息采集之前,对要采集的主题进行分词,根据分词的结果,先按照“大范围”的关键词进行采集并存储,对采集的结果再按照“小范围”的关键词进一步搜索,这样采集的信息准确率高。
1.2 信息预处理
网页上面除了系统所需要的舆情信息之外还包括很多其他信息,如:Flash、视频、图片、广告和冗余链接等。在过滤掉这些垃圾信息之后,还需要对相同话题的舆情信息进行话题合并,也就是去重。并根据系统的规范将舆情统一存储为下一步数据分析挖掘打下基础。信息预处理主要包包括:主题关键字抽取、正文关键信息提取、自动摘要、超链接分析、URL去重、垃圾信息过滤等工作。
1.3 舆情分析
(1)舆情自动分类。舆情信息的自动分类也就是文本分类。就是在指定的分类模型下,让计算机自动识别舆情信息的内容并划分舆情类别的过程。舆情自动分类首先设置类别关键词,为每一个关键词都设置一个相应的权值。对采集到的舆情信息进行最基础的分析扫描。分别对标题和内容进行扫描,统计分析的关键词出现的次数,最后根据类别关键字模型对每个关键字进行权值统计。权值超过一定分值的将其自动划入对应的分类。
(2)舆情相似性排重。根据舆情信息主要内容的相似度来决定是否为重,比其他方法有更强的实用性和准确性。通过分词技术对舆情关键字进行比较计算,得出舆情的相似度,并设置相似度高阀值,超过阀值的确认为重,与原来的主题进行合并,且无需再进行任何操作。合并后再加入人工再确认环节,以确保排重万无一失。
(3)倾向性分析技术。倾向性分析就是用程序根据舆情中的关键字提炼出信息发布所要表达的意图。首先根据中文的特点,设置一个语义库。再将舆情信息中包含特征关键词与语义库进行对比进行语义分析,最后根据结果决定舆情事件的倾向性。对倾向性分析可以明确发布者所要表达的观点和立场。
2 舆情关键词提取
2.1 单文档关键词提取
提取关键词之前,首先对文档进行分词处理,然后利用停用词表和过滤规则对分词结果进行过滤,停用词表中包括助词、介词、连词等虚词以及词语长度为1的无实际含义的词。对于明显的无用词,如数词与量词、无意义的前后缀等,可设计相应的过滤功能对无用词进行过滤。然后对过滤后的分词结果进行权值计算,得到每个词的权重。
2.2 关键词权值计算
文本关键词提取较多基于权值向量生成方法,其中最常用的就是TFIDF算法,TFIDF的主要思想是如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力(IDF值大),适合用来分类。但是每个词除了包括TF和IDF外,还有词性、词在文档位置信息等有效信息。
2.3 文档集热点关键词提取
文档集的热点关键词应该是某些文档的关键词,所以以所有文档关键词集建立候选关键词集,进行特征抽取,获得文档集关键词。如果一个关键词出现的次数越多,就证明其受热点关注的程度就越高;IDF值越大,说明词的区分能力强,更符合主题的特点。
3 关键词的智能追踪
3.1 话题聚类
考虑到不同网站的权威性、影响力和热点时效性等特点,对采集到的话题以其来源权重为第一要素,发表时间为第二要素,以权重和时间降序排序。
首先默认一个关键词代表一个热点话题,然后对这些热点话题进行凝聚聚类。以关键词集中的第一个关键词作为第一个热点话题线索,以此关键词查找文章关键词进行聚类,以搜到第一篇文档默认作为热点话题,然后对其余的页面文本进行聚类,采用夹角余弦值计算本话题与已有热点话题的相似度,若相似度超过阈值P则将当前话题合并到已有话题中,若相似度小于阈值P则将当前话题当作一个新的热点话题。然后以关键词集中第二个关键词对剩余页面进行聚类。算法迭代执行,直到待分析的页面处理完或达到设定的话题个数为止。
3.2 智能追踪模型
参考文献:
[1]李恒训,张华平,秦鹏.基于主题词的网络热点话题发现[C].第五届全国信息检索学术会议论文集,北京,2009:134-143.
[2]张寿华,刘振鹏.网络舆情热点话题聚类方法研究[J].小型微型计算机系统,2013(3):18-19.
作者简介:张伟佳(1982-),女,硕士,讲师,研究方向:计算机技术。
作者单位:河北大学,河北保定 071000