基于维吾尔语舆情分析的话题检测与跟踪技术研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:fredric_cn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及和大数据的兴起,各类文本处理的技术也发展成熟起来。从大量文本中有效提取信息在商业、社会、生活等多领域都有很高的潜在价值。中国少数民族众多,其中有些民族,如维吾尔族的生活相对集中,有自己的民族风俗和语言文字。通过对少数民族语言的论坛和新闻网站的统计和分析,能够更加快速有效地获悉当地舆情动向,为将来的舆论导向和政策做技术上的支撑。论文首先介绍了话题检测中应用到的技术和理论,然后结合从新疆各网站和论坛爬取数据的特点,选取适当的技术手段处理后对其进行建模,计算文本相似性后通过文本聚类算法对其聚类。聚类中使用了由Doc2VecC模型训练而来的能表示文本的特征向量,为了使多批次的聚类结果有可比性,当对不同文本进行训练前,先训练出大量的词向量作为“基量”。确定话题中心后,直接使用相似度来进行后续的话题跟踪。本文对Doc2VecC模型做了些改进,以使得在不同实验中产生的文本向量可以直接比较相似性。话题检测与跟踪是一个动态的过程,必然是得到文本之后再计算文本的特征向量,这就需要所有的实验都有同样的“背景”。提出“基量”作为所有实验中固定的词向量,并对新出现不在“基量”中的词赋以随机向量的方法。实验结果表明,Doc2VecC模型的文本特征向量优于传统中使用Tf-idf算法生成的特征向量。使用“基量”后的文本向量实验,可以保证多次实验结果的相关性,和热点话题中心向量做相似度计算,可以确定后期出现的文本是不是属于当前的热点话题。
其他文献
<正> 为探讨小学生学习成绩与视力的关系,我们选择了县城一所小学进行了抽样调查。结果如下。 1.资料来源与分类标准 1.1.1 调查对象:该校1~5年级各一个班学生计287名。 1.1.2
放射治疗虽然可以降低乳腺癌患者的复发和死亡率,可也使其心脏受到不同程度的照射。本文就乳腺癌放疗时减少心脏受照剂量的方法做一介绍,这些技术方法包括了优化照射角度,使
目的分析2003—2016年我国医院暴力研究现状及发展趋势,为相关研究进一步开展提供指导和借鉴。方法通过中国期刊全文数据库、万方数据库及维普中文科技期刊数据库,检索建库至
互联网行业的迅速发展,网络用户量迅速增长,与传统用户信息行为相对比,网络环境下用户信息发生了根本性的变化,无论从络接入方式、地点、时间,包括用户的年龄、性别、学历、
基于边界元法反演二维瞬态热传导问题随温度变化的导热系数.采用Kirchhoff变换将非线性的控制方程转变为线性方程.边界元法用于构建二维瞬态热传导问题的数值分析模型.将反演
目的探讨品管圈实施的理论基础和程度,并分析在医院药剂科质量管理持续改善中的应用效果及价值。方法回归性分析我市5家三甲医院药剂科内的品管圈试点活动,总结在医院药剂科
近年来 ,随着人们生活水平的提高 ,产科中巨大儿(4kg)的出生比例呈上升趋势 ,因而分娩性臂丛神经麻痹 (产瘫 )的发生率也随之升高。据估计 ,目前产瘫在发达国家的发生率约 0
文章从对上海制造业与物流业投入产出效果评价入手。在目前多种效果评价方法的基础上,提出了一种DEA模型评价方法。即通过DEA模型得到制造业与物流业的内部综合效率。运用该
1937年11月11日,上海市长俞鸿钧发表告市民书,宣告上海沦陷,自此上海公共租界和法租界的“孤岛”局面正式形成。上海“孤岛”因其独特的社会政治环境和初期相对自由、宽松的