基于特征降维与文本聚类的新闻热点发现研究

来源 :辽宁工程技术大学 | 被引量 : 0次 | 上传用户:xiexia1987623
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及和快速发展,其信息发布成本极低、信息发布与传播极为迅速、实时交互性强的特点,使互联网成为各大新闻媒体发布新闻及人们获取新闻信息的重要平台。网络新闻数量呈指数级增长,新闻内容纷乱复杂,媒体平台越来越难以组织管理海量新闻话题,人们也越来越难以快速准确获得自己感兴趣的新闻话题。因此,为方便媒体平台对于新闻话题的管理,满足用户快速准确获取感兴趣新闻话题的需求,有必要对于一段时间新闻热点的高效且准确发现方法进行研究。本文的研究内容主要分为三部分:文本特征降维模型、文本聚类模型、新闻热点识别及排序模型。
  ⑴由于海量新闻文本特征过高,同时存在过多冗余特征及噪音特征,构建了一种文本特征降维模型。目前,文本建模采用向量空间模型(VSM)的表示方式,并使用TF-IDF算法计算文本特征权重,将文本表示为关键词及其词频权重的数值型空间向量。本文基于VSM及TF-IDF算法,通过分析影响新闻文本特征区分能力的相关因素,引入特征词符号、特征词词性、特征词位置及特征词长度四项加权因子以优化TF-IDF算法,实现多因素特征选择,降低VSM特征维度。
  ⑵由于网络新闻话题发现的关键技术是文本聚类技术,构建了一种文本聚类模型。本文基于K-means聚类模型及果蝇优化算法(FOA),从编码方式、适应度函数、自适应步长及群体适应度方差四方面构造改进果蝇优化算法(AFOA),利用AFOA优选K-means初始聚类中心,采用优化后的K-means进行新闻话题聚类,实现新闻话题准确发现。
  ⑶构建了一种新闻热点识别及排序模型。新闻热点识别模型使用本文提出的文本特征降维模型,实现新闻热点有效识别。新闻热点排序模型基于TOPSIS模型,通过分析新闻热点影响因素,引入“话题文本报道数量”、“话题文本评论数量”、“话题文本评论最长时间间隔”、“话题文本来源数量”四项排序指标,实现新闻热点有效排序。
  基于复旦大学李荣陆提供的中文文本分类语料库,本文提出的文本特征降维模型及文本聚类模型,得到有效验证。基于腾讯新闻网爬取的2018年5月的新闻语料,本文提出的新闻热点识别及排序模型,得到有效验证,能够提升新闻热点发现的效率及准确率。
其他文献
本研究从河北各地区,东北地区,四川九寨沟,云南的昆明和丽江的林地和农田采集土壤187份,分离出Bt野生菌株76株,伴孢晶体类型有菱形、方形、球型,充分体现了我国菌株资源的多样性。筛出Bt菌株的土样共有14份,筛出率为7.5%。利用18对鉴定cry基因型的通用引物对以上76株菌和本室保存的57株菌进行了PCR和PCR-RFLP鉴定:含有cry1型基因的菌株有76株,含有cry2基因型的菌株有13株,
一、研究背景  国家卫生部组织的居民营养和健康状况调查资料显示,随着营养饮食等生活方式的不断改变,高血压、糖尿病、肥胖及代谢综合征等慢性疾病的发病率呈现逐年上升趋势。近年来循证医学发现,胰岛素抵抗(Insulin resistance,IR)在高血压、糖尿病等慢性疾病的发生发展以及靶器官损害中扮演着重要角色。胰岛素抵抗是指胰岛素介导的葡萄糖摄取和利用降低,机体为了保持内在环境稳定和血糖正常,代偿性
学位
本文是由两个部分组成的,第一部分为中医特色慢病管理干预非酒精性脂肪性肝病(Non-alcoholic fatty liver disease,NAFLD)Meta分析,第二部分为中医特色慢病管理干预NAFLD的临床研究。  第一部分  目的:  系统评价中医特色慢病管理干预NAFLD的随机对照研究(Randomized controlled trial,RCT),为中医特色慢病管理应于临床提供循证
目的:  本研究通过孙氏腹针治疗糖尿病神经源性膀胱,观察治疗前后膀胱残余尿量、中医临床症候评分的变化,初步探讨孙氏腹针治疗糖尿病神经源性膀胱的临床效果,将该法同西医基础治疗的疗效作对比,为临床治疗糖尿病神经源性膀胱提供新的思路及方法,以提升患者生活质量。  方法:  依据诊断、纳入、排除标准选取68例患者按照随机化原则,分成治疗组和对照组。两组在维持原基础降糖、降压、降脂等药物治疗方案的基础上,均
目的:  以中医理论为指导,结合现代医学先进的研究,观察柴甘解忧汤联合重复经颅磁刺激(rTMS)对帕金森病抑郁的临床疗效,为临床治疗提供参考。  方法:  采用前瞻性随机对照研究的方法,纳入广东省中医院帕金森专科门诊2018年7月1日至2019年1月20日就诊的帕金森病患者中有抑郁障碍的患者共84例,随机将受试者分为4组:中药组、rTMS组、联合组、对照组,研究开展中共脱落4例,每组各20例,三个
学位
目的:  本研究旨在调查本中心维持性血液透析患者经皮血管腔内成形术(percutaneous transluminal angiography,PTA)术后的内瘘通畅率,并观察温阳活血方药酒湿敷对动静脉内瘘狭窄PTA术后发生再狭窄的预防作用,客观评价药酒湿敷用于维护动静脉内瘘功能的安全性和有效性,探索该疗法在提高内瘘通畅率方面的应用价值。  方法:  研究分为两部分:一是单中心内瘘情况调查,对自数
目的:总结刘晓萍导师辨证治疗小儿厌食的学术思想。陕西中医药大学刘晓萍主任医师为陕西省名中医,陕西省中医药大学硕士研究生导师,曾任陕西中医药大学附属医院儿科主任。刘晓萍老师从事儿科临床工作39年,在不断总结前人经验的基础上,推陈出新,将中医儿科古代学术思想和中医儿科现代学术的思想进行了糅合,形成了一套自有的理论体系和治疗方案,相较于单纯的古代理论体系和临床验方,更完整,更系统,更具有实用性和先进性。
学位
目的:通过观察丹参酮ⅡA对大鼠脑出血灶周Hes1、Hes5蛋白的表达的影响,及细胞凋亡情况,来观察丹参酮ⅡA对脑出血后神经细胞的作用。  方法:采用自体血注入法制作脑出血模型,将60只健康雄性SD大鼠,随机分为成3组假手术组(F组),模型组(M组)及治疗组(T组)各20只,根据术后1d、3d、7d、14d、28d分5个亚组,每亚组4只。在术后1、3、7、14、28d时间点,分别处死4只,处死前,对
学位
国家发展离不开基础设施建设,基础设施建设的大量资金需求使得政府财政捉襟见肘,PPP模式的出现有效的缓解了城市快速发展与政府财政短缺之间的矛盾。政府在PPP模式下既是参与方又对其他的参与方有行政管理权,所以研究政府行为对PPP项目绩效的影响十分必要。政府公信力的高低直接影响到政府行为能否快速有效落实,进而影响到PPP项目绩效,因此,引入中介变量政府公信力。通过现实背景和理论推导提出政府行为对PPP项
学位
随着我国基础设施建设需求的日益增长,水下隧道工程凭借自身独特的优势逐渐被广泛应用。然而,水下隧道工程具有施工环境复杂,不确定因素多,安全事故发生后果严重且影响范围大等特点,传统风险管理方式已很难满足实际管理需要。因此,探究创新的、更适用的安全风险管理方法迫在眉睫。文章在充分梳理相关文献和案例资料的基础上,从承包商视角出发,依据风险管理理论和系统动力学方法的原理,对水下隧道工程的安全风险管理展开系列
学位