基于文本聚类的新闻采集分析系统设计与应用

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户：atmywb

【摘要】

：

随着互联网的飞速发展,网络上新闻信息越来越繁杂,采集有用数据过滤冗余数据变得十分重要,但目前市面上流行软件并不能过滤冗余新闻。采用网络爬虫、中文分词、向量空间模型

【作者】

：

高兆远程珂张燕平段震

【机构】

：

安徽大学计算机科学与技术学院

【出处】

：

电脑知识与技术

【发表日期】

：

2015年4X期

【关键词】

：

文本聚类向量空间模型网络爬虫文本相似度层次凝聚法 text clusteringvector space modelweb crawlertext si

【基金项目】

：

国家自然科学基金(项目编号:61175046),安徽大学科研训练计划(项目编号:KYXL2012057)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的飞速发展,网络上新闻信息越来越繁杂,采集有用数据过滤冗余数据变得十分重要,但目前市面上流行软件并不能过滤冗余新闻。采用网络爬虫、中文分词、向量空间模型、文本聚类等技术可设计一个能自动采集新闻并能将所得信息自动聚类的系统,并且通过真实新闻数据验证了该系统的有效性,证明其能帮助用户发现、过滤重复新闻、相似新闻,并能提取热点新闻,提高用户阅读新闻的效率。

其他文献

甲醛吸入对小鼠脾脏和胸腺的氧化性损伤

[目的]探讨甲醛(formaldehyde,FA)对小鼠免疫系统损伤的可能毒作用机制.[方法]选用健康昆明种纯系小鼠30只,随机分成5组(即阴性对照组、1 mg/m3、3 mg/m3、5 mg/m3染毒组和阳

期刊

甲醛脾脏胸腺超氧化物歧化酶丙二醛脂质过氧化小鼠formaldehyde spleen thymus： superoxidedismutase ma

富锌食物与健美

富锌食物与健美含锌丰富的食物有牡蛎（蚝）、鲱鱼、田螺、蟹、虾、动物肝脏、瘦肉、鱼、禽、禽蛋，以牡蛎含锌量为最（是瘦肉的４—５倍）。青菜、大豆、茄子、坚果含锌也较丰富，但吸收较差

期刊

植物性食品含锌量动物肝脏纤维素

任务有计划,效率大不同

无论做什么事情,都要有个提前计划和统筹安排,才能将工作有条不紊地进行。我们的电脑也是一样,不知道你是否想过,如果我们的电脑在开机后,常用的软件能按我们的需求,按部就班

期刊

统筹安排电脑软件

成人白血病发生的环境危险因素

白血病是一类造血干细胞的克隆性恶性疾病，居35岁以下人群恶性肿瘤死亡率的首位。近年来，流行病学调查发现其发病率呈上升趋势。白血病的发生是多因素联合作用的结果，明确或消除

期刊

白血病致病因素外环境内环境leukemia Risk factors External environment Internal environment

实验室在培养本科生创新能力中的作用探讨

以培养本科生的创新能力为切入点,结合福建师范大学本科生开展创新实验的几种形式,探讨了福建师范大学化学实验教学示范中心在本科生创新能力培养中的作用,提出了加大实验室

期刊

创新能力本科生实验室实践人才培养innovation ability undergraduate laboratory practice talent

基于文本聚类的新闻采集分析系统设计与应用

其他学术论文