基于文本聚类的新闻采集分析系统设计与应用

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:atmywb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,网络上新闻信息越来越繁杂,采集有用数据过滤冗余数据变得十分重要,但目前市面上流行软件并不能过滤冗余新闻。采用网络爬虫、中文分词、向量空间模型、文本聚类等技术可设计一个能自动采集新闻并能将所得信息自动聚类的系统,并且通过真实新闻数据验证了该系统的有效性,证明其能帮助用户发现、过滤重复新闻、相似新闻,并能提取热点新闻,提高用户阅读新闻的效率。
其他文献
[目的]探讨甲醛(formaldehyde,FA)对小鼠免疫系统损伤的可能毒作用机制.[方法]选用健康昆明种纯系小鼠30只,随机分成5组(即阴性对照组、1 mg/m3、3 mg/m3、5 mg/m3染毒组和阳
富锌食物与健美含锌丰富的食物有牡蛎(蚝)、鲱鱼、田螺、蟹、虾、动物肝脏、瘦肉、鱼、禽、禽蛋,以牡蛎含锌量为最(是瘦肉的4—5倍)。青菜、大豆、茄子、坚果含锌也较丰富,但吸收较差
无论做什么事情,都要有个提前计划和统筹安排,才能将工作有条不紊地进行。我们的电脑也是一样,不知道你是否想过,如果我们的电脑在开机后,常用的软件能按我们的需求,按部就班
白血病是一类造血干细胞的克隆性恶性疾病,居35岁以下人群恶性肿瘤死亡率的首位。近年来,流行病学调查发现其发病率呈上升趋势。白血病的发生是多因素联合作用的结果,明确或消除
以培养本科生的创新能力为切入点,结合福建师范大学本科生开展创新实验的几种形式,探讨了福建师范大学化学实验教学示范中心在本科生创新能力培养中的作用,提出了加大实验室