【摘 要】
:
随着计算机网络技术的快速发展,互联网所生产的数据正以前所未有的速度增长,信息社会步入了大数据时代。这些数据具有大量性、高速性、多样性、复杂性和价值性等典型特点。然
论文部分内容阅读
随着计算机网络技术的快速发展,互联网所生产的数据正以前所未有的速度增长,信息社会步入了大数据时代。这些数据具有大量性、高速性、多样性、复杂性和价值性等典型特点。然而,大部分数据以文本等非结构化、异构的数据形式存在于互联网中,并且不易被获取和分析。这些数据中往往蕴含着巨大的信息和知识。因此,研究如何借助于计算机相关技术获取、挖掘其内在规律和价值具有重大意义。基于爬虫的网络文本挖掘是指通过编写网络爬虫程序抓取某些指定网站的文本数据,利用模式识别、数据挖掘、统计学习等技术分析出隐含的、深层的、有价值的信息。本文围绕上述问题,主要包括以下四方面研究内容:(1)通过编写爬虫来获取网络文本数据。由于网络文本数据嵌入HTML网页中,很难通过人工进行获取。因此本文提出通过编写网络爬虫程序自动的获取所需的文本分析源。文中介绍了网络爬虫抓取网页的基本原理,并详细说明了HTML网页内容解析方法。(2)本文结合传统的文本挖掘技术,提出了一套完备的基于开源爬虫框架的网络文本挖掘方案。详细叙述了网络文本的获取、清洗、预处理、分析、结果可视化的一般性步骤和流程,并介绍了文本分类与聚类、文本情感分析等常用的文本挖掘算法。(3)由于短文本的特征稀疏性,隐含较少的语义信息,使得短文本的分类研究面临着巨大的挑战。针对短文本分类的这两个问题提出了一个基于隐含狄利克雷主题模型和最近邻的短文本分类算法。实验表明该方法使得短文本分类效果比KNN和SVM算法得到了很大的提升。(4)本文创新性地将网络文本挖掘应用于电子商务“海淘”市场热点分析。首先通过编写Scrapy爬虫抓取“海淘”相关网站的帖子、评论等信息。然后再利用统计和相关文本挖掘算法分析出“海淘”中的热点商品及其价格等信息。从而帮助卖方改进商品、制定和调整合适的销售策略。
其他文献
随着经济的飞速发展,环境问题日益凸出,许多企业转而向更加环保的再制造行业进军,在此过程中,有关再制造竞争问题成为学者关注重点。本文首先通过构建新产品制造商与再制造商
目的 探讨绝经后阴道出血的病因。方法 分析242例绝经后阴道出血并行诊断性乔宫的临床和病理资料。结果 绝经后阴道出血的主要病理诊断分另是功能性子宫内膜(60.73%)、炎症(28.92%)和恶性肿瘤
传统的直升机尾传动轴系的研究主要是以线性理论为主。然而,受到中间膜片联轴器连接方式、粘性阻尼器支承刚度等方面的影响,尾传动轴系在激励幅值较大时会逐渐呈现非线性的动力学特征,需要对尾传动轴系中存在的非线性进行研究。本文针对尾传动轴系开展线性和非线性模态试验,提出了基于标准模态试验数据识别尾传动轴系非线性模态参数的方法,结合有限元仿真以及模型修正技术,准确的识别出尾传动轴系存在的非线性,为进一步精确研
<正> 挥发性有机化合物(VOC)是致癌物,而且是引起全球变暖的温室效应的众多气体之一。目前,从装修用涂料和工业涂料中排放出来的VOC的总量每年达200万t,而控制这些排放的规定
绩效考核是进行组织管理的重要手段,依据绩效考核结果反馈情况进行宏观把控是当前公共管理领域的潮流。绩效考核不仅广泛应用于各类型企业的内部管理,在公共部门管理领域也有
用双驱动动态膜压仪测定江、污混合水中有机物含量。通过测定白龙港污水和长江水混合后的膜压和滞回环面积,用它们与相应的经典法CODCr作图,获得了滞回环面积和CODCr之间良好地
随着老龄化时代的到来,我国人口老龄化速度不断加快,老年人的数目逐渐增加,越来越多的人选择机构养老。为了探究养老机构老年人的生活现状并提高他们的生活质量,增加晚年幸福
近年来,雾霾天气日益增多,环境污染加剧,肺部疾病已成为人类生命的重要威胁之一。当前主要通过电子计算机断层扫描(Computed Tomography,CT)技术获取用于肺部疾病诊断的医学影像数据,肺气道树分割算法主要通过处理胸部CT影像数据完成肺部气道树形结构的三维可视化。三维可视化气道树可用于气道内腔和气管壁尺寸的测量,并辅助诊断慢性阻塞性肺疾病。在医学图像处理领域,肺气道树分割可作为其他肺部结
为了解城市道路地面NOx污染的状况和特征,对上海典型道路路边NOx污染进行现场实测。结果表明:在交通繁忙的路段,路边NOx污染严重。调查发现:路边NOx的浓度与交通状况有关,车流量越
关于中国南沙群岛的群岛地位,目前国际社会存在一些错误论调。其核心观点认为,南沙群岛不能作为国际法意义上的群岛或统一整体而只能被分割成若干单独的海洋地物来主张海洋权