基于Web挖掘的网情处理方法研究

被引量 : 0次 | 上传用户:love_day
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络在社会各界的渗透和迅速深入,各种信息资源以前所未有的广度和宽度在网上共享着,网络数据量呈现指数级增长。互联网成为成本低而资源丰富的信息源,各种情报也蕴含其中。然而,现有的搜索引擎不能分析网页内容并帮助我们准确获取信息并定位信息源,它所能提供的只是大量的与搜索词语相关的Web页面,信息的获取仍然需要搜索者自己判读。本文提出了一种较为实用的基于Web挖掘的网情数据处理方法,该方法主要包括三个功能模块的研究:(1).构建了基于索引的多层数据库,统一了网情资料的存储模式,便于挖掘分析以及敏感信息的要素提取和信息源定位。(2).主题词库和特征向量集的研究,主题词库的构建缩短了Web文本的向量表示过程,降低了特征向量的维数,加快了分类、聚类算法的执行效率。同时特征向量集简化了多层数据库的存储模式,类别的划分存储更趋于结构化。(3).挖掘模型的研究包含两个方面,其一是基于网情库构建的分类器,采用χ~2统计量算法突出了特征词对类别的贡献;其二是基于搜索引擎返回的Web数据集的聚类算法,采用了TF-IDF算法。最后将聚类结果输入分类器进行最终的分类,提取类别信息,为重要网情获取提供支持。
其他文献
我国及世界各国的发展经验越来越证明,国债市场是经济运行中的一个重要组成部分,有众多不可以替代的功能。但国债市场是否可以很好地发挥功能,首先取决于市场是否具有很好的
旨在研究风险区划以及风险区划对保险业创新的影响,目前学术界对此问题的研究还罕有涉及。在第一部分中,首先通过分析安徽省马鞍山市的地理环境和气候背景,得出风险区划的定
【目的】(1)探讨携带qac(A/B)基因的金黄色葡萄球菌、MRSA、MSSA对碘伏、戊二醛两种消毒剂的抗性;(2)探讨金黄色葡萄球菌携带qac(A/B)基因与其对碘伏、戊二醛抗性的关系;(3)探讨金黄色
“无印良品”作为一个来自日本的拥有5000余种商品的“品牌”,其实并非是一种品牌的含义,而是一种生活方式和生活态度的体现。其主要特点就是没有商标,强调“无品牌”;表现形
胡愈之是中国现代史上一位重要人物,他既是我国先进文化事业的先驱,也是一名杰出的政治活动家,更是一位出色的新闻工作者。他一生从事书、报、刊等媒介的编辑出版工作,长期担
鲁迅,伟大的文学家、思想家、革命家,同时也是一位优秀的编辑出版家。鲁迅安身立命的主要手段是写作,但编辑出版在他的生活中也占有相当的比重,几乎贯穿了他的一生。他参与或
目的:对3年内取出宫内节育器(IUD)的服务对象进行取出因素调查,分析本地区3种宫内节育器(Tcu220 c、元宫药铜220、MLcu375)取出因素。方法:汇总统计2006~2008年3年内我区12个镇级计
通过对国内、外研制和装备的温压弹药的研究表明,温压弹是现代高技术条件下的一种新概念武器,特别是单兵用小型化温压弹是一种发展趋势;本文通过研究烟火药与猛炸药混合后在
正义是人类永恒的追求,人类对程序正义的认识经历了漫长的时期。早期,人们关于正义观念的认识多属于“实质正义”或“实体正义”,重视的是各种活动结果的正当性,而不是活动过
随着全球化市场形成和技术变革加速,相对稳定的市场环境逐步向动态多变的方向发展,企业面临的巨大挑战是如何解决不断增长的客户个性化需求和低成本生产、高效率供货之间的矛