互联网上少数民族信息统计分析的关键技术研究

来源 :中央民族大学 | 被引量 : 0次 | 上传用户:ontrackfor19888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的迅速发展,互联网已成为海量信息的载体。搜索引擎的出现为人们使用互联网提供了较好的便利性,同时也成为研究网站用户行为的有效工具。近年来伴随着网络的兴起,民族问题是困扰我国发展的一大障碍,其在互联网中的传播也愈来愈突出。如何运用已有搜索引擎对互联网中民族问题的传播进行监督成为目前网络舆情监控的一大课题。本文着重对网络中民族问题特定信息提取面临的关键技术进行研究。本文首先介绍了聚焦搜索引擎及相关关键技术发展概况及原理,重点介绍了常见的网页分类算法、网页关键信息提取及抓取策略,为本文所设计的基于搜索引擎的聚焦爬虫算法及实现提供理论基础。搜索引擎搜索结果并不能完全与用户的需求匹配,且在某些情况下给出的搜索信息量明显不足。因此对搜索引擎搜索结果进行进一步聚焦搜索具有一定的价值。互联网中信息主要以HTML页面形式出现,而HTML具有明显的分类特点。网页代码中大量的信息与搜索信息关联度很低,使得优化网页代码搜索机制显得极其重要。由于搜索的目的性较强,使得搜索的要求,如对特定事件中网页的共同特点,具有明显的结构化,因此选用空间向量对网页代码进行简化,并基于向量空问模型对问题进行算法设计。算法首先将模型分为两大模块,百度搜索模块和聚焦搜索模块。百度搜索模块通过算法实现对搜索词在百度搜索引擎上进行抓取搜索结果对应的URL等信息,得到相应的初始URL队列;聚焦搜索模块实现以此初始URL队列作为起点,基于空间向量模型通过KNN分类算法在网络中实现聚焦爬虫搜索,得到相应的搜索结果。最后本文完成对算法的初步实现,并对结果进行简要统计分析。通过搜索结果中所含信息的特点与社会中影响网络传播的事件进行分析,得到搜索结果与社会中敏感信息来源匹配,证明搜索结果的可操作性和有效性,为算法实现的进一步优化提供数据支持。
其他文献
离散细分法是构造曲线曲面的一类重要方法,是函数逼近理论及其应用研究中的重要课题,其处理过程比较简单,从离散到离散,提供了一种快速生成曲线、曲面的方法。但是由于细分的收敛
本篇论文讨论非线性椭圆偏微分方程多解问题的数值解法,其中模型问题的微分方程项和边界项都带有非线性项。由于方程的非线性性和解的多重性及其不稳定性,本文采用局部极小极大
解的凸性是偏微分方程和几何分析研究中的一个重要课题,其主要研究方法分为宏观方法和微观方法.对于一般椭圆和抛物方程,我们自然地想研究其解的相关凸性,例如解的凸性和解的水平
二十世纪六十年代发展起来的计算机辅助几何设计(Computer Aided Geometric Design,CAGD)技术,是一门研究几何数据的计算机表示、分析、处理等相关内容的学科,在计算机辅助设计
机器学习是一个从数据中学习规则、识别模式的过程。机器学习是人工智能的产物,在金融、工业、商业、互联网以及航天等各个领域均发挥着重要的作用。在机器学习中,数据需要分为