互联网媒体内容采集若干关键技术研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:kelvinok
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了在互联网上保持良好的舆论导向,需要对互联网上的信息进行安全管控。互联网信息内容安全管控工作的重点是获取重要网络媒体的发布信息,即对互联网上发布的信息进行信息采集。在上海市科委“网络媒体信息内容安全管控引擎核心技术研究与应用”项目的支持下,论文作者参与了开发互联网舆情管控平台信息采集模块的相关工作。围绕互联网媒体内容采集若干关键技术,作者提出了改善当前互联网媒体内容采集系统性能的改进方案,使得舆情管控领域信息获取平台的性能得以提高。本文首先回顾了当前互联网媒体内容采集领域已有的技术和理论,列举了内容协商,身份认证以及Web信息采集方面的理论和技术。在回顾已有成果的基础上,本文对互联网上的内容协商机制进行了详细的研究。通过分析,确定了在当前互联网媒体内容采集系统中加入内容协商机制的方法。基于上述理论,作者通过在原有信息采集平台上添加身份认证模块,提出了基于Cookie进行身份认证网站的信息采集方案,解决了当前信息采集系统在应对需要身份认证的网站时的不足。接着,作者基于内容协商机制,对当前流行的元搜索进行了研究,解决了传统搜索引擎在单一领域查询精确度高,而大范围查询精度不平衡的问题。作者基于网络内容协商机制提出的上述方案,旨在解决现有互联网媒体内容采集技术在当前形势下信息采集面越来越窄的问题,使得互联网舆情管控平台能够更好地适应互联网的发展,增强平台性能,提高管控效率。
其他文献
[目的/意义]针对图书馆、博物馆和档案馆(简称“图博档”)等文化遗产机构用户服务渠道阻塞、目标用户接触不充分、馆藏资源利用率低等现实问题,基于“互联网+传统馆藏信息服
目的探讨Th17细胞与相关转导因子在银屑病中的表达及意义。方法采用ELISA法检测寻常性银屑病患者及对照组血清IL-17,IL-23和IL-6水平;收集寻常性银屑病患者皮损及正常人皮肤
<正> 阴山岩画的发现,为我们研究北方游牧人的历史提供了丰富资料,它不仅使我们能够判断出人类在其生存的这一或那一阶段的发展水平、经济形态和思想意识,同时也使人们能够更
[目的/意义]探索某一学科或研究领域的历史根源与演化问题,对其建设与发展具有重要意义。[方法/过程]基于可视化在线工具RPYSi/o进行标准RPYS(参考文献出版年图谱)与多维RPYS
在众多纷纭的人性主张中,普遍围绕着人性是什么,应当是什么等问题而展开。中国传统的人性论认为,人性本善或本恶,揭示了人性的先验特征。马克思主义认为,人性就是人的社会属性,人的
目的观察黑素化培养的马尔尼菲青霉(PM)酵母细胞显微结构的特点,探索PM酵母相黑色素在细胞内的分布情况和合成途径。方法将马尔尼菲青霉标准株FRR分别在含和不含1.0mmol/L左
<正>我国是世界上水资源严重紧缺的13个国家之一,人均水资源量仅为世界平均水平的1/4;农业是我国水资源利用大户,其用水量占到国民经济用水总量的62.0%以上,但单位耕地灌溉面
我国水土资源严重紧缺且分布不均,农业用水和粮食安全面临巨大挑战和危机。在不增加农业灌溉用水总量的前提下,要实现未来粮食安全战略目标,必须充分挖掘农业用水潜力,大力发
本文以丰富翔实的考古学和民族学资料,多层次、多角度地深入考证和探究了远古中华民族马文化的起源、形成和发展的历史过程。充满生机和活力的马文化,成为中华民族传统文化百花
美国农村学校存在着教师工资偏低、工作条件差、流失率高、培训体系不完善等问题。美国各级政府、教育及相关研究机构、学者对此进行了深入探索与研究,并出台了一系列补充方