WEB文献资料采集系统

来源 :计算机系统应用 | 被引量 : 0次 | 上传用户：rrsmy

【摘要】

：

为了能够充分利用WEB上丰富的文献资源,设计了一个专业的WEB文献资料采集系统WLES。该系统集成了网页抓取和网页清洗两方面技术,并且引入机器学习方法到网页清洗中,通过机器

【作者】

：

马创新

【机构】

：

南京师范大学文学院

【出处】

：

计算机系统应用

【发表日期】

：

2012年7期

【关键词】

：

文献资料采集机器学习网页清洗清洗模型 literature collection machine learning pages clean clea

【基金项目】

：

国家社科基金重大项目（10＆ZD117）, 江苏高校重点研究基地重大项目（2010JDXM023）, 江苏省教育厅高校哲学社会科学基金（2011SJB740010）, 江苏省高校自然科学研究项目（11KJD520009）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

为了能够充分利用WEB上丰富的文献资源,设计了一个专业的WEB文献资料采集系统WLES。该系统集成了网页抓取和网页清洗两方面技术,并且引入机器学习方法到网页清洗中,通过机器对训练语料的学习得到一个清洗模型,然后用该模型来实施网页清洗。实验证明该系统在网页抓取和网页清洗方面都具有优良的性能,能够满足使用者的文献采集需求。

其他文献

一种适用于LTE上行链路的低复杂度信道估计算法

提出了一种适用于3GPP长期演进（Long Term Evolution,LTE）系统上行链路的信道估计算法。为了降低抑制噪声过程中信道能量的损失,该算法对最小二乘（Least Square,LS）算法的时域结

期刊

长期演进信道估计离散傅里叶变换空子载波LTE Channel estimation DFT Null subcarriers

PDC钻头智能化设计系统

设计高质量的PDC钻头三维模型需要设计人员具有丰富的专业知识并能熟练使用3D设计工具,是一个高度智能化的复杂过程。提出把钻头基本模型与专家设计经验结合起来形成一个PDC

期刊

PDC钻头二次开发智能化建模polycrystalline diamond compact drill secondary development i

形式化B描述测试序列自动生成研究

基于严格数学理论的软件形式化规格说明,经过逐层精化,不仅可以让软件开发过程更加有效精准,而且为测试用例测试序列的自动生成提供了最原始可靠的依据。通过B抽象机操作的规

期刊

形式化描述测试序列生成状态转换图B方法效用谓词formal specification test sequences generation sta

考虑发布后故障发现概率的软件费用模型

在基于G-O模型的软件可靠性增长模型中引入以时间为变量故障察觉率,并以此模型建立了一种新的软件费用模型。该费用模型考虑了软件发布后使用者对软件系统剩余故障的发现概率

期刊

非齐次泊松过程故障察觉率软件可靠性增长模型软件费用模型最优发布时间Non-Homogeneous Poisson（NHPP） fault detec

分布式自动答疑系统

作为远程教育中的重要组成部分,自动答疑系统允许用户以自然语言进行提问,并返回一个简洁、准确的答案。在HADOOP框架下,采用改进的编辑距离算法对汉语句子的相似度进行计算

期刊

分布式技术语句相似度答疑系统远程教育hadoop sentence similarity automatic question-answering

引入边缘信息的纹理传输改进算法

本文针对Efros等人提出的块缝合纹理合成与传输算法,在搜索匹配块的过程中未考虑目标图块边缘信息这一不足之处,提出了一种改进算法.新算法在原有的搜索误差匹配公式中,通过计算梯度的方式增加了边缘信息处理项,同时整个传输过程还引入了亮度重映射的匹配预处理策略.实验结果表明,改进后算法的传递效果优于传统算法,尤其是目标图的边缘轮廓部分传递效果有比较明显的改善.

期刊

纹理合成纹理传输边缘匹配亮度重映射texture synthesis texture transfer edge matching luminan

基于粒子系统的海洋环境仿真

随着计算机仿真技术的不断发展，海洋环境仿真在许多领域有着越来越广泛的应用，但是如何生成一个逼真的海洋环境一直是困扰着我们的关键问题．详细分析了海洋模型和艏浪特效的仿真

期刊

粒子系统VEGAPRIME多线程海洋模型艏浪particle system vega prime multi-thread ocean mod

基于Web Service的智能建筑信息集成

将OPC XML Web服务技术应用到建筑智能化领域,提出了一种基于Web Service的智能建筑信息集成系统框架。该框架简化了不同智能子系统和应用间的互操作性,突破了Internet和操作

期刊

智能建筑OPCXML信息集成WebSERVICEXML技术SOAP技术intelligent building OPC XML informa

IPv6无线传感器网络低功耗路由算法

为满足IPv6无线传感器网络低功耗的要求,采用适配层路由,在LOAD路由协议基础上提出一种简化的按需式路由算法。本算法采用精简的路由控制报文、路由表和路由请求表,简化了路

期刊

无线传感器网络IPV6适配层路由低功耗LOADwireless sensor network IPv6 the adaptation layer

基于php和服务器推技术的Web即时聊天系统

基于http协议应用于Web端，实现一个浏览器无关的、便于移植的、高性能的Web即时聊天系统．系统使用服务器推技术中的ajax长轮询模型构建http通讯模型，利用开源LAMP架构搭建服务器

期刊

WEB即时聊天服务器推PHPajax长轮询web instant messaging system server push technology

WEB文献资料采集系统

与本文相关的学术论文