人才网页自动识别系统研究

来源 :2011图书馆信息技术的应用、服务和创新学术研讨会暨第3届数字图书馆与开放源代码软件(DLIB&OSS2011)学术研讨 | 被引量 : 0次 | 上传用户:shancjb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出了人才网页自动识别系统设计,实现了对Nutch 定向采集系统抓取的高校网站页面进行人才描述网页自动识别。识别过程中使用自动获取的网页的Url特征、网页Title 标签特征、链接文字特征以及网页文本内容特征,使用人名词表、正面特征词表、负面特征 词表对各项识别特征进行匹配以计算特征值,借助开源软件LibSVM 实现基于多特征值的人 才网页自动识别。通过对所抓取的高校网站网页集合随机样本实验证明,该人才网页自动识 别系统准确率达到了85%以上。人才网页自动识别结果为进一步自动构建包装器进行人才信息抽取提供良好基础。
其他文献
中国科学院的科学器材供应工作,几年来基本上保証了研究工作的进行,管理水平也有所提高。但是,这項工作目前仍然是一个薄弱的环节。一方面供应和需要还有脫节的現象,另一方
当我读完《文学小丛书》第一辑后,感到非常愉快,因为它为我带来了丰富的精神食粮。但我也感到它有美中不足之处,提出几点建议,供出版社参考: 一、在每篇作品后附有一篇对该
水利电力出版社最近出版了五本关于农村群众办电经验的书,这些都是由群众办电经验交流会议秘书处根据这次会议上的一些先进经验选编的。农村火电站小型原动机的使用本书有助
目的 :探索研究ADHD(儿童多动综合症 )的发病机理及各种治疗方法的效果。办法 :由ADHD者采用心理学的内省法详细观察记录自己心灵的运行状态及各种疗法对心灵运行状态的影响
针对目前庞大的贫困大学生这一特殊群体,分析了他们的心理特点及成因,并就他们因家庭贫困所产生的 一些心理障碍以及由此所导致的一些问题,积极地探索了解决的途径。 Aiming
目的:了解医疗软件公司高管对职工的期望及职工工作现况,为卫生信息管理专业的大学生明确自己的专业方向以及学习方向提供参考。方法:采用问卷调查方法,调查了2家医疗软件公
AIM:To determine the effect of tumor necrosis factor alpha(TNF-α) on intestinal permeability(IP) in mice with fulminant hepatic failure(FHF),and the expression
在2010年11月的珠海航展上,巴基斯坦空军装备的JF-17进行了飞行表演。JF-17/FC-1虽然不是首次参加航空展,但本次飞行表演却是FC-1实用型号的首次公开亮相。作为中国与巴基斯
针对对等网络点播系统中用户的连续播放或交互式应用操作需要快速定位资源的需求,提出一种分布式资源索引结构来提高定位目标缓存节点的效率.该索引结构由系统中自适应选择的
大数据、物联网、新一代移动通信、下一代互联网等新一代信息技术的发展普及,正把我们带到一个智能化时代。从智能手机到智能电视,从智能车间到智能工厂,从智慧交通到智能城