基于文本挖掘的学者简历自动生成

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:samzy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
用户的简历信息是社交网络构建的基础,自动构建用户简历将为社交网站的建设和推广带来极大的便利。本文以学术社交网站LinkScholar为应用背景,以PDF格式论文和学术期刊网站为信息来源,通过信息抽取,获取国内学者信息,应用同名区分技术,生成学者简历。针对中文PDF格式论文的信息抽取问题,本文通过对大量中文科技论文的分析归纳出中文论文元数据的排它性、重复性、顺序性和部分确定性,并据此定义了简单元数据和复杂元数据的概念,提出了字典匹配和支持向量机模型抽取中文科技论文元数据。实验结果表明,该模型的综合性能指标在96%以上,优于条件随机场模型和隐马尔科夫模型。针对学术期刊网站的信息抽取问题,本文提出了同源HTML文档和HTML骨架序列的概念,基于这两个概念,将双序列比对算法引入Web信息抽取中。应用双序列比对算法计算待比对序列与模板序列的最大相同片段,根据模板序列的标注,提取各个信息项的信息。该方法充分利用了HTML文档结构和数据的关系,不需要建设大量的样本库,实现简单,通用性强。针对作者同名区分的问题,本文详细研究了同名区分的相关文献,总结已有方法的优缺点,提出了基于遗传聚类算法的同名区分。将引文聚类问题转化为多峰值的组合优化问题,应用遗传算法迭代求解,每一个最优解代表一个同名作者的引文集合,达到同名区分的目的。在信息抽取和同名区分的基础之上,本文设计了简历生成系统架构,制定了信息融合规则,生成有效全面准确的学者简历,并应用在LinkScholar系统中。
其他文献
2007年1月26日,山西省农机工作会议在省城隆重召开,参加会议的人员有各市、县(区)农机局局长,各市农机局办公室主任,省农机局各处室及直属单位主要负责人,同时还邀请了局机关部分离
油井出砂是困扰疏松砂岩油藏开采的一个主要问题,出砂不仅易造成油井的减产、停产,加剧地面和井下设备的磨损,而且严重时会造成套管的损坏和油井报废。因此,要确保油田稳产、
当前,互联网已经渗透到人们的生活和工作中,可以说是无处不在,特别是实行020模式之后,人们的生产、生活、公共、学习都离不开互联网。而互联网能够得以迅速发展,是由于计算机科学技术为互联网提供了各项服务支持,因此计算机科学技术已经成为开发者研究的重点内容,而计算机科学技术的研究重点之一就是分层技术的应用,分层技术的研究进度在很大程度上影响着计算机科学技术的发展,同时分层技术的发展与运用对互联网技术的发
目的:通过调查,分析学龄前儿童家长喂养行为及其主要影响因素。方法:以《家长喂养行为量表》为基础,编制学龄前儿童饮食行为及家长喂养行为问卷,调查分析家长喂养行为的特征
城市房屋拆迁是我国城市建设与旧城改造中不可缺少的环节之一,而拆迁改造必定会牵涉到多方面的利益,不可避免地带来补偿、安置等一系列的拆迁矛盾与纠纷。拆迁补偿安置纠纷是最
(1)按照拖拉机使用说明书的规定对拖拉机进行班次保养,并加足燃油、冷却水和润滑油。
由黑龙江八五四迎丰机械厂研制的斜辊式稻麦割晒机的核心技术斜辊式放铺装置获得国家“实用新型”专利,填补了国内空白。
“编读往来”这个栏目,是读者与编者相互探讨与交流的文化窗口,是互动与分享的心灵空间。它就像杂志的纳言堂、百宝箱。无论您是农机行业的管理者,还是农机企业的生产者,亦或是一
期刊
农业农村部8月17日发布的数据显示,7月,全国生猪生产继续较快恢复,能繁母猪存栏稳定增加,生猪存栏开始同比增长。农业农村部畜牧兽医局相关负责人表示,按照生猪生产的周期性