引文元数据的自动发现和标注方法研究——以外文引文为例

来源 :数据分析与知识发现 | 被引量 : 0次 | 上传用户：a67273271

【摘要】

：

【目的】在总结当前引文元数据抽取方法的基础上,结合语义学知识和机器学习方法,对引文元数据的自动抽取方法进行探索。【方法】实验中采用神经网络模型对人工分割过的语料进

【作者】

：

姜霖王东波

【机构】

：

南京大学信息管理学院,江苏省数据工程与知识服务重点实验室,南京农业大学信息科学技术学院,

【出处】

：

数据分析与知识发现

【发表日期】

：

2017年01期

【关键词】

：

元数据信息神经网络机器学习元数据抽取标注方法自动抽取向量空间抽取方法分类算法支持向量机

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

【目的】在总结当前引文元数据抽取方法的基础上,结合语义学知识和机器学习方法,对引文元数据的自动抽取方法进行探索。【方法】实验中采用神经网络模型对人工分割过的语料进行词向量训练。利用相同类型的元数据会相对集中地出现在向量空间中某一位置的现象,通过支持向量机分类算法实现对元数据的自动归类和标注。【结果】在以外文引文数据作为测试集的实验中,本文方法取得了较高的准确率和召回率,特别是针对引文中含有多种语言和缩写的现象,具有较好的处理能力。【局限】在对于引文元数据时间内容的细粒度抽取中存在一定的局限性。【结论】实验结果表明,此方法在引文元数据的自动发现和标注上具有良好的效果,并能很大程度地提高方法的适用性和容错率。【Objective】 On the basis of summarizing the current metadata extraction method of citation and combining with the semantic knowledge and machine learning method, this paper explores the automatic extraction method of citation metadata. [Methods] The neural network model was used in the experiment to train vector-based corpus. Using the same type of metadata will be relatively concentrated in a certain place in the vector space phenomenon, through the support vector machine classification algorithm for automatic classification and labeling of metadata. 【Result】 In the experiment of using foreign citation data as a test set, the proposed method achieves high accuracy and recall rate, especially for citation with many languages and abbreviations, and has good processing power. [Limitations] There are some limitations in fine-grained extraction of content for citation metadata. 【Conclusion】 The experimental results show that this method has a good effect in the automatic detection and annotation of citation metadata and can greatly improve the applicability and fault tolerance of the method.

其他文献

生态化视角下解决反腐困境的赦免制度完善研究(一)——基于治贪困境的历史路径

十八大以来,新一届党中央在反腐问题上,认识清醒、高度重视、行动果断,反腐成果可谓丰硕。尽管如此,腐败问题依旧是我国经济转型与社会发展的重大障碍。那么如何才能解决这一

期刊

力度化历史路径持续力纪委监察部哲学意蕴行政不作为易腐下实区别对待山西省政协

我国乡镇企业面临向高新技术的战略转移

各国在工业化进程中的共同规律,是当其具备了一定的工业经济基础之后,都经历过一个从增加生产要素的量到依靠科技进步提高生产要素的质的过程。这个从外延到内涵的转移一般

期刊

战略转移生产要素工业经济科技进步商界人士研制基地产品老化世界先进水平产品品种科技转化

奥运项目的前世今生之以道论成败

清末民初中华民族危亡的关头,以霍元甲为代表的一代武术家在擂台上用中华武术的博大精深狠狠回击了洋人的拳头,捍卫了中国人的尊严,成为一段流传千古的佳话。此后中华武术再

期刊

中国武术西方体育霍元甲西方竞技体育道论嘉纳治五郎流传千古手搏少林武术东方文化

曲终人散思索随行——由第四届全国歌剧、舞剧、音乐剧优秀剧目展演想到的

初冬的上海,乍寒还暖,浦江两岸飘逸着浓浓的艺术气息,由文化部、上海市政府共同主办的第四届全国歌剧、舞剧、音乐剧优秀剧目展演于11月5日在上海拉开帷幕。此次展演是从40

期刊

舞剧中国歌剧浦江两岸还暖中精哈尔滨歌剧院文化部歌剧作品普契尼人物形象

社会主义市场经济工程论

我国经济体制改革的目标是建立社会主义市场经济,这一新体制的建立可以说是一项庞大系统工程。在现有条件下我们应该从哪些方面着手构筑社会主义市场经济“大厦”呢?本文就

期刊

经济体制改革市场调节基础工程总量平衡市场机制短期性社会成本市场盈利市场主体养老保险

Ln-PIR的粘弹行为及其对链结构、分子量和分子量分布的依赖性

用应力应变和动态力学方法,系统地表征了Ln-PIR的粘弹行为及其对聚合物链结构、分子量和分子量分布的依赖性,建立了有关力学量与分子量和分子量分布之间的相互作用规律的数

期刊

分子量分布Ln-PIR力学量链结构聚合物链动态力学聚合物相互作用子链数学模式

社区社会组织成果展为何人气“爆棚”

公益拍卖、慈善义卖、志愿者招募、盲人生活体验……杭州市上城区清波街道的社区社会组织规模虽小,创意却多,它们用丰富多彩的形式向居民汇报自己的公益成果,值得借鉴。不久

期刊

社区社会组织成果展杭州市上城区义工人气展会这场公益组织公益项目大家

《等待野蛮人》在奥斯汀举行美国首演

近年来,奥斯汀抒情歌剧院开始在歌剧舞台占有一席之地,在得克萨斯上演的包括贾克·希吉(Jake Heggie)的《行尸走肉》和安德烈·普列文(André Previn)的《欲望号街车》等在

期刊

奥斯汀野蛮人抒情歌剧《欲望号街车》普列文安德烈日晚贝司萨斯利普

η~4-烯烃卡宾络合物[(η~4-C_6H_5CH=CH■CH(C_6H_4CH_3-m)N(C_6H_5)C(OC_2H_5)=]Fe(CO)_2·1/2C_6H_5·CH_3的晶体结构和分子结构

一、前言烯烃-金属-卡宾络合物是烯烃易位,链烯烃环化和烯烃Ziegler-Natta聚合中重要的中间产物,Casey等人报道了η~2-烯烃钨卡宾络合物的合成及结构。我们用肉桂醛缩苯胺

期刊

CH_3卡宾COC_6H_4CH_3-m)NC_6H_5)CC_6H_5CH=CHFeOC_2H_5晶体结构标题化合物

1×32硅基二氧化硅阵列波导光栅的研制

采用高精度光刻版、PECVD材料生长、反应离子刻蚀和端面8°角抛光等技术,设计并研制了1×32硅基二氧化硅阵列波导光栅.研制的AWG芯片,其相邻通道引起的通道串扰小于-28dB,非

期刊

阵列波导光栅解复用器硅基二氧化硅反应离子刻蚀光波导插入损耗光纤耦合集成光学串扰波长

引文元数据的自动发现和标注方法研究——以外文引文为例

与本文相关的学术论文