文献被引片段特征分析与识别研究

来源 :数据分析与知识发现 | 被引量 : 0次 | 上传用户:mimibbs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的】对科技文献领域的被引片段概念的特征进行分析,并比较不同识别方法效果的差异。【方法】以CL-Sci Summ 2016比赛被引片段标注数据为例,探索被引片段长度、位置与重要性特征,并分析与其对应引文上下文在长度和位置上的相关性。之后以基于词袋模型、主题模型、Word Net语义词典的相似性算法为例,比较这些方法在被引片段识别中的效果差异。【结果】研究结果发现:被标注的被引片段有96%少于三句,且更多地出现在文章前部和章节内的前部分,被引片段的Text Rank权重均值显著高于其他片段;被引片段与引文上下文在长度上显著相关,但在出现位置上相关性不明显;无论从MMR?还是句子与词汇层面的匹配度来看,基于词袋模型的识别方法效果均优于基于语义词典的方法,而后者明显优于基于主题模型的方法。【局限】对于被引片段概念与特性的分析只停留在理论层面,对其特征的分析与有关识别方法的比较也只是在CL-Sci Summ 2016被引片段标注数据上进行的。【结论】科技文献的用词比较规范严谨,所以词汇特征在被引片段的识别过程中起到关键的作用。 【Objective】 This paper analyzes the features of the concept of quoted segments in the field of scientific literature and compares the differences in the effects of different recognition methods. 【Method】 Taking the data of labeled segments in the CL-Sci Summ 2016 competition as an example, the length, position and importance features of the quoted segments were explored and their correlation with the corresponding citation context length and position was analyzed. Afterwards, based on the similarity algorithm of bag model, theme model and Word Net semantic dictionary, this paper compares the difference of these methods in the recognition of the cited segments. 【Result】 The study found that 96% of the cited segments were less than three, and more appeared in the front part and the front part of the chapter. ; The cited segments are significantly related to the citation context in length, but the correlation is not obvious at the position of appearance; the recognition based on the bag-of-words model is better than that based on the MMR or the match of sentence and vocabulary Semantic dictionary approach, while the latter is significantly better than the theme-based approach. [Limitations] The analysis of the concept and characteristics of the quoted segment only stays at the theoretical level. The analysis of its characteristics and the comparison of relevant identification methods are performed only on the data marked by CL-Sci Summ 2016. 【Conclusion】 The terminology of scientific literature is more rigorous, so the lexical features play a key role in the recognition of the cited segments.
其他文献
少年时,我特别喜欢打羽毛球,不为健身,只为获胜。每次接球发球时,我都会极尽奔腾跳跃之能事,肆意挥洒着汗水,并争取一招制敌。如果对方离球网线近,我就将球打得又高又远;如果
5月25日—26日,“2013年府内派太极拳国际发展论坛暨李正老师弟子学生联谊会”在杭州召开,浙江省军区参谋长高幼苏,杭州市体育局局长赵荣福,副局长邵夏明,《搏击》杂志执行主
当那些在网坛厮杀已久的网球名将初为人父时,他们的心境又是如何呢?哈斯:女儿是前进的动力如果不是在今年迈阿密公开赛击败德约科维奇,很多人可能都忘记了啥斯的存在,这位前
二○一三年七月二十七日,由中国书协、中国剧协、山东省文联、烟台市委宣传部联合主办的『李纯博书法展』在烟台文化中心开幕.七月二十八日,『李纯博书法艺术研讨会』在威海
期刊
人的主体性及其理论的发展经历了漫长的历史过程,这一过程表现为从史前原始社会“共同体主体性”到多数人的“个体主体性”;从阶级社会中少数人为主体之主体性到多数人为主体
开春后雨水增多,油菜田间荫蔽度加大,如果排水不良,湿度增高,会诱发菌核病的发生。因此要特别注意做好清沟排水工作,保证畦沟无积水,降低田间湿度,抑制病害发生。早春油菜适
“北风那个吹,雪花那个飘……“半个世纪以来,这动听的旋律曾让无数观众为之倾倒。时光如梭,被誉为中国芭蕾奠基作之一的《白毛女》从创作演出至今已有40年了。2005年7月,上
ROBERT FEDERER罗伯特·费德勒费德勒父亲罗伯特总让罗杰随心所欲地自由奔跑,也从不会强迫他做什么事。在带领孩子走上网球道路的过程中,身为父亲必须注意以下几个原则引导而
[摘要] 课堂教学是不断变化的动态过程。教学中,如果完全按照预设进行,结果将是无视或忽视学生的自主性,但如果一味追求课堂上的“生成”,也会因缺乏有效的控制和引导,出现放而失度的现象。这就要求每一位教师在课堂教学中,要认真琢磨课程资源,尤其是针对课堂教学中出现的“意外”及时调整教学方法,以便更好地促进学生发展。  [关键词] 预设生成 善待意外 巧用错误    苏霍姆林斯基说过:“教育的技巧并不在于
西班牙当地时间5月19日晚,2012—2013赛季国王杯决赛,伯纳乌球场,皇家马德里队以1:2的比分惨遭同城死敌马德里竞技逆转,痛失本赛季最后一项可以争取的冠军,“四大皆空”——