学术文本引文上下文多样化排序研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:handsomels
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学文献数量的爆炸式增长,用户阅读和引用文献的时间成本越来越大。为提高用户阅读和引用文献的效率,研究者们在检索文献的过程中提出了多种检索结果多样化算法和文献推荐系统,以缩小用户需要阅读的文献集合。但读者阅读和引用一篇文献的效率很少被关注。同时,文献的作者仅能从学术数据库中获得被引数量和来源出版物的影响因子两个指标了解其文献质量,具体的评价信息不得而知。笔者从电商网站的购物行为中获得启发:文献的引文上下文可以作为评论信息,为读者的阅读和引用决策提供支持,为作者对其成果的了解提供更全面的信息。现有的CiteSeer数据库将文献的引文上下文看作一个非必需展示的字段,其评论价值没有被关注和有效利用。按照被引量、引用时间进行排序的列表在内容上仍存在冗余,不能满足用户多样化的需求。本文通过用户调研的方式,整理出三个用户阅读文献的需求场景。并从读者、作者两个视角出发,完成引文上下文多样化的推荐任务,结果是在每个场景下为用户推荐10条具有多样化性质的引文上下文列表。本文的研究数据来自CiteSeer数据库,笔者从中筛选出被引次数在50至100之间的、来源出版物属于CCF推荐的国际学术会议和期刊目录的文献及其引文上下文。并将CCF推荐的类别(CCF-A类、CCF-B类、CCF-C类和Other)作为引文来源出版物的分类依据。在内容多样化的策略制定中,笔者借鉴了检索结果多样化任务的方案,从3种常用的语义距离算法与3种隐式多样化算法的组合出的9种算法中筛选出效果最好的一种。3种语义距离算法分别是WordNet、ESA和word2vec,隐式多样化重排序算法分别是MMR、Score Difference和ILP。经过用户对这9种策略的评价,本文选取“word2vec+ILP”作为内容多样化的策略。笔者还从实验数据集中随机选取一千条引文上下文文本,进行引用情感的标注,将引文上下文分为Negative、Neutral和Positive三类。在读者视角中,笔者首先从内容多样化角度选取10条引文上下文,再结合引文来源出版物的类别、引用时间进行重排序来完成推荐。在作者视角中,笔者先将引文上下文按照引用情感、引文来源出版物类别进行分类,再从每个类别下推荐几条引文上下文组成10条推荐给用户。实验评价采用问卷调法,笔者通过计算用户对推荐列表“可读性”、“多样性”、“有用性”和“展示合理性”四个指标下问题的打分,得到每种情景下引文上下文列表的推荐效果。对比CiteSeer中提供的按照文献引用次数排序的引文上下文列表,本研究推荐的多样化列表均取得了更好的用户评价结果。
其他文献
近年来,科学工作流在很多的科学研究领域中得到了广泛的使用。科学工作流的任务往往具有数据量大、执行时间长、计算过程复杂等性质,同时,任务的执行可能存在数据并行、任务
近年来,电子商务平台发展迅速,商家规模的日益增大和商品数量的与日俱增给用户提供了更多选择,但与此同时也为用户增加了更多的认知负担。每个平台对商品知识的描述有着各自
测试用例自动生成是实现Web服务自动化测试的关键,基于代数规约的传统测试技术均依赖于创建、初始化和复制被测对象等操作来验证测试结果的正确性,但第三方Web服务并不支持这
由大豆疫霉(Phytophthora sojae)引起的大豆疫霉病是影响世界大豆生产的毁灭性病害,在我国有蔓延趋势。利用抗疫霉病的大豆品种是控制该病害最有效、经济和环境友好的策略。1.
机器人是综合了机械、电子、计算机、传感器、控制技术、人工智能、仿生学等多种学科的复杂智能机械,目前已成为世界各国的研究热点之一。近些年来由于机器人技术的发展,作为驱动机器人的软件框架越来越多的应用于商业机器人中,这些产品的服务人群往往是非专业人士,因此用于驱动机器人的软件和软件框架的安全性也就更加受到人们的重视。RT-中间件是一种构建机器人的软件框架,基于RT-中间件的数据传输协议是机器人软件框架
合成孔径雷达(Synthetic Aperture Radar,SAR)是一种可安装在宇宙飞船、卫星、飞机等飞行平台上,对地进行全天候、全天时观测,并具有一定的地面穿透能力的主动式的对地观测系
随着节能减排政策的实施和氟利昂类制冷剂的禁用,吸收式制冷机组的独特优势逐渐显现出来。该制冷机组可以吸收烟气余热等低品位能源来进行制冷,提高能源利用率。此外,制冷工
广播式自动相关监视(Automatic Dependent Surveillance-Broadcast,ADS-B)是一种将卫星导航、通信、机载设备以及地面设备等先进技术相结合的新一代监视技术,在民航监视中得
近几年实质性的债券违约事件频繁发生,本文试图找出这些债券违约的影响因素并研究违约对市场产生的影响。本文以我国已发生违约的债券为研究对象,通过实证研究、案例分析、事
基于光纤陀螺(Fiber Optical Gyroscope,FOG)的惯性导航技术由于其高可靠性,小尺寸,低能耗和增量测量性能等优点而在多个领域获得成功应用。本文重点研究了基于光纤陀螺捷联