论文部分内容阅读
近年,科技论文发表数与日俱增,研究学者需要阅读越来越多的文献。怎样快速有效地阅读一篇科技论文逐渐成为一个重要的研究问题。而一篇科技论文通常是一项学术研究的结晶,其中涵盖了许多了论点和发现。这使读者很难在很短的时间内获取到一篇文章的核心论点。另一方面,在阅读科技论文时,理解与其相关的重要参考文献对于更好的理解文章内容有很大的帮助。然而,一篇文章的引用网络是一个复杂的结构。在引用网络中寻找相关文献很容易会让人迷失在文献的复杂网络中。由此,怎样从众多的参考文献中快速找到最重要最相关的几篇,怎样能在阅读过程中不迷失在文档的多维空间中也成为值得研究的问题。本文利用文本可视分析的技术进行科学文献阅读的研究。为了解决上述问题,本文通过研究科学文献在引用网络中的关系和特性,在文档分析相关研究和技术的基础上,提出利用一种基于阅读目的的文本摘要技术来进行文章中关键句子的抽取,同时利用LDA(Latent Dirichlet Allocation)话题模型对科学文献的内容进行话题分析。此外,本文还提出了一个基于文本摘要和引用关系的可视辅助文档阅读系统。系统通过文本摘要技术提取论文中重要的句子,并利用多尺度的可视化方式展示出来,方便读者在阅读时定位到论文的核心内容;利用话题模型抽取出参考文献的核心话题,并设计多种可视化方案,包括词云,树图,径向图等,来展现参考文献的核心话题及其与该篇文章之间的关联关系;记录用户在整个阅读过程中的行为从而使用户关注在自己的阅读目的上,防止迷失。同时,我们在一个具体的使用场景下详细介绍了系统的使用方法以及交互方式,并进行了用户研究来验证系统的可用性,结果证明本文提出的系统具有可扩展性以及良好的用户体验。最后,在案例研究中,我们通过分析不同用户的阅读路径得出了许多不同的阅读模式,在未来的工作中将对用户阅读行为进行建模分析,并利用用户阅读数据做阅读推荐。