论文部分内容阅读
科技论文作为科学技术发展的重要战略资源,记录着科学真理验证过程、实验观测结果及研究结论等研究知识线索,论文中所涉及的研究设计(包括研究问题、研究方法、研究流程、研究工具、相关方法与技术参数设定等),为后续研究者提供了宝贵的方法论和研究操作基础,成为科研人员项目设计、研究方法有效性评估、研究过程问题诊断、研究结果鉴别与评价的重要基础。科研人员希望,能够有工具来有效回答“有谁用什么方法来解决这个问题”、“哪些方法及其技术与参数设定能够更好地解决这个问题”等等。但是,在科研文献数量迅速增加的环境下,要及时、准确发现针对某一问题的各类研究设计,要系统比较同一主题上不同研究设计及其成效,目前以主题词为主的数据挖掘和知识发现技术还难以有效完成。因此,针对科研过程中的这一现实瓶颈问题,设计并实现一套自动识别与抽取论文研究设计的理论与技术方法体系就变得十分必要与迫切。 论文围绕上述问题,在调研分析科技论文核心知识内容识别与抽取的相关技术基础上,提出、设计并实现了基于科技论文的研究设计指纹识别模型与方法体系。该体系以“研究设计指纹”为切入点,重点探讨了研究方法、研究工具、研究结论等指纹特征知识的自动识别机制,实现了针对科研研究设计的研究方案挖掘(Solution Mining)。论文核心内容与主要创新点为:(1)提出“研究设计指纹”概念。论文提出的“研究设计指纹”概念,分为基础指纹、技术指纹、结论指纹与未来指纹4个大类,包括背景指纹、方法指纹、工具指纹等9种,为有效实现对科技论文研究设计的唯一标识提供理论支撑;(2)提出并构建研究设计指纹概念模型。论文提出与构建的研究设计指纹概念模型不仅能够结构化、语义化地组织科技论文的研究设计指纹,更能科学地将科技论文转换成机器可计算与理解的智能文献载体,辅助科研用户快速阅读与掌握科研成果,同时也为开展科技论文大数据的Solution Mining的实现提供了逻辑结构与框架指导;(3)提出、设计并构建两阶段多规则混合模式指纹识别算法模型。基于研究设计指纹识别的相关影响因素的详细分析,提出并构建了包含基于标引语义知识库的指纹识别方法和基于多个规则模式的指纹识别方法两阶段多规则混合模式的指纹识别算法模型。该模型打破传统的侧重某一种实现知识抽取的方法,将基于标引语义知识库的指纹识别方法和基于多个规则模式的指纹识别方法进行混合使用,并与机器学习方法相结合,能够克服单一使用某一种方法带来的对研究领域知识组织体系(KOS)依赖性较强、对知识模板以及规则集合要求全而且质量要高等问题。 最后,论文将来自于Elsevier的Data Mining研究主题的部分科技论文全文作为实验数据集,利用本论文设计的算法模型计算识别和抽取这些论文的研究设计指纹,并把算法模型计算的结果同领域专家标注的结果进行对比分析,验证所设计与实现的研究设计指纹识别算法模型的有效性。实验评估结果表明,论文提出并设计实现的研究设计指纹识别方法模型能够有效地对科技论文全文的研究设计指纹进行自动识别与抽取,达到了辅助科研用户快速从海量科技论文中发现与挖掘研究背景、研究假说、研究方法、研究设备以及研究结论等知识线索对象的目标。