科技文献关键词自动标注算法研究

来源 :计算机科学 | 被引量 : 0次 | 上传用户:liangfeng905
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
未标注或遗失关键词给科技文献的分类和导航工作带来一定困难,针对这一问题,提出了基于文献摘要内容的关键词自动标注算法。该算法使用标注过关键词的文献摘要作为训练文本,分别采用语言模型、LatentDirichletAllocation(LDA)模型、ProbabilisticAuthor-Topic模型及语言模型+LDA模型的组合模型对训练集中的摘要文本和关键词建模,建立关键词和组成摘要文本特征词之间的关系,然后利用这些模型在未标注关键词的科技文献摘要上进行关键词的预测。在中英文数据上的实验结果表明,自动标注
其他文献
入侵检测系统需要处理大量冗余与无关数据,使得系统耗用的计算资源很大,导致系统训练时间长、实时性差、检测效果不佳。提出一种轻量级的入侵检测技术,该技术首先采用快速相
仿真软件的被动测试和主动测试在实践中都有一些缺点,针对这些缺点提出了被动测试与主动测试互补的具体方法。通过一定的被动机制提前获取实际生产的历史数据,运用技巧提高历
无线传感器网络是一种全新的信息获取平台,具有快速展开、适应性强等特点。对无线传感器网络及其路由技术进行了综述,介绍了分簇路由算法及其改进。首先对簇头的功能进行了改
传统并发通信顺序进程(CSP)性质的验证通常使用3个不同的模型层面,从而增加了系统的复杂性和验证工具开发的难度;同时,主流的并发系统模型验证工具不支持在系统的一次运行中验
针对用模糊C-均值聚类算法选择初始聚类中心敏感及模糊加权指数m对模糊C-均值聚类算法的聚类性能影响较大等问题,利用粒子群优化算法的全局寻优能力强及收敛速度较快的特点,
分析了现有的4类文本水印算法的优缺点。应用RSA加密算法和BCH纠错编码对水印数据进行预处理,以增强水印数据的安全性和鲁棒性。通过改变word文档中字符颜色RGB分量的低位有
提出一种改进的基于模式的故障诊断方法。将故障定义为可以用正则表达式描述的模式,避免了传统的用"特殊"事件表示故障的局限性。将正则表达式转化成等价的确定性有限自动机,便
提出了一种基于XML小枝查询片段松弛的近似查询与结果排序方法来实现用户在XML文档中的近似查询:通过收集用户的查询历史来推测用户偏好,并以此计算原始小枝查询分解得到的查
在形式概念分析中,"箭头关系"对简化形式背景、识别兼容子背景等起着至关重要的作用,因此如何快速确定一个给定形式背景的对象与属性间的箭头关系是一个值得探讨的问题。首先针
近年来随着高速网络技术的发展与高频交易需求的增加,提升交易速度成为电子商务交易提供者的重要关切。当前交易系统通常采用基于共享存储的主备机复制方法来保证高可用性与