基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:luluwm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
古汉语信息处理的基础任务包括自动断句、自动分词、词性标注、专名识别等。大量的古汉语文本未经标点断句,所以词法分析等任务首先需要建立在断句基础之上。然而,分步处理容易造成错误的多级扩散,该文设计实现了古汉语断句与词法分析一体化的标注方法,基于BiLSTM-CRF神经网络模型在四种跨时代的测试集上验证了不同标注层次下模型对断句、词法分析的效果以及对不同时代文本标注的泛化能力。研究表明,一体化的标注方法对古汉语的断句、分词及词性标注任务的F1值均有提升。综合各测试集的实验结果,断句任务F1值达到78.95%,平
其他文献
文章阐述了在网络流量异常检测中应用主成分分析的应用范畴、主成分分析的常用算法等主成分分析的方法,针对网络流量数据源特点设计出了符合大规模网络安全态势分析实际应用的异常检测算法,在对原方法进行了适当调整并建立模型的同时,着重论述了主成分分析方法的检测评估过程,并对主成分分析方法在网络流量异常检测中的应用作了比较详细的描述。
1计算机病毒总体情况2014年9月,国家计算机病毒应急处理中心共发现病毒497,582个,比上月下降1.9%,新增病毒94,203个,比上月下降11.8%,感染计算机36,857,396台,比上月下降7.7%,主要传播途径仍以"网络钓鱼"和"网页挂马"为主。
“标准科技创新奖”是经国家奖励办公室批准,由中国工程建设标准化协会组织评选的我国工程建设标准化领域首个专属奖项。自第二届起增设标准大师奖、领军人才奖、青年人才奖
文章在阐述国内典型产教融合模式的基础上,探讨了目前高职院校在产教融合育人过程中存在的主要问题,提出高职院校应在设置独立的产教融合管理机构、跨界论证人才培养方案、打
工业互联网是信息化与工业化深度融合的产物,既可以理解为新产业新业态新模式,又可以看作是制造业智能化发展的重要基础设施。加快工业互联网发展对壮大工业基础、提升制造业
大数据时代,无论是微博、博客,还是论坛,都成为信息发布、传播以及互动的平台。数据量的增大并不只是带来了困扰,很多企业都希望能对这些信息进行收集整理,以期能够了解到市场的真
文章研究了基于OSPF路由欺骗的网络监听技术,研究结果对网络安全管理工作有一定意义。文章首先介绍了研究使用的网络环境。详细分析了攻击者伪造的链路状态通告报文。重点研究了R1和R2路由器应用Dijkstra算法更新各自路由表的计算过程。分析了攻击者获取路由器的身份认证信息的方法。
该文运用事件相关电位技术,观测汉语谐音双关语与语义双关语两者是否存在认知神经加工上的差异。结果发现,语义双关语的正确率明显低于谐音双关语以及不符合逻辑语篇的正确率
喷涂聚脲技术是一种具有极大发展潜力的超重防腐涂层技术,喷涂聚脲材料不含任何溶剂、成膜强度好、涂层耐老化、施工快捷,喷涂聚脲技术在海洋仪器防腐、海底管道防腐、储罐防腐
2月20日,公安部网络安全保卫局(国家网络与信息安全信息通报中心)在国家电网公司总部组织召开了关键信息基础设施安全保护工作现场经验交流会。国家发改委、科技部、财政部等国