【摘 要】
:
微博文本语法不规范且多由短语组成,严重影响了现有针对规范、长句文本设计的命名实体识别算法的性能.针对上述问题,本文提出了一种融合词性信息的微博文本命名实体识别模型.
【基金项目】
:
国家自然科学基金项目“基于多源特征学习的中文查询纠错方法研究”(61672040),新闻出版业科技与标准重点实验室项目“数字出版物信息交换规范研究”(4020548418X8),北方工业大学科研启动基金项目.
论文部分内容阅读
微博文本语法不规范且多由短语组成,严重影响了现有针对规范、长句文本设计的命名实体识别算法的性能.针对上述问题,本文提出了一种融合词性信息的微博文本命名实体识别模型.该模型通过分词工具提取词性信息,将词性信息作为特征与单词嵌入向量结合后输入双向长短期记忆神经网络,最后使用条件随机场对神经网络输出进行解码,从而实现词性特征辅助命名实体识别.实验结果表明,融合词性信息的命名实体识别模型,显著提高了微博文本命名实体识别的准确率.相比于其它模型,该模型F1值提高了1.88%.
其他文献
以二乙烯三胺、双氰胺、氯化铵、壳聚糖为原料制备了无醛固色剂L-CS,将该产品用于直接染料染棉布,实验结果表明:该染色棉布的干摩擦牢度达到4级;湿摩擦牢度3级;原样皂洗褪色4
省级以下生源成为高校新生的主体,以上海大学图书馆为代表的高校图书馆针对“图书馆认知”薄弱的新生,在学校、学院、图书馆三方的重视与协作下,充分利用网络,吸收时尚元素,对传统
税收征管法实施细则规定,纳税人发生解散、撤销、破产以及其他情形,依法中止纳税义务的,还应当依法向原税务登记机关申报办理注销税务登记。按照《公司法》及《破产法》等有关规
材料暂估入账是指企业采购的材料已验收入库,而供应商发票等结算凭证尚未收到,月末按暂估价入账,到下月初再红字冲回。这种做法至少存在如下不足:①材料早已入库,却要到月末才暂估
数位化论文典藏联盟(DDC)是台港地区最具规模的西文博硕士数位论文联盟,该联盟成功的因素有合理且分工明确的组织机构、简洁而有效的分工作业、多样可供选择的应用模式、详尽全
目的:采用Meta分析方法评价热毒宁注射剂治疗慢性阻塞性肺疾病急性加重期(AECOPD)的临床疗效及安全性。方法:计算机检索PubMed、Cochrane Library、Embase、SinoMed、中国知网
脱发是中老年男士或多或少面临的问题,向大家推荐七种防脱护发食物:杏仁坚固秀发研究发现,脱发的人更易缺乏维生素B6、维生素E、铁和锌。另外,高脂肪饮食会造成男性雄性激素增加,
以环氧氯丙烷、三甲胺、硫酸为原料合成纤维素纤维改性剂AM,研究了反应物量比,反应溶液的pH值及反应温度对产物合成转化率的影响,并得出了合成产物的优化工艺;采用改性剂AM对
介绍了装有新型充气搅拌装置的FJC20-4A型煤用喷射式浮选机的工作原理、充气性能以及在望峰岗选煤厂的应用情况。应用情况表明,该新型浸没式充气搅拌装置的可靠性较好。
以中央民族大学和台湾Z大学社会工作专业的学生为研究对象,运用专业认同量表和专业情境量表,从适切性认同、认知性认同、行为性认同和情感性认同四个方面来测量社会工作专业