【摘 要】
:
从非结构化文本中抽取给定实体的属性及属性值,将属性抽取看作是一个序列标注问题.为避免人工标注训练语料,充分利用百度百科信息框(Infobox)已有的结构化内容,对非结构化文
【机 构】
:
中国科学院自动化所模式识别国家重点实验室
【基金项目】
:
国家自然科学基金(61070106), 国家“973”计划(2012CB316300), 清华信息科学与技术国家实验室(筹)基金资助项目
论文部分内容阅读
从非结构化文本中抽取给定实体的属性及属性值,将属性抽取看作是一个序列标注问题.为避免人工标注训练语料,充分利用百度百科信息框(Infobox)已有的结构化内容,对非结构化文本回标自动产生训练数据.在得到训练语料后,结合中文特点,选取多维度特征训练序列标注模型,并利用上下文信息进一步提高系统性能,进而在非结构化文本中抽取出实体的属性及属性值.实验结果表明:该方法在百度百科多个类别中均有效;同时,该方法可以直接扩展到类似的非结构化文本中抽取属性.
其他文献
采用递推矩阵方法计算径向成层介质的Green函数并将其作为电磁波电阻率仪器的基本理论.根据圆柱形层界面处电场和磁场的连续性条件得到确定待定系数的矩阵方程组并通过递推方法快速求解.只需改变方程组中源项元素的位置,就可以方便地得到当源点和场点在任意层时的Green函数,形式简洁、易于编程.采用将变型Bessel函数的指数项单独列出的方式有效地解决了Green函数计算中的上溢问题.用上述Green函数对
对物理大地测量领域中关于基础理论和方法研究的有关国际组织进行简要介绍 .依据参加第 2 2届 IUGG大会所获得的信息对国际上关于大地测量数学理论与方法以及数据处理方面的研究进展进行综述
研究了骨髓增殖性肿瘤治疗药物TG101348的合成工艺.将2,4-二羟基-5-甲基嘧啶与三氯氧磷、氨水发生氯化、取代反应生成2-氯-4-氨基-5-甲基嘧啶(Ⅲ),而后Ⅲ与N-叔丁基-3-溴苯磺酰胺
SAR图像以其独有的全天时、全天候观测能力、形态探测能力和对地表的穿透性,在地学应用中比光学遥感更具优势.本文结合SAR图像检测和识别应用技术的发展过程,综述了SAR图像在噪声抑制、线状特征和纹理特征提取、图像分割和目标检测等方面的研究进展;介绍SAR图像检测和识别的最新研究情况;最后分析当今国内外SAR图像检测和识别所面临的问题,并对未来发展进行展望.
研究了图的Fractional控制问题,主要给出了关于联图的Fractional控制数的1个上界,由此确定了几类特殊联图的Fractional控制数,并推广了部分已知的结果.
对6种不同类型大孔树脂吸附荔枝核黄酮的性能进行了比较,筛选出效果较好的HPD-300大孔树脂用于纯化荔枝核黄酮,考察了HPD-300大孔树脂的吸附纯化特性和吸附动力学.实验结果显示H
利用无限级型函数和无限级Borel方向的一个等价条件,研究了微分方程f"+A(z)f=0解的零点聚值线和Borel方向之间的关系,其中A4(z)是超越亚纯函数且σ(A)<∞.
目的观察甘露聚糖肽胶囊联合5-氨基酮戊酸光动力(ALA-PDT)及CO2激光治疗尖锐湿疣的临床效果。方法选择2015年2月至2017年10月我院100例尖锐湿疣患者,以随机数字表法分为试验