一种挖掘网页标题中命名实体的远距监督方法

来源 :中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标 | 被引量 : 0次 | 上传用户：z178933143

【摘要】

：

　　本文提出了一种利用百度百科自然标注数据来远距监督网页标题中命名实体挖掘的新方法。首先，通过关联规则挖掘，从百科词条标签数据集中挖掘出层次化的类别结构；然后，以特定类

【作者】

：

胡腾王厚峰赵世奇张超

【机构】

：

北京大学,北京 100871

【出处】

：

中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标

【发表日期】

：

2015年期

【关键词】

：

关联规则挖掘网页标题命名实体训练数据挖掘方法百科语法模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　本文提出了一种利用百度百科自然标注数据来远距监督网页标题中命名实体挖掘的新方法。首先，通过关联规则挖掘，从百科词条标签数据集中挖掘出层次化的类别结构；然后，以特定类别下百科实体的参考资料网址和相应网页标题作为训练数据，利用一种基于跳跃二元语法模型的贪心策略，学习得到网址和网页标题的混合模板，用于从网页标题中挖掘对应类别的命名实体。实验结果表明，相较于其他使用同类数据源的挖掘方法，我们的方法在挖掘效率、召回量以及部分类别的准确率上都有显著提升。

其他文献

制造业出口、分工深化效应与企业的劳动收入占比

劳动者收入占比一直是中国经济增长中的一个热点问题。企业劳动收入占比反映了劳动和资本在出口收益分配中的相对地位及其收入分配关系。本文运用1998-2007年间企业层面的出口数据,实证分析了中国制造业出口对出口企业劳动收入占比的影响,并考察了出口影响企业劳动收入占比变动的传导机制,发现中国制造业出口对出口企业劳动收入占比具有显著的提升作用,出口企业劳动收入占比的提升是分工深化效应下生产结构转变的结果。本文澄清了所谓的＂中国出口导向增长模式＂不利于劳动者报酬提升的主流观点,有利于正确认识出口对收入分配的作用。

期刊

劳动收入收入分配关系资本产出比劳动者收入成本加成率收益分配经济增长技术进步劳动者报酬内生性问题

现代维吾尔语词干词类标注标记集验证性研究

　　本文以维吾尔语小学语文教材语料为验证对象，使用从语法语义相结合角度制定的《现代维吾尔语词干词类标注标记集》，对维吾尔语小学语文教材词干进行了词性标注，验证该标记集

会议

现代维吾尔语语词词类标注标记集小学语文教材验证信息处理词性标注

现代维吾尔语句子成分分析技术研究

　　句子成分分析是自然语言处理研究中的重点和难点。首先陈述现代维吾尔语短语和句子之间的关系、语类间的相互关系及现代维吾尔语单句成分划分问题；其次讨论现代维吾尔语语

会议

现代维吾尔语句子成分成分分析成分划分自然语言处理预测算法研究内容相互关系

浅谈招贴设计中图形符号的运用与表现

招贴设计通过平面形式以向观众传达信息为目的展示着其独特的魅力,图形符号的介入给招贴设计注入新的活力。图形符号的表现应具有较强的时代性、文化性、认知性、审美性,具有

期刊

招贴设计图形符号文字设计平面设计师思维空间靳埭强平面形式认知性审美性形式美法则

1，1，3，3-四甲基-2-环己基胍的合成及其在ADC合成反应中的应用

胍类化合物是一种有机强碱，在有机合成反应中被广泛用作碱性催化剂或助剂。本文首先以四甲基脲(TMU)和环己胺为原料，采用三氯氧磷法合成了1,3,3-四甲基-2-环己基胍(CyTMG)，并对

学位

胍类化合物有机强碱有机合成反应碱性催化剂酯交换法催化性能离子液体

原癌蛋白LM02与乳腺癌转移的相关性研究及其分子生物学机制初探

原癌基因lmo2(也称Ttg-2或Rbtn-2)定位于人类11p13，最早是从带有染色体易位t(11；14)(p13；q11)的急性T淋巴细胞白血病患者病变细胞的染色体断裂点处克隆得到的，是特异性与T淋巴细

学位

原癌蛋白转录本形式调控因子下游靶基因分子生物学机制

循环经济视角的酒店企业绿色管理模式研究——以长沙神农大酒店为例

有“无烟工业”之称的旅游业并不是一个低耗能的行业，中国旅游业近年来快速发展，产业规模不断壮大，在国民经济中的影响力逐步提升，然而对自然资源和社会文化资源造成了巨大的破坏

学位

循环经济酒店企业绿色管理能耗标准

蒙古文拼写形式多样化问题研究

　　蒙古文文本中存在一个有别于多数其他文字的特别现象──看到的单词字形正确但其内码序列不正确，或者说单词“变形显现字形”序列正确但“名义字符”序列不正确的现象，我们

会议

融合热点话题的微博转发预测研究

　　微博转发行为是实现信息传播的重要方式，微博转发预测对微博影响力分析、微博话题分析具有重要价值.现有微博转发预测研究大多围绕消息属性、用户属性等微博自身特征，本文

会议

热点话题预测准确性行为模式影响力分析自身特征属性重要价值真实数据

论元青花大器彩绘纹饰上的凹凸

某些元青花大器釉下钴蓝彩绘纹饰呈现出浮雕般的立体感,其显著区别于铜官窑、磁州窑等中国传统陶瓷彩绘纹饰平面化的装饰效果。元青花大器上的这种立体彩绘纹饰或许是吸收借

期刊

元青花彩绘佛教凹凸画瓷上工笔彩绘

一种挖掘网页标题中命名实体的远距监督方法

与本文相关的学术论文