论文部分内容阅读
互联网科技蓬勃发展,新技术术语层出不穷。云计算、大数据、物联网等信息通信技术的发展,互联网+与各领域的融合,AI浪潮推动使互联网行业的竞争格局新变化。及时发现互联网新技术术语,可以辅助领域知识库构建,帮助人们把握互联网科技领域动态,发现研究热点和研发机会。本论文主要研究以互联网科技领域各种相关新闻资讯、博客、微信公众号作为信源,自动发现其中的新技术术语,例如:“虚拟货币”、“自动驾驶”、“胶囊网络”等复合型新技术术语。 统计学的术语度指标可以表征抽取词成为与特定领域有关的专业词汇的可能性大小。传统的TF-IDF术语度存在以下问题:①低频术语不易被提取。②对于“领域噪音”过滤能力不足。③将文档不同位置的权重不加区分。本文提出基于聚类和位置加权的wTF-ICF术语度算法。根据术语和噪音词位置分布特点,提出了从标题到正文不同位置权重递减的加权词频wTF统计方案。此外,将信源文档集按照内容相似度聚类,计算候选词的逆簇频率ICF。高频术语对应的文档数非常多,内容可能涉及多个不同的子话题,可能在多个簇中出现,低频术语可能聚成极少数的簇,故低频术语的ICF值会相对较高,从而缓解了低频术语不易提取的问题。由于领域噪声和背景噪声的出现并不依附于具体的新技术术语或话题,而是随机分布在很多不同的簇,故ICF得分很低。这样,降低了领域噪声、背景噪声的术语度得分。实验证明,根据wTF-ICF术语度算法可以很好地从候选词集合中初步筛选出新技术术语。 领域术语抽取通常采用机器学习算法将候选术语的语言学特征、统计学特征相结合。常用的是二分类或者序列标注的方法,这种方法只能定性判别哪些是术语,无法评价候选术语之间的好坏,无法量化每个候选术语的可靠性程度。而采用的单一统计指标或复合统计指标,并不能完全确定候选词应当是术语还是非术语,如“比特币”为强概率术语,“移动端”为弱概率术语。从排序学习的角度出发,我们提出了一种基于Learning-to-Rank的排序学习方法来进行候选术语的可靠性排序,并从语言学、统计学、位置分布、word embedding等多个维度提取候选词的特征,选择pointwise和pairwise方法和分类算法进行对比实验,结果表明Learning-to-Rank的方法提高了术语的准确率和召回率,并能给出一个更加有意义且用户友好的新技术术语列表。 最后集成前两部分的研究内容,设计并实现了一个完整的互联网新技术术语自动发现系统INTTADS(Internet New Technology Terminology Automatic Discover)。系统主要包含基于标题奇异度的垃圾文档过滤、基于单元度的候选术语提取、基于领域无关词的垃圾候选词过滤、基于wTF-ICF的术语度分析、基于Learning to Rank的候选术语排序这几大模块。应用于互联网新技术术语的自动发现,在实际中达到了良好的效果。