面向电力文本领域的数据挖掘探索研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:yl9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
以智能化工具作为代表的信息技术近年来迅速发展,不仅加速了工业化与信息化的融合,带动了国民经济的增长,同时这些也正深刻地改变着人们的生活和生产方式。而由于具体领域的不同,信息文本的表达也具有明显的领域性特征。这就给相关信息的描述和利用查询工具识别出信息的所属领域,并同时能够精确的表达专业词汇要传达的语义信息带来了很大的困难。随着智能电网控制的进一步发展,电力相关的企业积累了大量电力领域所产生的文本数据,同时网络上关于电力领域的论文和报道也是逐渐变多。而现有的文本数据挖掘研究多是针对情感相关的分类,对于工业和电力领域的文本挖掘的研究却鲜有报道,如何有效的利用这些文本数据成为当下研究的热点,而对于专业领域的文本挖掘工作一直以来都是信息届的难点问题,研究者不但要具有扎实的互联网基础,同时也要对相关领域的知识有着充分的理解,这就更给诸如电力和工业领域的文本挖掘处理工作带来了困难。为了解决上述提到的电力文本数据的难处理问题,本文从提取电力文本领域关键词,电网投诉文本的分类,电力文本的语料库和词典构造三个方面进行研究。1.本文详细介绍了现有的电力领域的文本类别,针对电力领域关键词的提取问题,利用电力领域的相关数据集和从网上爬取到的有关电力行业的数据为基础,对电力领域的文本进行了新词发现和关键词提取的工作,得到了可观的电力领域相关的特征词汇。尝试利用这些词汇作为电力领域文本分词的词典,通过分词的实验表明:相对于传统的中文通用词典,本文所建立的词典可以显著的提高电力文本的分词效果。2.本文针对电网公司的一些投诉文本进行了分类实验,利用了传统机器学习中的朴素贝叶斯分类器、SVM(支持向量机)分类器以及逻辑回归分类器等对这些数据进行了分类实验。同时本文探索了这些机器学习算法处理电力领域文本的分类效果,对比了电力投诉文本在不同算法下的分类效果。3.针对缺少公开的电力语料库和电力领域词典的问题,本文使用从网上爬取的相关电力领域的文本和电力领域的数据集设计了电力领域的语料库,将其分为电力网络文本语料库和电力专业术语库,并且编纂和设计了电力文本的领域词典,给出了电力文本领域词典的构造方法,编纂了上万词的电力领域词典。
其他文献
一个永久磁铁的爪力量线性同步马达(PMLSM ) 被分析,相应最优化方法被介绍减少它。爪力量,被划分成二个部件,源于结束效果并且源于 slotting 效果,能被有限元素方法分别地分析(女
在这份报纸,为在强风接收装置的空间 multiplexing 系统的天线选择问题被调查。以便寻找最佳的天线子集,一个选择标准被建议,它能获得最大的最小的察觉以后的 SNR。要求的天线的
在现在的纸我们在场多项式的一个类为 semidefinite 优化的最初双的内部点的算法基于一个内核工作。这核功能不由于它线性地增加的生长术语是所谓的自我常规的功能。一些新分
当在保险分析并且评估风险时,人们经常与不完全的信息和不够的数据的状况被面对,它作为一个小样品的问题被知道。在这份报纸,在保险的一个一个维的小样品的问题用核密度评价方法
用马鈥檚 方程,我们在否定折射能在与常规单轴的媒介联系的接口在被认识到的最大的事件和折射角度上执行理论分析。在数字分析,在哪个折射产生的最大的事件和折射角度被优化单
目的观察拉米夫定联合阿德福韦酯与恩替卡韦单药治疗HBeAg阳性慢性乙型肝炎96周的疗效,以探讨理想的初始抗病毒治疗方案。方法选择HBeAg阳性慢性乙型肝炎患者86例,随机分为单
<正> 专利制度是一种法律制度,属于上层建筑的范畴。从历史起源来看,专利制度虽然是随着资本主义制度的发展而发展起来的,但它却不是资本主义特有的东西,而是商品生产充分发展的必然产物,它经历了三百多年的演变和充实。通过专利法来保护、鼓励发明创造,促进科学技术发展,现已成为一种比较完整、系统的国际通行的科学技术管理制度。中华人民共和国第一部专利法经过五年多的准备,于1984年3月12日诞生了,并于1985年4月1日起实施。它是我国的一部重要的经济技术法规,也是我国经济技术体制的一次重要改革。我国专
时代的不断变化,社会经济不断地发展,科学技术不断进步,网商成为了如今创业者追求的潮流,从而导致实体店趋向急速下降的趋势发展,消费者随着社会的进步,也会首选网络交易平台进行交易,因为消费者和创业者的需要,网络交易平台不断推出出新。众所周知,淘宝是一个规模庞大的网商平台,趁此机会,凭借着自身的资源和服务优势,随即成为了亚洲影响力巨大的网络交易平台。即便如此,规模越大,暴露的缺点越多,淘宝在发展的同时,
利用旋转主分量分析方法将我国春、夏、秋冬四季气温场分别划分为7、7、6、5个自然区域。对各季各区气温的极大熵谱分析表明,我国气温存在准两年、准7年等周期变化,且这些周期具有明