社交媒体知识图谱构建和知识推理的关键技术研究

来源 :科学导报·学术 | 被引量 : 0次 | 上传用户:quentin324
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘  要:随着社交媒体的发展,网络平台的言论逐渐趋于个体化,因此准确识别一个人对某话题的言论是否有夸大或偏激的成分便显得尤为重要。传统的社交媒体情感分析依靠词袋模型来表现言论积极或消极的态度,这样的方法往往会因每个人的用词习惯的不同而变得有失偏颇。对某人话语是否偏激的推理主要依靠对每个个体长期以来的用词习惯来进行判断。因此,本文提出了基于知识图谱和PageRank联合的偏颇性预测模型,为每个词定义了偏颇性分数,对判断言论是否存在一定的水分提供了重要依据。实验结果表明,文本的偏颇性得分在一定程度上确实可以判断用户的语言表达偏颇情况。
  关键词:知识图谱PageRank偏颇性分析情感推理
  1.引言:
  相对于电视广播、纸质报刊这类传统媒体来说,互联网无论从影响力还是舆论动员力方面都比传统媒体更加有力,然而社交媒体上的言论往往因为其庞大的信息量以及用户言论的片面性使得信息的水分过高,因此需要良好的识别系统来加以判定和筛选。而知识图谱在自然语言处理方面的角色更像是一个数据库,提供着记忆信息、提供信息的功能。构建完善的知识图谱有利于发现词与词之间人们有时意识不到的数值关系,从而在自然语言处理中发挥重要作用。本次实验就是围绕知识图谱的构建方法开始的。
  2.相关研究
  从技术层面来看,知识图谱构建技术在本质上要解决的问题是数据之间潜在关系的预测和知识之间关系推理。学术组织很早就关注了知识图谱相关技术的研究。1989年,第一届国际知识表示和推理国际会议(The First International Conference on Principles of Knowledge Representation and Reasoning)的召开,推动了知识表示和推理理论和技术的研究。2012年,谷歌公司发布了基于语义搜索的项目Knowledge Graph,使得万维网由基于数据链接的网络逐步进化为链接知识的网络。
  知识图谱推理是根据已知的实体之间关系推测实体之间的潜在关系,从而给知识图谱增加新的事实。PageRank是一种基于图模型的结点重要性排序方法,通常在搜索引擎中对网页链接的重要性权衡中发挥着很大的作用。本文将使用PageRank算法的变形对生成的知识图谱进行知识推理,并尝试用推理后构建出的图谱来预测文本的情感特征,检验推理图谱的可靠性。
  情感分析的方法主要可分为基于情感词典的情感分析方法和基于机器学习的情感分析方法。基于情感词典的情感分析是从待测文本中提取特征词后,在情感词典中查找该特征词的情感值,根据累加的情感值进行情感分类的方法[2]。在情感词典的选择上,一般有两种方式:一种是引用已有的情感词典,如HowNet词典、SentiWordNet、Inquirers等;另一种是通过研究数据自行构建词典,如R.Feldman等学者在已有的情感词典基础上,利用部分人工标注和Bootstrapping的方式提取情感词[1]。由于美国最早的社交媒体情感分析就是基于Twitter的社交媒体数据开展的,因此本文将采用针对Twitter平台已有的且准确率较高的情感分析词典SentiWordNet进行知识推理和话语的偏颇性判别。
  3.正文
  3.1实验准备
  3.1.1实验数据集
  本实验采用情感词典SentiWordNet_3.0.0来进行文本中词语积极性和消极性的匹配和提取,应用于Twitter用户名为METGALA、archie、best dressed三人的推文中来生成用户主体依赖的知识图谱。
  下载链接:
  推文:https://download.csdn.net/download/zzhaier/6640081
  情感词典:https://download.csdn.net/download/zzhaier/6640081
  3.1.2评价标准
  由于句子的情感表述无法通过准确率召回率等指标进行定量衡量,因此我们对最终的结果进行了人工评价,具体例子可以在3.2.3的部分看到。
  3.2实验过程
  本篇文章大体步骤可分为三个部分,首先依据情感词典和Twitter中用戶的话语来构建词与词之间的情感关系,生成一个两种极性词语全连接的庞大的双向图网络。其次改进PageRank算法利用词之间的双向关系计算每个词正向和逆向的偏颇值,给每个结点重新赋值。最后用新的推理图谱,以词语偏颇性代数和的结果判断话语是否偏颇或过激。
  3.2.1知识图谱构建
  现代知识图谱通常使用W3C Resource Description Framework(RDF)[Cyganiak et al.,2014]这一用于存储实体及其关系的基于图的数据模型,标准RDF以三元组(subject,predicate,object)(SPO)来表示事实。在本篇论文中,我们将predicate视作一种相关性的表示,这种相关性用权重值Weight来表示,Weight的值越大,subject与object的情感对立性越强,反之则越弱,最终用三元组(subject,Weight,object)来表示。假设我们用符号L表示某一篇推文,li表示隶属于L的每一个句子,对于句中任意的两个词Si和Ti,他们之间的Weight计算公式可如下表示:
  其中,若Si与Ti同为积极性词或同为消极性词,则二者之间的Weight将较小,即对立性弱,反之若Si和Ti为不同类情感,则二者Weight较大,对立性强。
  依照用户话语生成用三元组表示的图模型,用所有Weight的平均值为界限,将值较大的表示为红色,较小的表示为绿色,线条越粗表示距均值越远,用可视化图片表示出来如下:   以使用频率较高的love一词举例,该用户使用的与love对立性最强的词是never,最弱的词(也是情感较为相近的词)是honored。
  3.2.2知识推理
  目前,我们已经生成了一个词汇网络,下一步就是给每个节点的词重新赋值。首先我们以Weight的均值为中心点对Weight进行了数据规约。而后,根据PageRank的图理论原理,我们对每个结点的值采用如下计算方法:
  其中,Bu表示所有结点的集合,w+(i,j)和w-(i,j)分别表示连接到结点i的所有正Weight值和负Weight值,W+(j)和W-(j)分别表示与结点i相连的每个结点j的正Weight值之和及负Weight值之和。PR+(u)和PR-(u)分别代表与结点i相连的每个结点j的正Weight加权出度值之和与负加权出度值之和。为了更方便描述,以下图为例,假设图结构中只有四个结点A,B,C,D,则PR(A)、PR(B)、PR(C)、PR(D)计算方法如下:
  PR(A)=0–[W2/(W2+W3)+W1/W1]
  PR(B)=[W4/W4+W5/W5]-W1/(W1+W2)
  PR(C)=W4/(W4+W5)-[W2/(W1+W2)+W3/W3]
  PR(D)=W3/(W2+W3)-W5/(W4+W5)
  这里如果假设W2的值较高,即A点和C点在情感得分方面有着很强的关联性,则PR(A)和PR(C)的值将会变小,同时,与C存在对立关系的B点的PR(B)将会变大,也就是说,两个同为积极情感的词若总是同时出现,则该用户平时的推文表现应为平和正面的,而语句中一旦出现与其相反的消极词汇,该模型将会指出这条语句的偏颇性较大,且偏颇值会随着消极词汇的增多而增大;但等到该用户频繁使用消极词汇时,偏颇性又会减小。这与我们预想的效果基本一致。
  3.2.3话语偏颇性判定
  由于知识图谱是根据某个人长期以来的话语文本和用词习惯创建而来的,因此,在运用时,可作为这个特定的Twitter用户话语偏颇性的重要评判依据,为了检验此知识推理的效果,在生成的知识图谱中查找句中每个特征词的偏颇性分值,根据累加进行有无偏颇的判断,公式如下:
  由于句子的偏颇性都是相对而言的,单独计算出的Bia值在判断是否过激的层面上没有意义,因此待每句话都算出各自的Bia之后,对所有的值进行向0-1之间的归一化映射,便于我们查看和评判。
  实验效果如下表所示:
  可以看出,第一句话为积极话语,第二句话为消极话语,情感值反差较大,但偏颇值相似,第三句话由于all单词的情感词积极性值过高,其他词语全部中立,因此情感值较高,但经过偏颇性评价,偏颇值大于0.5,发现此话语异常于平时的表达方式,在此判别为过激语句,经过仔细的人工分析其情感,发现也基本符合判断。
  但同时与人工评价相比对,该模型评价偏颇话语的错误率也达到了48%,仅仅比随机预测效果好一点有限。
  4.结论
  本篇文章中设计了一个针对Twitter用户的知识图谱,该图是一个带权无向图,其权重是根据用户话语的情感词的值之差计算得到的。而后将此无向图视做一个双向图,我们设计了一个由PageRank改进来的结点值的静态计算方法来定义结点词语的偏颇性。最后为了检验我们的设想是否合理,运用数据集中未加入训练的10%的数据挑选进行测试,证明了我们的研究是有一定意义的。
  5.思考和展望
  知识图谱的构建技术是人工智能研究领域的一个前沿课题,此课题以知识工程、社交网络、机器学习等领域的关键技术为支撑,这些领域涌现出的最新研究成果为知识图谱的研究提供了新的研究思路和方法。本篇文章用于构建知识图谱的数据量相对而言也非常小,实体关系刻画也較为简单,还尚不足以发挥知识图谱的强大作用。情感分析中评价言论是否过激这一方面由于实际上因人而异。很难统一用一套标准来衡量所有人的过激言论,因此这一方面仍存在着可研究的地方,不排除需要培养机器“终身学习”的可能性,这将是存储资源飞速发展的时代带给人的新一种可能。
  参考文献
  [1]  易顺明,周洪斌,周国栋.Twitter推文与情感词典SentiWordNet匹配算法研究[J].南京师范大学学报(工程技术版),2016,16(03):41-47+53.
  [2]  赵常煜,吴亚平,王继民.“一带一路”倡议下的Twitter文本主题挖掘和情感分析[J/OL].图书情报工作:1-9[2020-04-21]
  [3]  平健舟.基于商业知识图谱的新闻舆情系统设计与实现[D].北京邮电大学,2019.
  [4]  Wei Chen,Xiao Zhang,Tengjiao Wang,等.Opinion-aware Knowledge Graph for Political Ideology Detection[C]//Twenty-Sixth International Joint Conference on Artificial Intelligence.2017.
其他文献
摘 要:随着社会不断发展,人们对生活质量要求也越来越高,环境工程逐渐受到社会各界的广泛关注,改善生活环境已经成为世界各国的广泛共识。同时,人们日常生产和生活中,有机化学也获得了广泛的应用,在满足人们生活需求方面发挥着重要作用。如何能够对有机化学加以合理应用,避免对环境带来污染成为世界各国共同面对的课题。结合有机化学对人们生活和环境的影响展开探讨,分析有机化学在环境工程中应用要点,并提出降低有机化学
期刊
摘 要:当前信息时代发展速度越来越快,因此各行各业都需要对目前复杂的数据进行有效地整理。从实际情况出发,不断地重视对大数据的有效管理,才可以更好地顺应时代发展的需求。在档案管理领域中,因为涉及到众多的信息,就需要提供数据,保存社会中的相关记录,同时可以随时进行检阅、搜寻、查找、利用。而这些也构成了大数据时代下档案管理工作的主要内容。由于所涉及的任务繁杂,因此就需要采取有效的措施,来不断完善目前的档
期刊
摘 要:书籍是人类获取知识、增长见识、陶冶性情的重要途径,也是应该“从娃娃抓起”的发展大事。少年儿童年龄跨度之大,语言发展之迅速,阅读需求之精细等等诸多因素都推动着社会各界加入分级阅读的研究及推广行列。本文从公共图书馆当前的阅读推广现状入手,研究未成年人实施分级阅读的必要性,为其阅读推广服务提供一些有用的思路。  关键词:公共图书馆;未成年人;分级阅读  在我国素质教育已经施行多年的今天,核心素养
期刊
摘 要:年初爆发的新冠肺炎疫情是建国以来传播速度最快、感染范围最广、防控难度最大的一次重大突发公共卫生事件,给社会正常的运转、民众的正常工作生活带来改变,也对人们日常的心理状态造成冲击。本文通过总结疫情期间民众心理新需求,分析引发心理问题的新特点,阐明做好危机事件心理疏导工作的新理念,探讨心理疏导工作的新方法,减轻疫情对大众心理的干扰和可能造成的心理伤害,促进社会稳定。  关键词:危机应对;心理疏
期刊
摘 要:近年来我国已经处于新的发展时期,有越来越多的人认识到了环境保护的重要性,园林绿化工程的建设规模也在不断的扩大,这也给园林景观绿化施工技术提出了更高的要求以及挑战。人们对于环境质量的要求越来越高,做好园林景观绿化工作就显得非常重要。为了打造更加优质的园林景观,在园林景观设计及施工应用时更应该注重绿化种植施工技术的规范性、重要性,从而加强绿化园林景观的建设。  关键词:绿化种植;施工技术;园林
期刊
摘 要:当今医疗技术不断发展,人们日常生活中对医疗的需求也逐步上升。医药市场的不断规范与整改,可以确保医药社会市场的正常运转,这对于医药行业的健康发展有着十分重要的作用。基于当前社会医疗需求过程中体现的一些医药管理问题,对保障药品质量以及临床规范用药有着不利影响。因此,本文将针对目前医药管理的 现状进行简单阐述,同时剖析医药管理中的常见问题以及相应的整改措施,以改善医药管理水平与质量,使其更好为临
期刊
如今,随着交通意外事故的不断发生,重症颅脑外伤的发生率也在不断升高,由于这种病症一般是突发的,所以病情复杂,还会引起多类神经系统功能障碍和脏器受损等,如果处理不好就会导致患者死亡。因此,在这样的前提下,为了提高患者存活率,在对这类患者进行护理的过程中,对它实施了个性化护理。那么个性化护理在重症颅脑损伤中都有哪些内容哪?下面就让我们一起来了解一下。  一、个性化护理在重症颅脑损伤中应用的重要性  在
期刊
摘 要:近年来,地质灾害频发,极大地危害着人类的生产生活,因此了解地质灾害及其防治措施具有重要的意义。本文以山西省石楼县为例着重分析了地质灾害发生的地质环境及其成因,并提出了科学合理的防治建议,具有一定的借鉴作用。  关键词:石楼县;不稳定性斜坡;崩塌;滑坡  石楼县地处黄土高原吕梁山西麓,地形起伏高差大,地质构造条件复杂,年降水量集中,形成崩塌、滑坡等地质灾害的动力条件充分,自然地质灾害极易发生
期刊
在当今这个时代,食品微生物检验已经变得越来越重要,它直接影响着人们的身体健康,特別是在高品质生活的今天,人们对食品的安全越来越重视,食品微生物检验质量要求随之变高,检测人员就需对食品微生物检验工作加以重视,保证采取有效措施提高检验质量,为食品微生物检验的发展做贡献。  食品微生物的命名及分类  我们把与食品有关的微生物都叫作食品微生物,也就是说食品中有生命的微小物体我们都可以称之为食品微生物。包括
期刊
摘 要:我国中小企业已经发展为了国民经济重要支柱,对促进社会进步也贡献出了不可替代的积极作用,重视并加强中小企业发展成为了当今世界热点潮流。文章就如何推动中小企业服务体系建设做了简单探讨,通过分析其建设过程中存在的几点问题,提出了有效的优化路径,希望能为相关企业的发展与进步提供经验借鉴。  关键词:中小企业;服务体系建设;优化路径  引言  新经济时代下,各行各业都开始步入了转型升级阶段,面临着创
期刊