【摘 要】
:
在大数据时代,众包平台收集数据越来越方便,同一个问题可以从不同源获得很多答案,这些答案甚至彼此冲突。因此,如何从众多答案中获得真实信息(即,真值)一直是一个研究的热点问题。众多学者提出了各种真相发现方法,但是现有的方法只能处理分类类型数据或数值类型数据,而没有办法很好的应用到文本类型数据。基于上述问题,本文旨在研究如何对中文文本数据进行真相发现。中文词语有其特殊的语义特征,不同的词语可能表达相同或
论文部分内容阅读
在大数据时代,众包平台收集数据越来越方便,同一个问题可以从不同源获得很多答案,这些答案甚至彼此冲突。因此,如何从众多答案中获得真实信息(即,真值)一直是一个研究的热点问题。众多学者提出了各种真相发现方法,但是现有的方法只能处理分类类型数据或数值类型数据,而没有办法很好的应用到文本类型数据。基于上述问题,本文旨在研究如何对中文文本数据进行真相发现。中文词语有其特殊的语义特征,不同的词语可能表达相同或者相似的含义,将中文文本作为分类类型数据进行处理,完全忽略其语义特征显然是不合理的。本文通过将中文词语映射到词向量空间中,根据词语在向量空间中的距离来表征不同词语之间的相似度。此外,考虑到文本数据中不仅包含问题答案,还包含一些隐含信息,例如,文本中使用的“可能,可以,确保,相似,相同”等词语。这些词语虽然与问题答案无关,但可以反映出源的自信程度。本文充分利用这些隐含信息提出了一个基于源自信度的中文文本数据真相发现方法。该方法分为对中文文本数据预处理和进行真相发现两个过程。对中文文本数据预处理首先需要对中文文本数据进行分词;然后创建自信程度增强词典和自信程度减弱词典,并且使用词典从答案描述中提取源的自信程度信息构建自信程度矩阵;最后使用Word2vec模型构建中文词向量并从文本描述中提取问题答案。本文使用一个三步迭代的优化算法,利用中文文本数据预处理过程中得到的自信程度矩阵和词向量进行真相发现过程。最后本文使用两个真实的中文文本数据集进行了实验。通过和其他方法的比较,证明了本文提出的基于源自信度的中文文本数据真相发现方法的的优越性;并且通过实验参数的对比表明了考虑中文文本中的隐含信息可以进一步提升真相发现结果的准确度。
其他文献
雨是常见的恶劣天气现象,会严重降低采集到的视频图像质量,影响户外视觉系统对自然场景内容的有效提取。近年来对高质量视频的迫切需求,使视频去雨任务引起广泛的关注,并且成为当下研究的热点之一。目前针对视频去雨任务的方法大致能分为两类:基于传统物理模型驱动的算法和基于神经网络的算法。视频中所包含的信息繁多,传统模型的方法需要建立复杂的先验约束刻画该任务模型,所含参数量过于庞大。深度学习的方法虽然一定程度上
在软件的整个生命周期过程中,为了满足用户不断变化的产品需求,开发人员经常经常在时间压力下进行软件升级与维护,从而导致代码异味的产生。通常,这些异味会对软件造成极大的隐患,引起了学术界和工业界的高度关注。继承冗余是危害最严重的代码异味之一,并且在代码中出现的频率较高。然而,此种异味却很少被研究,主要因为存在两个挑战:(1)数据集的缺失(2)继承冗余代码异味的检测规则较难设计。针对上述问题,本文提出了
5G通信技术以低延迟的技术特性为物联网海量设备的连接和实时控制提供了强有力的支持。物联网已被应用到各生产过程中来提高经济效益,但通信负载的不均衡使部分节点快速消耗大量能量,严重制约着网络性能的进一步提升。因此,如何构建一个负载均衡的物联网异构拓扑结构已成为关键问题。多汇聚节点网络已被证明可以有效避免能量空洞问题。通过在网络中部署多个汇聚节点,可以有效减轻单汇聚网络中靠近汇聚节点的部分节点上的数据压
SQL语句的测试用例生成工作是软件工程领域中一项重要而又具有挑战性的任务。由于以数据库为中心的应用程序在生产生活中的重要性,SQL语句的测试用例生成已经引起了广泛的关注。其主要的目标是,构建一组测试数据库,用于满足指定的覆盖准则。然而,由于SQL语句本身的复杂性,为SQL语句生成测试用例将是一项非常困难和耗时的工作。现有的研究大都将该问题建模为单目标优化问题,并采用单目标方法进行求解。然而,由于对
图像融合是信息处理领域的重要课题,旨在从信息互补的两张或多张图像中提取出完整的视觉信息,融合生成一张信息丰富、边缘清晰的图像。融合图像更符合人眼视觉系统感知习惯,并能够为后续的计算机视觉感知提供易于辨别的特征。图像融合任务的挑战在于如何在融合图像中保留显著且完整的源图像信息。近年来,随着卷积神经网络技术的快速发展,图像融合技术取得了令人瞩目的进步,但是大部分的方法仅仅局限于处理单一的图像融合任务,
对于高校学生来说,除了学习以外还有其他的业余活动,有的学生有丰富的兴趣爱好,还有的学生兴趣爱好比较匮乏。在心理学中,兴趣作为人们内在的一种力量,对个人未来的发展起重大影响。通过调研发现,当前关于学生兴趣的研究大多基于社交网络或者单一维度特征,很少从多元特征出发对学生兴趣进行研究,本文基于教育数据从多元特征出发对学生兴趣进行了研究。本文首先对学生数据进行了分析,希望从海量数据集中挖掘有效的学生兴趣信
3D打印在不同领域得到了广泛应用。路径规划是3D打印过程中的一个重要环节,优化路径规划方法不仅可以提高成型质量,还可以提高打印效率。然而,传统路径规划方法在打印复杂薄壁结构时效果不理想。本文首先利用强化学习的智能性,提出了一种基于Q-learning的适用于复杂薄壁结构的路径规划方法。首先将强化学习中的路径规划任务转换为全遍历问题,以提高打印效率和成型质量为优化目标,即最小化打印头的总启停次数和转
物联网在现代社会得到了广泛的部署,比如消防预警、边境反恐和智慧农业等,这些应用要求物联网具有较低的数据延迟和较高的生命周期。无标度物联网模型可以抵抗节点由于能源耗尽和硬件故障发生的随机损耗,而在针对网络中关键节点的恶意攻击下却十分脆弱。因此,提升无标度物联网的鲁棒性,维持网络在恶意攻击下的连通性极其重要。神经网络模型对于序列建模任务具有极强的特征提取能力。将拓扑鲁棒性优化问题转化为序列预测任务可以
3D打印技术因其高度定制化等优势,目前广泛应用于骨外科的缺损修复手术中。仿生骨的研究分为两个阶段,对仿生骨建模和打印实体。建模方式分为两类,使用螺旋CT扫描骨关节和构建多孔结构晶胞。螺旋CT扫描的缺点在于无法重建骨质内部多孔结构,而简单多孔结构晶胞边缘尖锐,机械性能不好。本文提出了一种基于三周期极小曲面的仿生骨设计与优化算法。如果直接使用宏观尺度优化算法优化微孔径,会存在计算机内存不足、计算效率低
共识算法作为区块链的底层核心技术,能够在去中心(多中心)的分布式环境下保持不同节点间数据账本的一致,是维系区块链系统稳定运行的关键所在。当前联盟区块链中应用最为广泛的共识算法是实用拜占庭容错共识算法(Practical Byzantine Fault Tolerance,PBFT),作为传统分布式领域的一致性协议,PBFT算法在应用于区块链系统时,还需要在性能和可靠性方面再进行针对性地设计和优化。