利用N-gram和语义分析的维吾尔语文本相似性检测方法

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:alexhome
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了实现维吾尔语文本的相似性检测,提出一种基于N-gram和语义分析的相似性检测方法。根据维吾尔语单词特征,采用了N-gram统计模型来获得词语,并根据词语在文本中的出现频率来构建词语-文本关系矩阵,并作为文本模型。采用了潜在语义分析(LSA)来获得词语及其文本之间的隐藏关联,以此解决维吾尔语词义模糊的问题,并获得准确的相似度。在包含重组和同义词替换的剽窃文本集上进行实验,结果表明该方法能够准确有效地检测出相似性。
其他文献
茶饮料乱加防腐剂、蜜饯甜味剂严重超标、面粉中增白剂被屡亮“红灯”……只要对食品安全稍加关注,消费者就不难发现,近几年在质监和卫生部门对食品质量的抽检中,食品添加剂
西城区某电器商场降价处理一批29寸彩电,消费者张某到商场购买,商场告之张某,这批彩电属积压商品,外观有些磨损,因此降价销售,保修期为半年,张某就买了一台。谁知过了半年,双
<正> 产品未终生产厂家已倒闭 家住菜市口的吴大妈最近向本刊投诉三年前购买的一台冷柜忽然罢工了。于是她按保修单上所列的维修点打电话过去,得到的答复是“这是住家,不是什
以往传统的链路预测方法大多数针对无向网络,而实际上大多数社交网络是有向的,并且没有考虑网络中同一节点对之间的重复边以及微观演化信息,因此不能较好地解决有向动态网络中的链路预测问题。针对有向网络,将节点对之间的重复边信息转换为该节点对之间连边的权值;接着采用了基于三元组模体的演化模型,对滑动窗口中相邻时间片的模体转换概率进行统计后,采用指数加权滑动平均法对其进行时序分析得到不同模体转换概率的预测矩阵
科技不但保证了百姓餐桌的丰富,更保证了百姓餐桌的安全。我国的老百姓都已实实在在感受到:自家的餐桌不仅变得越来越丰盛了,而且绿色食品的消费量也逐日多了起来,这些都是《
针对目前反向计算模型还无法实现对建筑室内边界对流换热量进行反向计算这一制约性差距,采用温度贡献率方法,将边界对流换热量与室内测点温度之间表示成因果关系的温度贡献因子矩阵,基于计算流体力学,将最小二乘与Tikhonov正则化方法相结合,建立依据室内数个测点的离散温度求解边界对流换热量的反问题数学模型。应用三维通风空腔和某建筑内一间办公室进行实验验证,模型求解值与实测值的均方根差均小于80%,结果表明
在缺乏足够先验知识下,自适应癫痫发作期识别异常困难。提出一种新的度量通道之间的同步特征计算方法(聚类划分互信息),以相关矩阵方式组织单窗口内全局同步特征模式,进而设计一种跨层全连接神经网络分类器,对非平稳同步特征模式实现自适应分类。实验表明该方法可获得[98. 19%±0. 24%]精确度,[98. 27%±0. 51%]敏感度和[98. 11%±0. 36%]特异度,超过了现有大部分方法的分类性
空中签名序列长,为了解决传统的全局匹配方法造成的匹配慢、签名的局部信息丢失的问题,提出了对签名数据进行极值点分段再进行距离度量的方法。并针对传统DTW算法在极值点匹配中产生的不同极性极值点错匹配问题,提出了一种基于极值点匹配的改进DTW算法,约束DTW算法的匹配路径规则,避免错误匹配情况。在本地数据库上,系统的误拒率(FRR)和误纳率(FAR)分别达到了4. 15%和3. 82%。实验结果表明,与
如何更好地保护量子图像的版权,是量子水印技术的一个重要研究课题。基于对数极坐标的量子图像表示,提出了一种新颖的量子水印算法。根据通信双方共享一组密钥的值,发送方选择量子载体图像像素灰度值的高四位中的某一位作为受控位;再根据所选受控位的值,发送方将水印信息嵌入到量子载体图像的最低有效位或次最低有效位上。这种基于密钥的受控最低有效位修改技术提高了量子水印图像的透明性和稳健性。基于MATLAB的实验仿真
跨站脚本是一种常见的针对Web应用程序安全的漏洞攻击方式。恶意用户利用漏洞将恶意脚本注入网页之中,当用户浏览该网页时,便会触发脚本,导致攻击行为产生。为此,针对各种变形跨站脚本攻击难以检测问题,对一种基于正则表达式和支持向量机的递归特征消去算法(RE-SVM-RFE)进行了研究。首先采用正则表达式匹配算法,为训练集选择有代表性的特征,即对数据预处理;再利用RE-SVM-RFE特征选择算法选择出最优