面向文本聚类的实体—动作关联模型研究

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:ktyl2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文提出面向文本聚类分析的实体—动作关联模型EARM,探讨汉语语义实体及其行为的描述方法。汉语属于非形态语言,语句没有时态及语态的变化,词类跟句法成分之间也不是简单的一一对应关系。该文提出一种句法成分识别机制,根据词汇类别特征及位置特征识别实体及动作。在句法成分识别的基础上展开句法分析,通过匹配句型特征建立实体—动作关联模型EARM,描述实体的行为及状态。对于嵌套句型等较为复杂的句型结构,需要在句法分析过程中实施动作层次分解,将复杂语句分解为简单的基本句型,以便于挖掘实体—动作关联。考虑到汉语语法比较灵活,语句成分缺省和倒装现象相对普遍,该文提出了倒装句的识别机制,通过匹配接近的句型进行实体移位,调整语序。论述了基于统计模型的EARM权重量化策略,借助语法树的最大公共子图量化文本的相似度并实施聚类,设计并开展了EARM实体—动作分析实验和EARM聚类实验。实验结果表明EARM的分析是准确有效的,聚类结果是合理的。
其他文献
<正>从国家安全大格局看,依托中尼印经济走廊建设,将西藏自治区日喀则市打造成为中尼印经济走廊上对尼泊尔、印北地区具有较强经济辐射能力的重要支点城市,可以更积极有为地
改革开放是我们党领导人民进行的一场伟大社会革命。我有幸全程参与其中。1984年,风华正茂的我,24岁出任一家省属国营企业厂长。可能缺少经商细胞,30岁出头时我毅然辞去厂长
党的十九大报告以及2017年的中央经济工作会议均明确提出振兴实体经济的重大任务和具体举措。此举既是深入推进供给侧结构性改革的重要内容,亦是基于国家强大复兴的战略考虑
该文以维吾尔语和哈萨克语这一组相近语言为例,在哈语语料受限的情况下,使用领域外语料增补原始语料,经同化后提高了在口语风格短文本上进行语种识别的精确度。该文分析了维
<正>7月31日召开的中央政治局会议指出,坚持实施稳健的货币政策,提高政策的前瞻性、灵活性、有效性;同时把好货币供给总闸门,保持流动性合理充裕。政治局会议的要求为未来我