【摘 要】
:
建立了面向信息处理的汉语词类体系并完成了8万词语的归类,进而分类描述每个词语的详细语法属性."大规模基本标注语料库"则对数千万字文本完成了词语切分和词性标注等基本加
【机 构】
:
北京大学计算语言学研究所,北京,100871
论文部分内容阅读
<现代汉语语法信息词典>建立了面向信息处理的汉语词类体系并完成了8万词语的归类,进而分类描述每个词语的详细语法属性."大规模基本标注语料库"则对数千万字文本完成了词语切分和词性标注等基本加工.以北大计算语言学研究所拥有的这两项大型语言数据资源为基础,本文计量分析词的兼类问题,给出了一些词兼属不同词类的概率.基本标注语料库将在文本中承担名词功能的动词v标注为名动词vn,据此本文定量地考察汉语中一部分双音节动词向名词漂移的动态过程.
其他文献
本文为移动WebServices提出基于JAVA的解决方案及其优化方案-基于上下文的移动WebServices,根据获得的客户端上下文信息处理SOAP消息.根据信息的新类型对上下文进行扩展.由We
通过语义分析可以理解自然语言语句,并进行深入的知识获取和推理,使计算机能够与人类无障碍的沟通.为达此目的,人们已经进行了多年的努力,然而目前取得的效果并不理想.浅层语
本文提出一种在BBS环境下进行热门话题挖掘的算法.BBS以讨论为主的文体决定了同一话题的文章在词语向量上并不一定相似,单纯采用基于向量空间模型的聚类算法难以有效地完成话
随着信息技术迅速发展和通讯手段的多样化,人们之间相互交流所产生的邮件、BBS论坛、即时消息等短文本在网络信息流中的地位日益突出.对于此类信息的组织和分析挖掘在话题检
近年带标语料库被业内人士誉为金本位,主要是因为它们常常被用作自然语言处理系统训练和测试的语料,起到标准答案的作用.作者指出带标语料库实际上是某种特定语言信息最原始
任何一篇报道文章的作者对有关事情或人物都不免带有或多或少的正面或负面评述色彩,举简单的例子来说,把同样情况说成「节俭」或「吝啬」,把「半杯酒」说成「半杯满酒」或「
对单向M40J/5228A复合材料进行了真空热循环试验(93~413K,10Pa),分别测试了经不同次数真空热循环后材料的90°和0°拉伸强度、弯曲强度和层剪强度,并通过扫描电镜对试样断口
单晶合金涡轮叶片,由于高温性能优于多晶合金,现已广泛地应用在航空发动机的热端部件中.它是正交各向异性材料,本构模型复杂,研究这种叶片的热弹性蠕变行为是非常必要的.R.Hi
通过对活塞杆材料金相组织、化学成分、硬度的检测及活塞杆断口的分析,发现镀层、基体及镀层与基体的结合部位均有大量裂纹存在,断裂性质为脆性断裂.对活塞杆镀层的应力进行
第一部分阐述了短裂纹研究的理论和实际意义,给出了目前对短裂纹的两种定义和短裂纹形成原因的三种解释.描述了短裂纹的特征,并按短裂纹生长过程中作用的不同机制将它的生长