NLP读书笔记:第四章-语言学应用(概略)

这里讲述的主要是语言学早期的应用,应用主要包括以下几个方面:

情绪分析

情绪分析主要指对文章的情绪,主要是倾向性进行分析。最简单的情绪分析是将文本分类为正面、负面和中性情绪。最早期的方法也主要是bag-of-words。

词义消岐

由于单词在不同的话当中往往具有不同的意思,所以有必要在不同的语句中对单词表达的含义进行消岐。这之前首先要确定单词究竟有多少个意思,这部分工作已经由WordNet完成,值得一提的是,ImageNet也采用了WordNet的序号来进行种类标注,序号串极长,最开始不知道原委的时候笔者看的也是一脸懵逼。处理这种问题简单来讲就是用分类方法把出现该单词的语句进行分类,从而得到应该对应意思的种类。当然,也可以基于单词和其它单词的组合和相对位置来进行分类。

文本分类

顾名思义,对文本进行分类,分类的方式根据需求多种多样。从步骤上来讲包括分词、归一化(词性统一)、以及词数统计等。在词数统计方面,通过数量和有无的分辨方式最为常见,试验证明死后有无的分辨方式会带来更好的效果。

分类器评估

分为三个指标,精度,召回率和F-测度,前两者不再累述,第三者则是前两者的调和平均。另外还有一个衡量指标是AUC(area under curve),通常用来衡量的曲线是ROC,精确预测的数值是1,完全错误的预测是0.