Sentiment Analysis
分类: NLP基础
Sentiment Analysis
定义
情感分析(Sentiment Analysis)是 NLP 中的经典分类任务,旨在自动识别文本所表达的情感倾向(正面、负面、中性)或更细粒度的情感类别(喜悦、愤怒、悲伤等)。它是文本分类的重要子领域,广泛应用于产品评论、社交媒体监控、舆情分析等场景。
核心要点
任务层级:文档级(整篇文档的情感)、句子级(单句情感判断)、方面级(aspect-based,对实体的不同方面分别判断情感,如 “食物好吃但服务差”)
经典方法演进:规则/词典方法(SentiWordNet)→ 特征工程 + SVM/NB → CNN/LSTM → 预训练模型微调(BERT、GPT)。预训练模型在 SST-2 等基准上已接近人类水平
CS224N 中的角色:情感分析是 CS224N Default Final Project 的核心下游任务之一,学生需要将预训练的小 GPT 模型微调到 Rotten Tomatoes 影评数据集上进行二分类
常用数据集:SST-2(Stanford Sentiment Treebank,二分类)、SST-5(五分类)、IMDB(长文本影评)、Rotten Tomatoes、Yelp Reviews
挑战:讽刺和反语检测(“这手机真好,用了三天就坏了”)、隐式情感(不含情感词但有情感倾向)、跨领域迁移(电子产品评论的模型用于餐厅评论)
代表工作
Pang & Lee (2002): Thumbs up? Sentiment Classification using Machine Learning Techniques
Socher et al. (2013): Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank (SST)
Devlin et al. (2019): BERT 在 SST-2 上取得 SOTA