Sentiment Analysis

分类: NLP基础

定义

情感分析（Sentiment Analysis）是 NLP 中的经典分类任务，旨在自动识别文本所表达的情感倾向（正面、负面、中性）或更细粒度的情感类别（喜悦、愤怒、悲伤等）。它是文本分类的重要子领域，广泛应用于产品评论、社交媒体监控、舆情分析等场景。

任务层级：文档级（整篇文档的情感）、句子级（单句情感判断）、方面级（aspect-based，对实体的不同方面分别判断情感，如 “食物好吃但服务差”）

经典方法演进：规则/词典方法（SentiWordNet）→ 特征工程 + SVM/NB → CNN/LSTM → 预训练模型微调（BERT、GPT）。预训练模型在 SST-2 等基准上已接近人类水平

CS224N 中的角色：情感分析是 CS224N Default Final Project 的核心下游任务之一，学生需要将预训练的小 GPT 模型微调到 Rotten Tomatoes 影评数据集上进行二分类

常用数据集：SST-2（Stanford Sentiment Treebank，二分类）、SST-5（五分类）、IMDB（长文本影评）、Rotten Tomatoes、Yelp Reviews

挑战：讽刺和反语检测（“这手机真好，用了三天就坏了”）、隐式情感（不含情感词但有情感倾向）、跨领域迁移（电子产品评论的模型用于餐厅评论）

Pang & Lee (2002): Thumbs up? Sentiment Classification using Machine Learning Techniques

Socher et al. (2013): Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank (SST)

Devlin et al. (2019): BERT 在 SST-2 上取得 SOTA