Sentiment Analysis

分类: NLP基础

Sentiment Analysis

定义

情感分析(Sentiment Analysis)是 NLP 中的经典分类任务,旨在自动识别文本所表达的情感倾向(正面、负面、中性)或更细粒度的情感类别(喜悦、愤怒、悲伤等)。它是文本分类的重要子领域,广泛应用于产品评论、社交媒体监控、舆情分析等场景。

核心要点

任务层级:文档级(整篇文档的情感)、句子级(单句情感判断)、方面级(aspect-based,对实体的不同方面分别判断情感,如 “食物好吃但服务差”)

经典方法演进:规则/词典方法(SentiWordNet)→ 特征工程 + SVM/NB → CNN/LSTM → 预训练模型微调(BERT、GPT)。预训练模型在 SST-2 等基准上已接近人类水平

CS224N 中的角色:情感分析是 CS224N Default Final Project 的核心下游任务之一,学生需要将预训练的小 GPT 模型微调到 Rotten Tomatoes 影评数据集上进行二分类

常用数据集:SST-2(Stanford Sentiment Treebank,二分类)、SST-5(五分类)、IMDB(长文本影评)、Rotten Tomatoes、Yelp Reviews

挑战:讽刺和反语检测(“这手机真好,用了三天就坏了”)、隐式情感(不含情感词但有情感倾向)、跨领域迁移(电子产品评论的模型用于餐厅评论)

代表工作

Pang & Lee (2002): Thumbs up? Sentiment Classification using Machine Learning Techniques

Socher et al. (2013): Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank (SST)

Devlin et al. (2019): BERT 在 SST-2 上取得 SOTA

相关概念

GPT

Fine-tuning

BERT

Distributional Semantics