文本分类是自然语言处理(NLP)最基础核心的任务,或者换句话说,几乎所有的任务都是「分类」任务,或者涉及到「分类」这个概念。情感分析是文本分类中非常主要的一个方向,应用场景非常广泛。
我们将中文文本情感分析分为三大类型,第一个是应用情感词典和句式结构方法来做的;第二个是使用传统机器学习方法来做的,例如Bayes、SVM等;第三个是应用深度学习的方法来做的,例如LSTM、CNN、LSTM+CNN、BERT+CNN等。
这三种方法中,第一种不需要人工标注,也不需要训练,第二种和第三种方法都需要人工标注大量的数据,然后做有监督的模型训练。
4种实现方法
├── sentiment-analysis
└── sentiment_analysis_dict
└── sentiment_analysis_bayes
└── sentiment_analysis_albert
└── sentiment_analysis_albert_emoji
基于词典的方法。
基于传统机器学习bayes的方法。
基于深度学习的方法,使用了语言模型ALBERT和下游任务框架TextCNN。
基于深度学习的方法,使用了语言模型ALBERT和下游任务框架TextCNN。
引入未知token(emoji是其中的一种),在微调过程的同时学习未知token的语义向量,从而达到识别未知token情感语义的目的。
基于词典的文本情感分析(附代码)
文本分类 [ALBERT+TextCNN] [中文情感分析](附代码)
中文情感分析 [emoji 表情符号]