Python用BERT进行中文情感分类记录了详细操作及完整程序源代码+说明+数据
 
BERT的代码同论文里描述的一致,主要分为两个部分。一个是**训练语言模型(language model)的预训练(pretrain)部分**。另一个是**训练具体任务(task)的fine-tune部分**。
在开源的代码中,预训练的入口是在run_pretraining.py而fine-tune的入口针对不同的任务分别在run_classifier.py和run_squad.py。
其中run_classifier.py适用的任务为分类任务。如CoLA、MRPC、MultiNLI这些数据集。而run_squad.py适用的是阅读理解(MRC)任务,如squad2.0和squad1.1。
因此如果要在自己的数据集上fine-tune跑代码,需要编写类似run_classifier.py的具体任务文件。
本实验,是用BERT进行中文情感分类,以下介绍具体操作步骤。
对于中文而言,google公布了一个参数较小的BERT预训练模型。具体参数数值