GruPaTo at SemEval-2020 Task 12: Retraining mBERT on Social Media and Fine-tuned Offensive Language Models

Davide Colla; Tommaso Caselli; Valerio Basile; Jelena Mitrović; Michael Granitzer

Conference ProceedingsOPEN ACCESS

GruPaTo at SemEval-2020 Task 12: Retraining mBERT on Social Media and Fine-tuned Offensive Language Models

14th International Workshops on Semantic Evaluation, SemEval 2020 - co-located 28th International Conference on Computational Linguistics, COLING 2020, Proceedings (2020) 1546-1554

DOI: 10.18653/v1/2020.semeval-1.202

8Citations

64Readers

Abstract

We introduce an approach to multilingual Offensive Language Detection based on the mBERT transformer model. We download extra training data from Twitter in English, Danish, and Turkish, and use it to re-train the model. We then fine-tuned the model on the provided training data and, in some configurations, implement transfer learning approach exploiting the typological relatedness between English and Danish. Our systems obtained good results across the three languages (.9036 for EN,.7619 for DA, and.7789 for TR).

Cite

CITATION STYLE

APA

Colla, D., Caselli, T., Basile, V., Mitrović, J., & Granitzer, M. (2020). GruPaTo at SemEval-2020 Task 12: Retraining mBERT on Social Media and Fine-tuned Offensive Language Models. In 14th International Workshops on Semantic Evaluation, SemEval 2020 - co-located 28th International Conference on Computational Linguistics, COLING 2020, Proceedings (pp. 1546–1554). International Committee for Computational Linguistics. https://doi.org/10.18653/v1/2020.semeval-1.202

GruPaTo at SemEval-2020 Task 12: Retraining mBERT on Social Media and Fine-tuned Offensive Language Models

Abstract

Cite

Register to see more suggestions