论文标题
重新评估词汇pour ladétectionnonSuperioniséeD'événementsdan un flux de Tweets:étudesur sur des corpusfrançaiset anglais an anglais
Représentations lexicales pour la détection non supervisée d'événements dans un flux de tweets : étude sur des corpus français et anglais
论文作者
论文摘要
在这项工作中,我们评估了最新文本嵌入式的性能,以自动检测一系列推文中的事件。我们将此任务建模为一个动态的聚类问题。我们的实验是在我们团队注释的法语注释的英语和类似数据集上进行的公开可用的台推文语料库。我们表明,基于深层神经网络(Elmo,通用句子编码器,伯特,Sbert)的最新技术虽然在许多应用程序上有希望,但并不适合此任务。我们还尝试了不同类型的微调,以在法国数据上改善这些结果。最后,我们对获得的结果进行了详细的分析,显示了TF-IDF方法的优越性。
In this work, we evaluate the performance of recent text embeddings for the automatic detection of events in a stream of tweets. We model this task as a dynamic clustering problem.Our experiments are conducted on a publicly available corpus of tweets in English and on a similar dataset in French annotated by our team. We show that recent techniques based on deep neural networks (ELMo, Universal Sentence Encoder, BERT, SBERT), although promising on many applications, are not very suitable for this task. We also experiment with different types of fine-tuning to improve these results on French data. Finally, we propose a detailed analysis of the results obtained, showing the superiority of tf-idf approaches for this task.