丹麦戈沃沃德项目

论文标题

丹麦戈沃沃德项目

The Danish Gigaword Project

论文作者

Strømberg-Derczynski, Leon, Ciosici, Manuel R., Baglini, Rebekah, Christiansen, Morten H., Dalsgaard, Jacob Aarup, Fusaroli, Riccardo, Henrichsen, Peter Juel, Hvingelby, Rasmus, Kirkedal, Andreas, Kjeldsen, Alex Speed, Ladefoged, Claus, Nielsen, Finn Årup, Petersen, Malte Lau, Rystrøm, Jonathan Hvithamar, Varab, Daniel

论文摘要

丹麦语言技术受到现代NLP的规模缺乏宽覆盖的语料库的阻碍。本文描述了丹麦戈加沃德语料库，这是为了提供多样化和自由开放的十亿个丹麦文本语料库的重点努力的结果。丹麦戈沃沃德语料库涵盖了各种各样的时间段，域名，演讲者的社会经济地位和丹麦方言。

Danish language technology has been hindered by a lack of broad-coverage corpora at the scale modern NLP prefers. This paper describes the Danish Gigaword Corpus, the result of a focused effort to provide a diverse and freely-available one billion word corpus of Danish text. The Danish Gigaword corpus covers a wide array of time periods, domains, speakers' socio-economic status, and Danish dialects.

下载PDF全文

下载文献需遵守相关版权规定

论文标题