Ordsim：电子商务查询相似性预测的序数回归

论文标题

Ordsim：电子商务查询相似性预测的序数回归

ORDSIM: Ordinal Regression for E-Commerce Query Similarity Prediction

论文作者

Kabir, Md. Ahsanul, Hasan, Mohammad Al, Mandal, Aritra, Tunkelang, Daniel, Wu, Zhe

论文摘要

查询相似性预测任务通常通过具有正方形损失的基于回归的模型来解决。这样的模型是绝对相似性值的不可知论，它在同一尺度上的所有相似性值的所有范围内惩罚了回归误差。但是，为了提高电子商务平台的货币化，重要的是要比低级相似性更准确地预测高级相似性，因为高度相似的查询根据用户本质检索项目，而中等相似的项目检索相关项目，这可能不会导致购买。回归模型无法自定义其损失函数，以集中在高相似性频段周围，从而导致查询相似性预测任务的性能差。我们通过将查询预测视为序数回归问题，从而解决上述挑战，从而提出了一个模型Ordsim（相似性预测的序数回归）。 Ordsim利用可变宽度的存储桶来建模序数损失，这会严厉地惩罚高级相似性的错误，从而使回归模型能够为高相似性值获得更好的预测结果。我们在eBay平台的100万电子商务查询数据集上评估Ordsim，并表明与该数据集的竞争回归方法相比，Ordsim的预测错误大大较小。

Query similarity prediction task is generally solved by regression based models with square loss. Such a model is agnostic of absolute similarity values and it penalizes the regression error at all ranges of similarity values at the same scale. However, to boost e-commerce platform's monetization, it is important to predict high-level similarity more accurately than low-level similarity, as highly similar queries retrieves items according to user-intents, whereas moderately similar item retrieves related items, which may not lead to a purchase. Regression models fail to customize its loss function to concentrate around the high-similarity band, resulting poor performance in query similarity prediction task. We address the above challenge by considering the query prediction as an ordinal regression problem, and thereby propose a model, ORDSIM (ORDinal Regression for SIMilarity Prediction). ORDSIM exploits variable-width buckets to model ordinal loss, which penalizes errors in high-level similarity harshly, and thus enable the regression model to obtain better prediction results for high similarity values. We evaluate ORDSIM on a dataset of over 10 millions e-commerce queries from eBay platform and show that ORDSIM achieves substantially smaller prediction error compared to the competing regression methods on this dataset.

下载PDF全文

下载文献需遵守相关版权规定

论文标题