如何提升网约车用户体验?南大&滴滴提出复合弱监督学习方法,AUC提升5%以上

2020-02-25 14:41:05 来源:网络整理 作者:管理员

原标题:如何提升网约车用户体验?南大&滴滴提出复合弱监督学习方法,AUC提升5%以上

作者 | 郭兰哲

编辑 | 贾伟

本文解读南京大学机器学习与数据挖掘LAMDA研究所李宇峰研究组与滴滴网约车技术团队合作完成的工作《Weakly Supervised Learning Meets Ride-Sharing User Experience Enhancement》,发表于AAAI 2020。

如何提升网约车用户体验?南大&滴滴提出复合弱监督学习方法,AUC提升5%以上

论文链接:https://arxiv.org/abs/2001.09027

现有机器学习技术得以成功的背后往往依赖充足的标记数据。然而,充足标记数据的获取非常困难,因为现实任务中数据标记的速度往往赶不上数据产生的速度。弱监督学习(不依赖充足标记数据的机器学习框架)[1]更为贴近现实任务,但也更为困难。

弱监督学习研究主要围绕各种特定弱监督数据信号开展[1]。例如,半监督学习旨在研究监督信息不完整(Incomplete)的数据;噪声标记学习旨在研究监督信息不准确(Inaccurate)的数据;多示例学习旨在研究监督信息不具体(Inexact)的数据等。南京大学LAMDA团队常年来对弱监督学习相关技术瓶颈开展基础研究,提出了具有性能保障的安全半/弱监督学习、自动半监督学习等工作[2][3]。

随着弱监督学习不断走向实际应用,单纯的弱监督学习技术已越来越难于满足现实任务的需求。其原因之一在于,往常的弱监督学习技术仅适合一种弱监督数据信号,类似于某药方(弱监督学习技术)仅适用于某特定病症(弱监督数据信号)。然而,现实任务的数据同时伴随着多种弱监督数据信号时有发生,类似于多种病症常伴随出现。能够协同处理多种病症的复合弱监督学习(Compound Weakly Supervised Learning)技术非常必要。然而,该方面鲜有相关基础研究工作,也包括结合实际业务数据的应用案例剖析,亟待开展研究。

本文基于滴滴智能司乘评价的实际业务场景,展示复合弱监督学习的必要性和实际效用。

具体而言,业务背景情况如下:随着移动互联网颠覆性变革,网约车不断发展普及,已进入人们日常生活。滴滴作为领先的一站式移动出行平台,深刻影响着人们的出行和生活方式。为尽可能地提升用户体验、建设良好的司乘生态,网约车智能司乘评价体系起着至关重要的作用,需兼顾乘客体验、司机接单公平性与平台效能。

在智能评价体系中,每个乘客乘车结束后手机端都会收到一个推荐的评价问题,如“司机是否绕路?”。如果该回答能够很好的反映出此次行程的不足,那将有助于平台对司机进行教育,以提高用户的体验。借助机器学习来进行评价问题推荐就是智能评价体系的主要目标。

然而,这其中存在两个严重影响机器学习性能的数据问题,

一是数据存在严重的标记噪声,因为评价结果往往受到乘客主观因素的影响,导致收集到的标记不准确,同时也存在着大量误操作和乘客随意评价的情况;

二是数据标记分布存在偏差,即训练数据中差评与好评数据的标记分布和真实线上环境的标记分布存在明显的差距。

围绕这类实际数据问题,需要发展复合弱监督学习技术。本文提出的复合弱监督学习技术明显优于单纯弱监督学习技术,可将AUC性能提升5%以上。

技术方案

本文技术方案采取一种基于双层优化的新框架。具体而言,针对标记噪声问题,我们对样本进行赋权,其目的是希望能够对噪声样本赋予较低的权重,从而减少其对模型性能的影响,目标函数如下所示:

如何提升网约车用户体验?南大&滴滴提出复合弱监督学习方法,AUC提升5%以上

其中w表示样本权值,θ为模型参数。

针对标记分布不匹配的问题,我们优化对标记分布更为鲁棒的性能指标AUC:

如何提升网约车用户体验?南大&滴滴提出复合弱监督学习方法,AUC提升5%以上

此外,“好”的样本赋权机制应该可以保证其得到的模型在验证数据上表现良好。综合以上思路,技术方案采用如下双层优化目标式实现:

如何提升网约车用户体验?南大&滴滴提出复合弱监督学习方法,AUC提升5%以上

其中内层优化步骤最小化训练数据上的经验风险,外层优化步骤评估验证数据上的性能表现。两者的结合,不断优化训练模型。

技术方案的整体流程如下图所示:

如何提升网约车用户体验?南大&滴滴提出复合弱监督学习方法,AUC提升5%以上

同时,文章为技术方案提出了高效的优化算法。详细优化技术细节请参见论文阐述。

应用效果

在滴滴司乘评价数据中,复合弱监督学习技术方案和仅考虑一种弱监督数据信号的单纯弱监督学习算法进行比较。比较方法包括标记分布修正[4]后的监督学习算法: Logistic Regression (LR)、Deep Neural Network (DNN)、XGBoost;处理标记噪声的SOTA算法 Rank Pruning[5],GLC[6]和LTR[7],具体的实验结果如下:

如何提升网约车用户体验?南大&滴滴提出复合弱监督学习方法,AUC提升5%以上

本文提出的复合弱监督学习技术方案明显优于单纯弱监督学习技术,可将AUC性能提升5%以上,并维持不错的效率。

该研究成果不仅在评价数据的利用上对推荐结果有很好的提升,并且对司乘纠纷公平判责、地图POI挖掘等场景有比较好的借鉴意义。

参考文献

[1] Zhi-Hua Zhou. "A brief introduction to weakly supervised learning." National Science Review 5.1 (2018): 44-53.

[2] Yu-Feng Li, Lan-Zhe Guo, and Zhi-Hua Zhou. "Towards Safe Weakly Supervised Learning." IEEE Transactions on Pattern Analysis and Machine Intelligence (2019).

[3] Yu-Feng Li, Hai Wang, Tong Wei, Wei-Wei Tu. Towards Automated Semi-Supervised Learning. AAAI'19, Honolulu, HI, 2019, pp.4237-4244.

[4] Dal Pozzolo, A., Caelen, O., Johnson, R. A., & Bontempi, G. "Calibrating probability with undersampling for unbalanced classification." IEEE Symposium Series on Computational Intelligence, 2015, 159-166.

[5] Northcutt, C. G.; Wu, T.; and Chuang, I. L. Learning with confident examples: Rank pruning for robust classification with noisy labels. UAI 2017.

[6] Hendrycks, D.; Mazeika, M.; Wilson, D.; and Gimpel, K. Using trusted data to train deep networks on labels corrupted by severe noise. NIPS 2018, 10456–10465.

[7] Ren, M.; Zeng, W.; Yang, B.; and Urtasun, R. Learning to reweight examples for robust deep learning. ICML 2018, 4331–4340.

显示全文
为您推荐
钱姓起源和来历:活了八百岁的彭祖竟然是钱氏祖先
钱姓起源和来历:活了八百岁的彭祖竟然是钱氏祖先

钱姓排于百家姓中的第二位,虽然起源和来历并不多,但是钱姓人却分布广泛,成为了中国姓氏中的第二大姓。钱姓的主要来源就是彭祖的儿子篯孚,彭祖的真名叫做篯铿,是因为被尧封于大彭而得姓-彭,而他的儿子篯孚因为掌管着钱财,任职钱府上士,所以便为“钱”姓,所以彭钱是一家。...

发布时间:2024-09-20 20:03:27

胡服最早由谁引入中原?赵武灵王为推行骑射改革服饰
胡服最早由谁引入中原?赵武灵王为推行骑射改革服饰

胡服最早是由春秋战国时的赵武灵王-赵雍引入中原的,因为当时赵国的地形和地理位置都非常不好,常年深受战争威胁,加上赵武灵王继位之后,时局不稳,周边国家都想要攻打赵国,所以赵武灵王便下令让全员都推行胡服,并且学习骑射,相较于宽大的汉服更加便于行动。...

发布时间:2024-09-20 19:05:44

赛艇运动起源于哪里?英国船工无聊时竞赛(造就贵族运动)
赛艇运动起源于哪里?英国船工无聊时竞赛(造就贵族运动)

赛艇运动起源于英国的泰晤士河上,当时还是17世纪,英国泰晤士河上的船工在工作之余经常会举办一些赛船,久而久之就形成了一种习俗,在1715年的时候,为了庆祝英王的卫冕,所以第一次正式举办了赛艇比赛,最终在1775年发展为一个正式的运动项目,并且成立了相应的运动俱乐部。...

发布时间:2024-09-20 18:04:28

为什么不能用宸字取名?哪些名字普通人扛不起
为什么不能用宸字取名?哪些名字普通人扛不起

人们之所以不愿意或者不敢以“宸”为名,主要是因为在古时候“宸”有着“深邃的房屋”的意思,也就是专指皇帝的居住场所,象征着无上的权力,所以“宸”字自然也就成为了禁忌,不过现代人大多是害怕这个字的气势,普通人的命格扛不住。...

发布时间:2024-09-20 17:00:53

商细蕊原型是谁?原来四位京剧名旦都是灵感来源
商细蕊原型是谁?原来四位京剧名旦都是灵感来源

商细蕊是电视剧《鬓边不是海棠红》中的京剧名旦,很多人都为他和海归商人程凤台的知己故事而动容,但遗憾的是在历史长河中并没有商细蕊真正的原型,只能说他可能是作者根据历史上著名的京剧名旦构建的一个角色,因为他和梅兰芳、程砚秋、尚小云以及徐碧云等四人的经历和性格都有着极为相似之处。...

发布时间:2024-09-20 16:05:01

历史上著名的美女有哪些:杨玉环,君王不早朝(绝世美女)
历史上著名的美女有哪些:杨玉环,君王不早朝(绝世美女)

在中华上下五千年的历史长河中,除了王朝更替的政治生活与文化生活,还有一些美貌的女子点缀着历史的绘卷,那么在悠悠岁月中有哪些著名的美女呢?下面小编就来为大家盘点一下吧!...

发布时间:2024-09-20 15:04:04

历史上妃嫔最少的皇帝:明孝宗朱佑樘,独爱张皇后(童年不幸)
历史上妃嫔最少的皇帝:明孝宗朱佑樘,独爱张皇后(童年不幸)

谈及古代帝王,最让人津津乐道的当属那后宫佳丽三千,不过也不是所有的帝王都有那么充实的后宫,比如历史上有一位皇帝就只有一位妻子,是不是让人有点不敢相信,下面小编就带大家一起了解下吧!...

发布时间:2024-09-20 14:01:05

历史上最长情的皇帝:顺治皇帝,挚爱董鄂妃(为爱出家)
历史上最长情的皇帝:顺治皇帝,挚爱董鄂妃(为爱出家)

自古无情帝王家,说到帝王的爱情多是奢望,很多帝王后宫的妃子换了一个又一个,几乎都是薄情寡义的,但是漫长的历史长河中也有例外,有的皇帝便与众不同,特别的长情,下面小编来为大家介绍一下历史上最长情的皇帝吧!...

发布时间:2024-09-20 13:03:24

武侠剧中的绝世高手有哪些:扫地僧,化险为夷(秒杀高手)
武侠剧中的绝世高手有哪些:扫地僧,化险为夷(秒杀高手)

可以说人的成长伴随着无数的武侠剧,尤其是电视剧中的那些绝世高手更是让人影响深刻,有不少人小时候都幻想过可以武功盖世,一统江湖,那么有人知道武侠剧中有哪些绝世高手吗?下面小编为大家盘点一下吧!...

发布时间:2024-09-20 12:02:19

电视剧中的古装美女:刘亦菲,举止摇曳生姿(天仙下凡)
电视剧中的古装美女:刘亦菲,举止摇曳生姿(天仙下凡)

古装电视剧中有许多的美丽的女子,她们身着美丽的衣裳,一举一动摇曳生姿,美得让人挪不开双眼,可以说是一场视觉盛宴,下面就让小编为大家盘点一下那些古装美女吧!...

发布时间:2024-09-20 11:09:01

清朝古装剧中的美人:刘诗诗,若曦无人超越(顾盼生姿)
清朝古装剧中的美人:刘诗诗,若曦无人超越(顾盼生姿)

近年清朝古装剧收视率暴涨,这些电视剧不仅剧情引人入胜,身着清装的美人也同样吸引了不少目光,有着让人过目不忘的美貌,那么清朝古装剧中有哪些美人呢?下面小编就来为大家盘点一下吧!...

发布时间:2024-09-20 11:02:08

小青龟能长多大:背甲14厘米,体色会变化(濒危物种)
小青龟能长多大:背甲14厘米,体色会变化(濒危物种)

养龟市场上经常可以看到小青龟,这种乌龟乖巧可爱以及性情温顺,所以很多人都会选择小青龟来饲养,不过一直都是见到小青龟都比较小,这不禁令人好奇这种乌龟能长多大?下面小编就带大家一起了解一下小青龟吧!...

发布时间:2024-09-20 10:01:47