京东城市时空数据引擎—JUST 如何通过轨迹数据恢复小区路网

双十一将至,又到了网购的狂欢季!伴随互联网的高速发展,中国电子商务交易总额已从2008年的3.14万亿元增长至2018年的31.63万亿元,网上零售规模从0.13万亿元猛增到9万亿元,中国已成为名副其实的“全球第一大网络零售大国”。


与之相随的,是快递行业的迅猛发展,据国家邮政局2019年4月11日发布的《2018年中国快递发展指数报告》显示——2018年,我国快递业务量达到507.1亿件,人均快件使用量为36件。


多年来,京东一直以良好的物流体验而驰骋业界,业务发展迅速。随着智能技术在物流终端的普遍应用,京东累积了大量的智能终端实时轨迹数据,如今在京东购物时,只要点开京东APP的订单跟踪页,就可以实时地查看小哥的位置,每一时刻小哥位置的组合,就是一组轨迹数据,小哥每天的工作轨迹,就由这组轨迹数据,一五一十地记录了下来。



同时,除了快递小哥之外,外卖小哥、地推小哥、家政小姐姐等,也在我们的生活中扮演了重要的角色,他们每天要和快递小哥一样,不断在我们生活的小区中辛苦地穿梭,那么我们有没有想过,他们是如何规划自已一天的工作路径顺序的?或者说,有没有一种方式,帮助他们能够快速地规划自己一天工作的最优路径呢?


其实,对于他们而言,虽然电子导航对于主干道的路网信息很准确,但对于小区内的路网信息并不完善,不少小区道路并未在电子导航中被标识出来,这些信息对于他们每天的工作却特别重要。


如果小区内的地图数据本身就是错的或者缺失的,又谈何路径的优化?


近日,京东城市通过自研的时空数据引擎—JUST,解决的正是“路径优化”缺少基础信息的难题,即在主干道电子地图趋于完善的同时,如何对小区内相对欠缺的路网电子地图进行修复,呈现出地图上缺失的道路,以得到精准的路网地图,并预测每条道路的通行时间,来优化路径,提高整体工作效率,提升客户体验。


核心难点

目前,市面上大多数的电子导航主要为主干道的信息,对于小区级路网数据,信息并不完善,且由于小区内路况复杂,有些为步行道,有些为机动车道,导航的结果并不准确,这也造成实际的通行时间处于未知状态。


解决方式

为了以更低的成本、更高的效率得到更为精准的数据,我们通过对北京市某区域数终端轨迹数据进行采样,来对小区内相对欠缺的路网电子地图进行修复,呈现出地图上缺失的道路,进行细粒度的路网、通行时间和通行模式的采集和计算。



实验结果

通过采样后,我们得到了如下的数据:


原本只有96.8千米的路网,经过采集之后,扩充为166.3千米,恢复路网达69.5千米,恢复路网增益达71.7%。恢复的小区内的细粒度的电子地图,可带来较大的数据价值。


根据民政部官网统计,目前中国大陆的地级行政区有333个,每个行政区每年都要为粗颗粒度的主干道路网进行采购,按照行业内的平均价格,目前每年每个地级市要花费10万块来采购更新粗颗粒度的路网数据来算,我们可以得出这个数字——10万/年/地级市 × 333 = 3330万/年,而细颗粒度的小区级别路网采购成本更高,业内价格至少为粗粒度采购价格的5倍,如此算来,细粒度的采购成本保守估计为——3330万/年(主干道, 车辆) * 5(小区无法行车,成本更高) = 16650万元/年。也就是说,我们这种方法每年可带来可观的数据价值,并且可以凭借这些数据来产生更多的经济价值。


技术优势

其实,此前也有相关的研究人员做过此类实验,但往往会遇到以下三个问题:


1.小区内的路网复杂,海量智能终端每天的持续记录,往往会产生TB级别的海量轨迹数据;


2.由于智能终端的携带者在不停的移动,数据以每3秒的频次来更新,所以数据频率更新非常快;


3.由于GPS的精度问题,可能会造成5到15米的误差,这对于轨迹数据最终的精确度会产生很大影响。


针对数据量大、更新频率高的痛点,京东城市采用了自研的时空大数据引擎——JUST,解决了现有机器学习和云计算处理能力达不到有效处理时空数据的痛点。


相比于传统的数据处理方式,JUST在底层的数据库之上,加入了各类的时空数据建模的能力和常用的时空/轨迹数据预处理能力、索引能力,支持类似于SQL的时空查询operator来方便数据工程师的使用,此举极大地提高了数据分析和挖掘的效率,实验数据显示轨迹数据查询比传统的系统快了100-1000倍,解决了数据量大、更新频率高的问题。目前,相关论文已被国际顶级学术会议收录,得到了行业内的极大关注。(TrajMesa: A Distributed NoSQL Storage Engine for Big Trajectory Data, ICDE 2020, CCF A类,国际顶级会议))

针对GPS精度问题(由于建筑、桥梁等因素,GPS定位可能有5~15米的误差),该项研究的解决方案共分为3步:


首先是输入海量的智能终端轨迹数据,以弥补缺失的小区内细粒度的路网数据。


第二是对轨迹数据进行过滤,删除或者修正那些由于GPS精度问题而带来的误差数据;并对轨迹进行分段,将有效的数据进行提炼,同时加快后续的数据处理速度;最后将轨迹地图进行匹配,减少误差的产生,


第三是得到科学的处理后的轨迹数据后,对电子地图进行轨迹修复,通过特征抽取、轨迹数据道路转换、中心线提取、路网整合和精细化的数据处理,恢复细粒度的小区路网。


值得一提的是,该模型也是业内第一个基于深度学习利用轨迹数据恢复路网的地图修复算法模型,实验结果显示,采用我们的方法,F1值(准确率和召回率的调和平均值,计算公式为:F1=2*准确率*召回率/(准确率+召回率))较传统方法有显著提升。

除了应用于本文的项目外,JUST引擎作为城市操作系统的重要组成部分,已经在京东城市内部的各个项目中(物流地产选址和物流轨迹挖掘),以及在南通、雄安等外部得到了应用。最近也开放了公测版本给外部的研究人员进行测试(http://just.urban-computing.cn),欢迎各位体验。


6 条评论

    发表评论

    电子邮件地址不会被公开。 必填项已用 * 标注