Spark任务中空间数据的序列化



一、引言Spark是目前主流的分布式计算框架,通过利用内存存储中间计算结果的方式,优化了MapReduce框架并不擅长的迭代式计算。同时,Spark使用有向无环图(Directed Acyclic Graph,DAG)统筹和优化整个计算流程。另外,Spark基于弹性分布式数据集RDD(Resilient Distributed Datasets)提供了丰富的数据分析算子,大大简化了分布式计算应用的...

ICDE 2021: 针对具有噪音和低采样率轨迹的时空相似算法(附论文链接)



随着定位技术的发展以及IOT设备的普及,大量的轨迹数据可以被采集分析。轨迹数据一般被表示成位置与其采集时间的序列。了解轨迹之间的相似度,有非常多的应用,例如:密切接触者追踪,伴侣检测,个性化推荐等。然而,实际应用中,轨迹中的位置信息往往是有噪声的;同时,不同轨迹的采样率有所不同,在某些场景中,轨迹的采样率甚至可能很低。这都为轨迹相似度的比较带来很大的挑战。本文将介绍香港科技大学、台湾交通大学、台湾...

JUST技术:轨迹生成算法的基础做法-序列到序列模型



位置数据,是选址、商铺推荐、广告位投放等业务的重要基础。是否可以在保护原始数据不被泄露的情况下,达到相近的业务效果?一种解决思路就是通过真实轨迹学习城市人群的出行分布来生成轨迹。生成轨迹可以代替包含用户隐私信息的真实轨迹,来达到相近数据分析、上层业务建设的效果,且避免原始位置信息外泄。更多关于轨迹生成算法在智慧城市中的应用场景,在笔者往期文章中有讨论。JUST技术:利用迁移学习生成新城市的轨迹JU...

JUST技术:分布式一致性协议概念及Raft协议简介



分布式系统通常由异步网络连接的多个节点构成,每个节点的计算和存储相互独立。分布式一致性指多个节点对某一变量的取值达成一致,一旦达成一致,则变量的本次取值被确定。本文将简单介绍一致性的一些基本概念,以及分布式一致性协议Raft。一、基本概念1.1 副本与数据一致性在分布式系统中,为了保证数据的高可用性,通常会维持数据的多个副本(Replica),这些副本往往会放置在不同的物理机器上。然而,在数据有多...

JUST技术:基于注意力机制恢复细粒度轨迹



随着基于位置服务的大量增长,越来越多的移动数据可以被分析挖掘,以更好地服务人们的生活。然而,与来自出租车等运输系统类的高采样率轨迹数据相比,用户地理服务数据具有严重稀疏性问题,是因为用户不会一直访问移动数据并贡献自己的位置信息(例如微博地址分享,大众点评签到等数据),而数据稀疏性问题不可避免的削弱了其实用价值。如何解决用户移动数据稀疏性,是一个非常具有挑战的问题。本文将介绍清华大学发表在AAAI ...