WWW2021: AutoSTG面向时空图预测的神经网络结构搜索(附论文链接)

近年来,随着智能城市建设的大力推进,学术界和工业界开始出现大量关于城市时空数据分析与挖掘的研究工作。面向城市中不同时空预测任务(如交通流量预测、区域客流量预测等),京东智能城市时空AI团队也已提出一系列研究成果[1]。然而针对具体应用任务的神经网络设计需要丰富的领域知识和大量的实验验证,人力成本较高,无法高效支撑实际城市项目落地中复杂多样的时空应用。

自动化网络结构搜索是针对深度模型网络设计提出的一类方法,可以面向不同学习任务自动化设计最优网络结构,目前该方法已经取得大量研究进展,但是关于城市中时空图结构数据,暂未有相关工作。基于此,本文以城市交通预测任务为例,提出一种面向时空图数据预测任务的神经网络结构搜索算法AutoSTG,并在两个公开数据集上验证了该算法框架的有效性。相比于传统机器学习方法,该框架可以自动为时空图数据构建神经网络,将以前两周才能完成的建模任务缩短到两天,极大提升了模型构建效率,缩减人力成本,促进了城市项目中不同时空图预测任务的快速研发与规模化部署。

一、研究背景

随着城市感知技术的不断发展,城市中积累了大量时空数据,如交通流量、GPS轨迹、传感器记录值等,而这些数据中蕴含着城市发展变化的大量知识,如交通流量、GPS轨迹等数据描述了城市人群的出行情况,空气质量等传感器数据反映了城市中空气污染物分布情况等,因此对城市时空数据进行分析与精准预测是城市智能化建设的重要研究问题。如图1(a)所示,考虑数据的时空属性,交通、人流、空气质量等城市数据可以建模为时空图结构。图1(b)展示了近年来人工智能和数据挖掘领域的顶级会议上发表的与时空图预测相关的论文数量(KDD、AAAI、IJCAI等AI领域顶级国际会议)。可以看到,由于它背后的巨大应用价值,时空图预测正在成为一个新的研究热点。

图1 时空图预测任务现状

面对不同的时空图数据,我们通常需要重新分析数据并设计有效的神经网络结构完成不同数据的预测任务。这个过程往往需要几位专家基于丰富的专业知识与经验并通过若干次实验优化网络结构和参数,最后才能得到理想的网络模型。但即便是同类数据,不同任务在数据分布上的差异也导致难以直接复用或迁移已有的网络结构。这导致模型的开发成本居高不下。因此,如果能根据收集到的时空数据,高效地自动设计神经网络结构,就可以帮助大家节约成本、提升效率。

早在2016年,Google就发表过基于强化学习的自动网络结构搜索工作[2],然而该方法需要大量的计算资源,无法在实际项目中广泛使用。该方法的性能瓶颈在于每个子网络的参数都需要重新训练,无法利用过去所学习的知识。后续提出的ENAS[3]和DARTS[4]通过设计一个巨大的网络搜索空间,利用反向梯度传播的方法,同时优化网络权重和结构参数,使得网络组件的权重可以被重复利用,大大减少了搜索网络所需的计算资源。京东智能城市AI团队基于DARTS框架,针对时空网格数据特点研发了AutoST网络搜索框架[5],能够基于历史数据给出最优网络结构与权重,取得超出人工设计的网络性能。但是在时空图数据方面,暂时还没有这样的工作。

为了解决这个痛点问题,使得自动机器学习技术可以深入到更多智能城市应用场景中,本文从城市交通数据预测任务出发,提出了一个针对时空图数据预测任务的神经网络结构搜索算法。该研究解决了以下两方面挑战:

挑战1:如何构建网络结构搜索空间?  由于数据在时间维度和空间维度互相关联,并且这种时空相关性作用在一般图结构上,我们需要设计搜索空间来建模数据中复杂的时空相关性。

挑战2:如何学习受属性图影响的网络参数权重?时空图常常对应一个静态属性图,该属性图包含时空图的元知识,影响着时空数据的变化趋势。以交通数据为例,道路的宽度(边属性)、路口的岔路数量(点属性)体现着地点疏通车流快慢的能力(元知识),从而影响着交通数据的变化趋势。同时,这种节点/边的元知识也会在属性图结构上互相作用。例如,一个路口因为规划不合理,容易出现交通堵塞,那么其周边路口也容易受其影响发生拥堵。由于网络参数权重反映数据中的时空相关性,所以在学习这些参数时,我们需要考虑属性图的影响。

二、模型详情

如图2所示,我们提出的AutoSTG框架主要包含两个模块:(a)网络结构搜索;(b)参数权重学习。在网络结构搜索中,我们需要设计搜索空间,让搜索到的模型能够建模数据中的时空相关性。在参数权重学习的模块里,我们采用元学习的方式,先用图元知识学习网络从属性图中学习节点和边的元知识,然后用元学习网络学习时空网络中的参数权重,从而建模属性图对时空相关性的影响。

图2 AutoSTG框架

2.1 搜索空间

受基于卷积神经网络的时空模型启发,AutoSTG框架也基于卷积算子。如图2(a)所示,预测网络包含若干个Cell或Pooling层,所有层的输出聚合后用全连接网络预测未来数据。我们的目标是搜索每一个Cell的网络结构。每个Cell的搜索空间为一个有向无环图(DAG)。每条边对应四种可能的网络:空网络(Zero)、恒等映射网络(Identity)、空间图卷积网络(Spatial graph convolution)和时间卷积网络(Temporal convolution)。我们需要确定每条边对应的网络。在本工作中,我们采用DARTS算法[4]来学习网络结构的权重。

由于在时空图中数据的相关性受属性图所影响,所以我们用元学习的方式生成空间图卷积网络中的邻接矩阵和时间卷积网络中的卷积核,来建模网络参数与属性图元知识间的关系。下面,我们会具体介绍元学习方法。

2.2 权重元学习

首先,我们需要从属性图中学习节点与边的元知识。为了建模节点与边的相互作用,我们提出了一个图的元知识学习网络。如图3所示,该网络需要迭代多步,每步分为两个部分:(a)对于每个节点,用图卷积网络,根据边的表征聚合其周围节点的表征;(b)对于每条边,聚合其相连的两个节点的表征。通过多次迭代,我们可以在属性图上传播节点和边的属性信息,学到有效表征,并将其作为节点和边的元知识。

图3 图元知识学习网络

在获得节点和边的元知识后,我们就可以用一组全连接网络,将边元知识分别映射为每个空间图卷积网络的邻接矩阵,同时用另一组全连接网络,将点元知识分别映射为每个节点的时间卷积核,从而建模属性图对时空相关性的影响。

在网络结构搜索方面,和DARTS[4]类似,AutoSTG框架交替优化网络结构权重和元学习网络参数权重,最终输出搜索到的网络结构。最后,以该网络结构为基础重新训练网络参数权重,即可得到理想的时空图数据预测模型。

三、实验结果

我们用两个真实的交通数据集PEMS-BAY和METR-LA来验证AutoSTG框架的有效性。实验设置与DCRNN[6]完全相同,并用平均绝对误差(简称MAE)和均方根误差(简称RMSE)两个指标来评价模型性能(两个指标均越小越好)。

如表所示,与所有基准模型相比,AutoSTG框架可以自动学习时空神经网络结构,并取得与人工精心设计的模型相近的预测准确度。尤其是在PEMS-BAY数据集中,AutoSTG搜索出的结构在预测准确度指标MAE和RMSE上都提升2%。这也进一步说明,AutoSTG是一个非常有效的时空神经网络结构搜索框架。

我们也在两个数据集上测试AutoSTG框架及其变体来验证空间图卷积和时间卷积在AutoSTG中的有效性。如图4所示,在搜索空间中删去空间图卷积或时间卷积,在两个数据集上的预测精度都有所下降。其中,空间图卷积操作对模型精度的影响比时间卷积操作更大。这主要是因为,交通数据的空间相关性较为复杂,要在这两个数据集上进行准确预测都需要大量表示空间相关性的特征;而网络输入中涉及到的时间片段较少,因此,直接用全连接神经网络一定程度上也可以建模时间上的相关性。但总的来说,这两种卷积操作在AutoSTG中都起到了重要的作用。

图4 AutoSTG候选网络结构的有效性实验

此外,为了验证AutoSTG中各算法模块的有效性,我们还测试四组AutoSTG框架及其变体。如图5所示,由于较为完善地定义了搜索空间,从中随机采样一个网络结构也可以取得不错的预测结果。其次,参数元学习方法可以有效地提升模型的精度,这说明参数元学习是十分有效的。最后,在进一步考虑节点和边之间特性关联的情况下,预测准确度还能够进一步提升。综上所述,AutoSTG框架里的每一个算法模块都能显著提升搜索出来的网络结构的性能。

图5 AutoSTG算法模块有效性实验

四、结论

在推进城市智能应用建设落地时,需要着重考虑人力成本、研发效率等实际问题,而面向具体应用任务的网络结构设计需要丰富的专家知识与大量的实验验证,因此如何实现自动化网络结构学习是城市智能应用规模化落地推广的关键问题。针对城市时空预测任务,本研究团队对自动机器学习技术进行研究,已形成面向时空网格数据的AutoST[5]等研究成果,进一步考虑城市多样时空数据类型,本文首次提出了面向时空图结构的自动神经网络结构搜索算法AutoSTG,以城市交通流量预测任务为例,在两个真实交通数据集上的实验表明AutoSTG可以取得与人工精心设计的模型相近的预测准确度。该搜索框架将大大减少模型设计过程所需要的人力成本,有助于时空图预测模型的快速开发。

参考文献

[1] 京东城市智能城市研究院研究成果.https://icity.jd.com/research/achievement.

[2] Zoph B, Le Q. Neural ArchitectureSearch with Reinforcement Learning[J]. In: Proceedings of the InternationalConference on Learning Representations (ICLR). 2016.

[3]Pham H, Guan M, Zoph B, et al. Efficientneural architecture search via parameters sharing. In: Proceedings of the InternationalConference on Machine Learning (PMLR). 2018: 4095-4104.

[4] Liu H, Simonyan K, Yang Y. DARTS:Differentiable Architecture Search. In: Proceedings of the InternationalConference on Learning Representations (ICLR). 2018.

[5] Li T, Zhang J, Bao K, et al. AutoST:Efficient Neural Architecture Search for Spatio-Temporal Prediction. In:Proceedings of the ACM SIGKDD Conference on Knowledge Discovery and Data Mining(KDD). 2020.

[6] Li Y, Yu R, Shahabi C, et al. DiffusionConvolutional Recurrent Neural Network: Data-Driven Traffic Forecasting. In:Proceedings of the International Conference on Learning Representations (ICLR).2018.

关注公众号,回复”WWW2021AutoSTG”,下载该论文

0 条评论

    发表评论

    电子邮件地址不会被公开。 必填项已用 * 标注