从网络隐藏几何的角度看网络驱动的病毒传播——笔记科技頭條網

从网络隐藏几何的角度看网络驱动的病毒传播——笔记

本篇笔记基于张江老师《从网络隐藏几何的角度看网络驱动的病毒传播》公开课程，探究交通流量数据与城市间病毒传播的关系。

1、背景

传播源头、新病例爆发在哪里、何时病毒传到特定地点、共有多少病例？

2、传统模型

反应扩散模型（Reaction Diffusion Method不适合于现在社会）、基于个体模型（Agent based models）、随机集合种群模型（Stochastic metapopulation models）。

SIR模型

上图为基于个体模型--SIR模型，S表示易感者，I表示感染者，R表示移出者。红色节点为感染者会以α概率随机选择传播他的邻居，连接为社会接触，而感染者会以β概率进行恢复。

NetLogo自带病毒传播仿真程序，起初病毒感染了三个人，按照一定概率规则进行病毒传播，传播过程中不停扩散整个网络，感染个体又会变成恢复态，恢复的人因为有抗体所以不会再被感染，直到不再有感染者。

病毒传播图

3、有效距离

城市之间通过输运网络、航空网络等，城市之间可以输运病毒或健康个体。所以，以某个城市为节点，看一个城市里感染的人数和康复的人数，如何变化？

一般来讲，两个城市地理空间更近，那么病毒传播的更快。也就是地理空间距离与病毒传播天数呈正相关。但是事实告诉我们，猜想是错误的。以H1N1和SARS病毒为例，横坐标表示其他城市距离病毒爆发城市的地理距离，纵坐标表示病毒传播天数。坐标图并没有呈现出很明显的正相关关系。

地理距离与传播天数关系图

那么如何设计来增强距离与传播的天数的正相关关系？这就需要引出有效距离（Effective Distance）的概念。这种有效距离可以回答背景中所提出的三个问题，病毒源头？病毒传到哪里？在某一城市病毒何时出现？

有效距离的计算需要人口流动数据，即任意两个城市的人口流量（最好是稳态数据，搜集数据时间越接近效果越好）。

通过人口流量的网络可以转换为概率网络，需要注意的是A与B的人口流量是不一致的，比如武汉到北京的人口流量是不等同于北京到武汉的人口流量。

概率定义是某一条连边上，例如，从A出发向外随机跳跃，A到B的跳转概率就是用A到B的流量除以A的所有流量，那么P(B|A)=300/300×7=1/7，同理，从C出发只有到B的一条路径，P(B|C)=50/50=1。基于跳转概率可以计算两个节点之间的有效距离。

两个节点间跳转概率

两个节点间有效距离计算

dA→B=1-lgP(B|A)，A到B跳转概率越大，A到B有效距离越短，即跳转概率与有效距离呈负相关关系。A到C的距离根据距离的传递性，计算A到B的距离，B到C的距离，二者距离相加为A到C的距离。关于这个公式有几点说明。

a.取对数：若计算A到C的概率，那么概率是相乘的，为了保证距离的可加性，因为lgab=lga+lgb。

b.取1-：当A、B只有一条路径时，P(B|A)=1，dA→B=1，lgP(B|A)=0，即网格距离也为1。

如果一个节点到另一个节点存在多条路径情况，那么有效距离如何计算？

多条路径下，有效距离计算

例如，A到D的距离，分别计算A到B到D的距离、A到D的距离以及A到C到D的距离，取三个距离中的最小值，作为A到D的有效距离。（我自己的计算结果与所给结果，虽结论相同，但是所算距离数据并不相等）

引入有效距离，以H1N1和SARS病毒为例，可以很明显看出距离与传播的天数的正相关关系。

有效距离与传播天数关系图

4、预测到达时间

传播时间公式

用有效距离除以相应的传播速度，可以算出有效时间。但是传播速度依赖于传播模型。那是不是就无法计算传播时间呢？并不，我们可以通过间接方式计算传播时间。

间接方法：传播时间公式

n、m、k为城市，假设我们已知k到n的传播时间，有效距离已知，就可以计算出k到m的传播时间。

5、寻找源头

假设每个城市为传染源，遍历每一个城市，寻找传播扩散图呈现圆形、对称的，那么这个城市就是传播源头。

根据图例，确定传播源头

计算T,D的相关性：如果知道每个城市感染病毒的时间以及任意两个城市之间的有效距离，只需要求相关性，任何一个城市作为假设的传播源头，那么已知它到达每个城市的时间以及有效距离，计算它们之间的相关性。如果源头为真正源头，二者相关性是最高的。遍历所有城市，得到相关性，将相关性进行排序，相关性最大即为源头。

左图为H1N1相关性计算，右图为SARS相关性计算。根据计算结果墨西哥和中国分别H1N1和SARS的传播源头，符合客观事实。

有效距离与传播时间相关性计算

但是这种方法的弊端是必须知道每一个城市到达每一个城市的传播时间，如果病毒没有传播结束，前提是要遍历每一个城市，未出现病毒城市的传播时间可以通过间接方法计算（传播时间之比等于有效距离之比）。但是真实的传播时间并不一定等于计算时间，可能会出现误差。所以可能会发生并没有出现感染者的某一城市被推算为传播源头。为了避免这种情况，提出一种新的算法。

以此刻，已感染的城市为源头，以这个城市为中心，看所有城市的有效距离。如果这个城市为传播源头，那么这个城市一定是所有城市传播事件中心的位置，它到其他感染城市的有效距离差不多大小，方差也比较小。具体做法：将所有城市有效距离的均值和方差绘制二维坐标图，那么均值和方差都比较小的一定是传播源头，即离圆点最近的为传播源。

下图为H1N1的真实数据，基本推测准确。