通俗易懂看时间序列，大神是怎么在python中使用它的？

2018-08-02 10:10:46 AI中國

点击上方关注，All in AI中国

时间序列是日常生活中遇到的最常见的数据类型之一。股票价格、销售数据、气候数据、能源使用、甚至个人体重都是可以定期收集的数据。几乎每个数据科学家都会在工作中遇到时间序列，能够有效地处理这些数据是数据科学工具箱中的一项重要技能。

本文简要介绍了如何在python中使用时间序列。这包括使用Pandas访问伦敦家庭智能电表能耗数据的时间序列和一些数据操作。可以在此处检索此帖子中使用的数据。包含了我认为可能有用的代码。（https://data.london.gov.uk/dataset/smartmeter-energy-use-data-in-london-households）

让我们从基础知识开始看起，看看时间序列的定义：

时间序列是按时间顺序索引，列出或绘制的数据点的集合。通常，时间序列是在连续的等间隔时间点采取的序列。因此，它是离散时间数据的序列。

时间序列数据围绕相对确定的时间戳来组织的，因此，与随机样本相比，可能包含我们将尝试提取的其他信息。

加载和处理时间序列

数据集

举例来说，让我们用千瓦时（每半小时）的能耗读数数据为例，在2011年11月至2014年2月期间，我们从参与了英国电网公司领导的"低碳伦敦"项目的伦敦家庭提取样本。我们可以制作一些探索图，最好能够对结构和范围有概念，这也将使我们能够寻找到需要纠正的最终缺失值。

对于本文的其余部分，我们将只关注DateTime和kWhcolumns。

重采样

让我们从简单的重采样技术开始。重采样涉及更改时间序列观察的频率。你可能对重采样时间序列数据感兴趣的一个原因是特征工程。实际上，它可以用于为监督学习模型提供额外的结构或指出洞察学习问题。pandas中的重采样方法类似于groupby方法，因为你实际上是按特定时间跨度来进行分组。然后，你可以指定重采样的方法。让我们通过查看一些例子使重采样更加具体化。我们将从每周总结开始：

data.resample（）将用于重新对我们的DataFrame的kWh列进行采样
"W"表示我们希望按周重采样。
sum（）用于表示我们希望在此期间使用的总和为kWh。

我们可以在每日总结中做同样的事情，我们可以使用groupby和mean函数进行每小时总结：

为了进一步重采样，pandas附带了许多内置选项，你甚至可以定义自己的方法。以下两个表分别提供了表周期选项以及可能用于重采样的一些常用方法。

其他探索

以下是你可以对数据进行的一些探索：

建模与prophet框架

Facebook Prophet于2017年发布，它可用于Python和R. Prophet设计用于分析时间序列，每天的观察显示不同时间尺度上的模式。Prophet非常善于处理缺失的数据和对于趋势的变化，并且通常能很好地处理异常值。它还具有用于假期对时间序列的影响进行建模和实现自定义变更点的高级功能，但我将坚持使用基础知识建立并运行模型。我认为Prophet是做出快速预测的一个很好的选择，因为它具有直观的参数，可以由具有良好领域知识但缺乏预测模型技术技能的人对其进行调整。有关Prophet的更多信息，可以参考此处的官方文档。（https://facebook.github.io/prophet/docs/quick_start.html）

在使用Prophet之前，我们将数据中的列重命名为正确的格式。 Date列必须被称为'ds'，而值列我们希望预测'y'。我们在下面的示例中使用了每日总结数据。

然后我们导入Prophet，创建一个模型并适合数据。在Prophet中，changepoint_prior_scale（https://facebook.github.io/prophet/docs/trend_changepoints.html)参数用于控制趋势对变化的敏感程度，较高的值更敏感，较低的值不敏感。在尝试了一系列值后，我将此参数从默认值0.05设置为0.10。

为了进行预测，我们需要创建所谓的未来数据帧。我们指定预测的未来周期（在我们的例子中为两个月）和预测的频率（每日）。然后，我们使用我们创建的Prophet模型和未来的数据框进行预测。

这很简单！未来的数据框包含未来两个月的估计家庭消费。我们可以用一个图来可视化预测：

黑点表示实际值，蓝线表示预测值，浅蓝色阴影区域表示不确定性。

如下图所示，随着我们未来的进一步发展，不确定区域也会增长，因为最初的不确定性会随着时间的推移而传播和增长。

Prophet也让我们轻松地可视化整体趋势和组件模式：

每年的模式都很有意思，因为它似乎表明秋季和冬季家庭消费增加，春季和夏季减少。直观地说，这正是我们期望看到的。从周趋势来看，周日的消费似乎比一周中的其他日子多。最后，总体趋势表明，消费量在缓慢下降之前增加了一年。试图解释这一趋势需要进一步调查。在下一篇文章中，我们将尝试查找它是否与天气有关。

LSTM预测

长期短期记忆复发神经网络有望学习长时间的观察序列。这篇题为"理解LSTM网络"的文章在以易于理解的方式解释底层复杂性方面做得非常出色。（http://colah.github.io/posts/2015-08-Understanding-LSTMs/）下图是描述LSTM内部单元架构的图像。

LSTM似乎非常适合时间序列预测。让我们再次使用我们的每日总结数据。

LSTM对输入数据的大小很敏感，特别是在使用sigmoid或tanh激活函数时。将数据重新调整到[0,1]或[-1,1]的范围通常是一种很好的做法，也称为规范化。我们可以使用scikit-learn库中的MinMaxScaler预处理类轻松地规范化数据集。

现在我们可以将有序数据集拆分为训练和测试数据集。下面的代码计算了分割点的索引，并将数据分成训练数据集，其中80％的观测值可用于训练我们的模型，剩下的20％用于测试模型。

我们可以定义一个函数来创建一个新的数据集，并使用该函数来准备建模的训练和测试数据集。

LSTM网络期望输入数据以以下形式提供特定的阵列结构：[样本，时间步骤，特性]。

我们的数据目前采用[样本，特性]的形式，我们将问题定为每个样本的两个时间步骤。我们可以将准备好的训练和测试输入数据转换为预期的结构，如下所示：

就这样！我们现在已经准备好为我们的示例设计和调整我们的LSTM网络。

从损失图中，我们可以看到该模型在训练和测试数据集上都具有类似的性能。

在下图中，我们看到LSTM在拟合测试数据集方面做得非常好。

聚类

最后但同样重要的是，我们还可以使用我们的示例数据进行聚类。有许多不同的方法来执行集群，其中一种方法是分层地形成集群。你可以通过两种方式形成层次结构：从顶部开始拆分，或从底部开始合并。我决定在这篇文章中使用后者。

让我们从数据开始，我们只需导入原始数据，并为一年中的某一天和一天中的小时添加两列。

Linkage函数和树状图

Linkage函数根据物体的相似性和距离信息将物体分组。这些新形成的集群彼此链接以创建更大的集群。这个过程被迭代，直到原始数据集中的所有对象链接到一个分层树中。

对我们的数据进行聚类：

完成了！但"ward"是什么意思？这实际上是如何运作的？正如scipy linkage文档所告诉我们的那样，ward是可用于计算新形成的集群之间距离的方法之一。"ward"链接功能是Ward方差最小化算法。

现在让我们来看看这种分层聚类的树形图。树形图是聚类的分层图，其中树形图的长度表示到下一个聚类中心的距离。

如果这是你第一次看到树状图，那看起来很吓人，但不要担心，让我们把它分开：

· 在x轴上，你可以看到标签。如果你没有指定任何其他东西（比如我），它们就是X中样本的索引。

· 在y轴上，你可以看到距离（在我们的例子中是word算法）。

· 水平线是集群合并

· 垂直线告诉你哪些集群/标签是合并，形成新集群的一部分

· 水平线的高度告诉你新形成的集群所需要的距离

即使有解释，先前的树状图仍然不明显。我们可以"削减"一点，以便能够更好地查看数据。

好多了，不是吗？查看聚类文档以了解更多信息并使用不同的参数。（http://scikit-learn.org/stable/modules/generated/sklearn.cluster.AgglomerativeClustering.html）

参考文献和进一步阅读：

· https://joernhees.de/blog/2015/08/26/scipy-hierarchical-clustering-and-dendrogram-tutorial/#Selecting-a-Distance-Cut-Off-aka-Determining-the-Number-of-Clusters

· https://medium.com/open-machine-learning-course/open-machine-learning-course-topic-9-time-series-analysis-in-python-a270cb05e0b3

· https://petolau.github.io/TSrepr-clustering-time-series-representations/

· https://www.analyticsvidhya.com/blog/2016/02/time-series-forecasting-codes-python/

· http://colah.github.io/posts/2015-08-Understanding-LSTMs/

· http://docs.scipy.org/doc/scipy/reference/cluster.hierarchy.html

· https://facebook.github.io/prophet/docs/quick_start.html

分享到:

閱讀更多 AI中國 的文章

關鍵字: Word Python 编程语言

Python 63个内置函数

Python Turtle画分形树理解递归

python 内存管理

python 递归输出文件

Python 中的

python copy

Python—turtle画图（哆啦A梦）

python 协程

Python 绘图以及文件的基本操作

Python wordcloud库介绍

python 闭包

Python 判断列表是否已排好序

python：序列和元组的区别

Python While 循环语句介绍

03.04 Python While 循环语句介绍

03.01 Python 模块

python 注释

python pandas数据清洗

Python 中的bool值

python-unittest基本介绍

Python 分发包中添加额外文件

# Python 3 # Python 3字典Dictionary（2）

# Python 3 # Python 3字典Dictionary（1）

# Python 3 # Python 3运算符（4）

# Python 3 # Python 3基本数据类型（3）

12.21 python lambda表达式简单用法

python :中文大写转阿拉伯数字（金额）

python str和bytes的区别

Python 的四种共享传参详解

[PYTHON]，字符串的查找，什么时候能混到给钱不用找零了

说说在 Python 中如何导入类

[PYTHON]，字符串的大小写，大赌场小赌场大小赌场赌大小

[PYTHON]，字符串的类型判断，只听得惊堂木一拍

[PYTHON]，字符串转义字符，字符串变身

python 音频处理

python 可变对象和不可变对象

Python 程序运行时间计时

python 字典底层实现原理

06.20 Python 枚举类型 Enum

06.17 Python Lambda 表达式

06.17 Python 数据类型转换

06.16 Python 中的包 Packages

06.09 Python 正则表达式断言 Assertions

06.09 Python 异常处理

python-with语法

05.27 python-with语法

python-as语法

05.27 python-as语法

「python」高阶函数map、reduce的介绍

第二章 IoC容器和Bean配置

bean是一个对象，它是由Spring

运算里不得不说的python模块—math

Help

Devops度量--DevOps 现状快速检查表

今天主要分享一个DevOps

SOP是什么（解读）

SOP不是单个的，是一个体系，虽然我们可以单独地定义每一个SOP，但真正从企业管理来看，SOP不可能只是单个的，必然是一个整体和体系，也是企业不可或缺的。

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

随着终端设备的越来越多，人工干预配置IP地址，不仅工作效率低，而且，还很容易导致IP冲突，影响正常的网络访问。到此已经完成了，DHCP服务的配置了，我们可以在终端验证。

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

这两天分析了一下头条文章网页的源文件，现在将分析的结果分享给大家。首先以一篇文章为例，其网址如下：https://www.toutiao.com/i6822245428176617998/如上图网页所示，文章中包含文字和图片。

DNS侦查工具

我们只需要打开浏览器输入例如:www.baidu.com就可以解析到该网站.为了便于记住不需要输入长长的IP地址去访问这就是DNS域名解析.关于域名域名的层次划分用点来分割这时DNS把相对应的域名解析成IP地址高的在右边.例如:www. NS简介访问某网站的时候最低在左边

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

Create

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

最后一个要介绍的命令是

（必收藏系列）Linux面试题——命令集

关注，后台私信【Linux】分享Linux入门到进阶电子书、Linux入门到精通视频教程（免费）。文件管理命令cat

五分钟学会如何在 IPFS 上部署网站

原文标题:五分钟学会如何在

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

1）实验平台：【正点原子】

小白怎么学Web前端开发如何成为技术达人

Web前端开发工程师已经成为了很多年轻人心中的理想工作，不仅入行门槛低、而且薪资待遇和发展前景都不错，自然吸引了大批人加入行业。

如何开发一个web静态服务器

我们都知道如今的web服务器有很多，比如著名的有apache，有nginx，有tomcat，有resin服务器，有sphere，有iis服务器等等，这些服务器都能提供web服务，并且几乎都能和多种语言进行搭配使用，那么一个web服务器都需要那些功能，开发一个web服务器都需要那些

学Java编程还有前景吗如何才能拿到高薪

需求大、薪资高似乎是Java开发人员的标签，不过学Java编程还有前景吗？它架构在操作系统之上，屏蔽了底层的差异，真正实现了“Writeonce run

Python网络爬虫之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的运行效率太低？几行代码快速提升！

return的就是是你所需要的结果2.3、运行这一步就是最后一步了，只要像下面一样输入上述函数名，赋予参数值，点击运行Run，就能得到你想要的结果arg1=5

python的优点是什么？最新Python400集视频（附教程）

2020，最新Python零基础到精通资料教材，干货分享，新基础Python教材，稳稳找到过万工作，看这里，这里有你想要的所有资源哦，最强笔记，教你怎么入门提升！获取方式：私信小编“

MySQL中OOM故障应如何下手-爱可生

作者：孙祚龙爱可生南区分公司交付服务部成员，实习工程师。负责公司产品问题排查及日常运维工作。本文来源：原创投稿*爱可生开源社区出品，原创内容未经授权不得随意使用，转载请联系小编并注明来源。

像专家一样使用 panic

|go

30种不同的编程语言怎么写“Hello, World”

printfn

percona QAN 介绍

一、背景QAN慢查询日志分析工具是PMM

面试官：你可以用纯CSS判断鼠标进入的方向吗？

虽然没什么软用，但是对付面试官应该是够用了。感谢面试官提出的问题，让我实现了这个功能，对CSS

网络工程师职业生涯中，哪两点是最重要的？

网络工程师最重要的技能是扎实的基础和非常开放的思维，微观知识扎实、宏观能力突出。项目经验也会让网络工程师基础更牢靠，网络工程师是要实战的，要避免纸上谈兵，我认为对基础理论的理解，比你清楚配置更重要。

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

有关以太坊2.0

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

yuminstall

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

今天的你捉住IPFS机遇了吗？我们都知道在Filecoin网络中作为一名存储矿工，信誉对于我们是非常重要的——信誉越高，爆块几率越大。那么信誉系统现在怎么样了呢？

Hive分桶表

fieldsterminated

Spring中资源的加载原来是这么一回事啊！

自己动手搭建邮件系统：怎样让Exchange Server 发出第一封邮件？

编辑Exchange

$【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库$

【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库

在阿里云控制台，我们能下载的文件是一个压缩包，解压之后，是.idb和.frm文件，你可能要问了，我可以直接把解压好的问题件覆盖到MySQL的data目录下吗？

NLP算法入门系列：隐含马尔可夫链(HMM)模型的简单介绍

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度学习这样实现人脸的年龄检测

前期的文章我们分享了人脸的识别以及如何进行人脸数据的训练，本期文章我们结合人脸识别的模型进行人脸年龄的检测人脸年龄的检测步骤1、首先需要进行人脸的检测2、把检测到的人脸数据给年龄检测模型去检测3、把检测结果呈现到图片上人脸年龄检测import

嵌入式linux网络编程之——5年程序员给你深度讲解socket套接字

图8-1

深入了解ProcessFunction的状态操作(Flink-1.10)

先反思为何会有上述疑惑上述疑惑产生的原因，应该是受到平时使用HashMap的影响，HashMap获取值就是在调用get方法时指定key，设置值也是在put时指定key，所以看到state.value，看懂了这些，其实也是在了解DataStream/DataSetAPI的设计思路：

Redis内存分析工具--rdr安装与使用

分析Redis

资深架构师教你源码讲解zookeeper实现分布式锁以及集群搭建步骤

//getData发现前一个子节点被删除，抛出异常

一行代码提升迁移性能

论文原址：https://arxiv.org/pdf/2003.12237.pdf开源地址：https://github.com/cuishuhao/BNM在发表在CVPR2020

利用相似几何信息，做可泛化3D形状分割模型

更具体的有以下三种典型的分割方案：FullyConvolutional-Like

这么好用的开源计算器SpeedCrunch，没有不尝试一下的道理

介绍SpeedCrunch是一款高精度科学计算器，具有快速，键盘驱动的用户界面。获取方式在GitHub上搜索SpeedCrunch，就可以去到

分布式缓存，真香

他是前易宝支付架构师、阿里云MVP、腾讯云

特征工程的力量

在本文中，我希望教给您一些有关特征工程的知识，以及如何使用它来对非线性决策边界进行建模。为了说明这一点，假设恢复时间与身高和体重具有以下关系：Y=β₀+β₁+β2+β₃+noise从第三项来看，我们可以看到Y与身高和体重没有线性关系。

java架构：天天写面向接口编程，你考虑过性能吗？大神都是这么写

public

SpringBoot如何优雅的使用RocketMQ

源码编译需要Maven3.2x，JDK8在根目录进行打包:Copymvn-Prelease-all

css代码规范工具stylelint

"mixin"