网易首页 > 网易号 > 正文 申请入驻

时间序列数据的预处理

0
分享至

时间序列数据随处可见,要进行时间序列分析,我们必须先对数据进行预处理。 时间序列预处理技术对数据建模的准确性有重大影响。

在本文中,我们将主要讨论以下几点:

· 时间序列数据的定义及其重要性。

· 时间序列数据的预处理步骤。

· 构建时间序列数据,查找缺失值,对特征进行去噪,并查找数据集中存在的异常值。

首先,让我们先了解时间序列的定义:

时间序列是在特定时间间隔内记录的一系列均匀分布的观测值。

时间序列的一个例子是黄金价格。在这种情况下,我们的观察是在固定时间间隔后一段时间内收集的黄金价格。时间单位可以是分钟、小时、天、年等。但是任何两个连续样本之间的时间差是相同的。

在本文中,我们将看到在深入研究数据建模部分之前应执行的常见时间序列预处理步骤和与时间序列数据相关的常见问题。

时间序列数据预处理

时间序列数据包含大量信息,但通常是不可见的。 与时间序列相关的常见问题是无序时间戳、缺失值(或时间戳)、异常值和数据中的噪声。 在所有提到的问题中,处理缺失值是最困难的一个,因为传统的插补(一种通过替换缺失值来保留大部分信息来处理缺失数据的技术)方法在处理时间序列数据时不适用。 为了分析这个预处理的实时分析,我们将使用 Kaggle 的 Air Passenger 数据集。

时间序列数据通常以非结构化格式存在,即时间戳可能混合在一起并且没有正确排序。 另外在大多数情况下,日期时间列具有默认的字符串数据类型,在对其应用任何操作之前,必须先将数据时间列转换为日期时间数据类型。 让我们将其实现到我们的数据集中:

import pandas as pd
passenger = pd.read_csv('AirPassengers.csv')
passenger['Date'] = pd.to_datetime(passenger['Date'])
passenger.sort_values(by=['Date'], inplace=True, ascending=True)

时间序列中的缺失值

处理时间序列数据中的缺失值是一项具有挑战性的任务。 传统的插补技术不适用于时间序列数据,因为接收值的顺序很重要。 为了解决这个问题,我们有以下插值方法:

插值是一种常用的时间序列缺失值插补技术。 它有助于使用周围的两个已知数据点估计丢失的数据点。 这种方法简单且最直观。 处理时序数据时可以使用以下的方法:

· 基于时间的插值

· 样条插值

· 线性插值

让我们看看我们的数据在插补之前的样子:

from matplotlib.pyplot import figure
import matplotlib.pyplot as plt
figure(figsize=(12, 5), dpi=80, linewidth=10)
plt.plot(passenger['Date'], passenger['Passengers'])
plt.title('Air Passengers Raw Data with Missing Values')
plt.xlabel('Years', fontsize=14)
plt.ylabel('Number of Passengers', fontsize=14)
plt.show()

让我们看看以上三个方法的结果:

passenger[‘Linear’] = passenger[‘Passengers’].interpolate(method=’linear’)
passenger[‘Spline order 3’] = passenger[‘Passengers’].interpolate(method=’spline’, order=3)
passenger[‘Time’] = passenger[‘Passengers’].interpolate(method=’time’)
methods = ['Linear', 'Spline order 3', 'Time']
from matplotlib.pyplot import figure
import matplotlib.pyplot as plt
for method in methods:
figure(figsize=(12, 4), dpi=80, linewidth=10)
plt.plot(passenger["Date"], passenger[method])
plt.title('Air Passengers Imputation using: ' + types)
plt.xlabel("Years", fontsize=14)
plt.ylabel("Number of Passengers", fontsize=14)
plt.show()

所有的方法都给出了还不错的结果。当缺失值窗口(缺失数据的宽度)很小时,这些方法更有意义。但是如果丢失了几个连续的值,这些方法就更难估计它们。

时间序列去噪

时间序列中的噪声元素可能会导致严重问题,所以一般情况下在构建任何模型之前都会有去除噪声的操作。 最小化噪声的过程称为去噪。 以下是一些通常用于从时间序列中去除噪声的方法:

滚动平均值

滚动平均值是先前观察窗口的平均值,其中窗口是来自时间序列数据的一系列值。 为每个有序窗口计算平均值。 这可以极大地帮助最小化时间序列数据中的噪声。

让我们在谷歌股票价格上应用滚动平均值:

rolling_google = google_stock_price['Open'].rolling(20).mean()
plt.plot(google_stock_price['Date'], google_stock_price['Open'])
plt.plot(google_stock_price['Date'], rolling_google)
plt.xlabel('Date')
plt.ylabel('Stock Price')
plt.legend(['Open','Rolling Mean'])
plt.show()

傅里叶变换

傅里叶变换可以通过将时间序列数据转换到频域来帮助去除噪声,我们可以过滤掉噪声频率。然后应用傅里叶反变换得到滤波后的时间序列。我们用傅里叶变换来计算谷歌股票价格。

denoised_google_stock_price = fft_denoiser(value, 0.001, True)
plt.plot(time, google_stock['Open'][0:300])
plt.plot(time, denoised_google_stock_price)
plt.xlabel('Date', fontsize = 13)
plt.ylabel('Stock Price', fontsize = 13)
plt.legend([‘Open’,’Denoised: 0.001'])
plt.show()

时间序列中的离群值检测

时间序列中的离群值是指趋势线的突然高峰或下降。 导致离群值可能有多种因素。 让我们看一下检测离群值的可用方法:

基于滚动统计的方法

这种方法最直观,适用于几乎所有类型的时间序列。 在这种方法中,上限和下限是根据特定的统计量度创建的,例如均值和标准差、Z 和 T 分数以及分布的百分位数。 例如,我们可以将上限和下限定义为:

取整个序列的均值和标准差是不可取的,因为在这种情况下,边界将是静态的。边界应该在滚动窗口的基础上创建,就像考虑一组连续的观察来创建边界,然后转移到另一个窗口。该方法是一种高效、简单的离群点检测方法。

孤立森林

顾名思义,孤立森林是一种基于决策树的异常检测机器学习算法。 它通过使用决策树的分区隔离给定特征集上的数据点来工作。 换句话说,它从数据集中取出一个样本,并在该样本上构建树,直到每个点都被隔离。 为了隔离数据点,通过选择该特征的最大值和最小值之间的分割来随机进行分区,直到每个点都被隔离。 特征的随机分区将为异常数据点在树中创建更短的路径,从而将它们与其余数据区分开来。

K-means 聚类

K-means 聚类是一种无监督机器学习算法,经常用于检测时间序列数据中的异常值。 该算法查看数据集中的数据点,并将相似的数据点分组为 K 个聚类。 通过测量数据点到其最近质心的距离来区分异常。 如果距离大于某个阈值,则将该数据点标记为异常。 K-Means 算法使用欧几里得距离进行比较。

可能的面试问题

如果一个人在简历中写了一个关于时间序列的项目,那么面试官可以从这个主题中提出这些可能的问题:

· 预处理时间序列数据的方法有哪些,与标准插补方法有何不同?

· 时间序列窗口是什么意思?

· 你听说过孤立森林吗? 如果是,那么你能解释一下它是如何工作的吗?

· 什么是傅立叶变换,我们为什么需要它?

· 填充时间序列数据中缺失值的不同方法是什么?

总结

在本文中,我们研究了一些常见的时间序列数据预处理技术。 我们从排序时间序列观察开始; 然后研究了各种缺失值插补技术。 因为我们处理的是一组有序的观察结果,所以时间序列插补与传统插补技术不同。此外,还将一些噪声去除技术应用于谷歌股票价格数据集,最后讨论了一些时间序列的异常值检测方法。 使用所有这些提到的预处理步骤可确保高质量数据,为构建复杂模型做好准备。

https://www.overfit.cn/post/9274a9c482b0431a802f5318c15cd76d

作者:Shashank Gupta

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
驻叙美军每天用10多辆卡车将叙利亚粮食运往境外,中方回应

驻叙美军每天用10多辆卡车将叙利亚粮食运往境外,中方回应

环球网资讯
2024-07-03 15:34:56
嫦娥六号成功返回之后,西方发现了两个恐怖的真相

嫦娥六号成功返回之后,西方发现了两个恐怖的真相

枫冷慕诗
2024-07-03 18:21:21
网传建行大规模降薪,员工如果待不下去可以试试这些高薪行业

网传建行大规模降薪,员工如果待不下去可以试试这些高薪行业

观风者
2024-07-03 10:52:40
93分59秒逃生!欧洲杯壮观1幕:终场哨响全队瘫倒,拼出奇迹

93分59秒逃生!欧洲杯壮观1幕:终场哨响全队瘫倒,拼出奇迹

叶青足球世界
2024-07-03 05:40:00
为何夏思凝跑不赢吴艳妮?单看身材便能知晓一二,腰粗的更有优势

为何夏思凝跑不赢吴艳妮?单看身材便能知晓一二,腰粗的更有优势

贾文彬的史书
2024-07-03 14:11:15
假自研?国家公布对华为鸿蒙系统的“检查”结果,让人意外!

假自研?国家公布对华为鸿蒙系统的“检查”结果,让人意外!

影孖看世界
2024-07-02 23:37:01
“出轨”真的只有0次和无数次?科学研究给出了答案

“出轨”真的只有0次和无数次?科学研究给出了答案

39健康网
2024-07-02 22:25:02
她们说啥你都信,那就怪不得别人了

她们说啥你都信,那就怪不得别人了

民言民语
2024-07-02 13:17:10
又一个时代落幕了,7月1日,微软关闭了我们国家所有的线下门店!

又一个时代落幕了,7月1日,微软关闭了我们国家所有的线下门店!

史二了
2024-07-03 11:47:19
女子在深中通道违停,喝咖啡露营?处罚来了!

女子在深中通道违停,喝咖啡露营?处罚来了!

鲁中晨报
2024-07-03 16:03:20
美联储放鸽!亚太股市全线上涨,A股逆势下跌,国家队又买入了

美联储放鸽!亚太股市全线上涨,A股逆势下跌,国家队又买入了

看财经show
2024-07-03 16:55:34
LBJ生涯薪资:7季1000万+ 2季2000万+ 5季3000万+ 5季4000万+

LBJ生涯薪资:7季1000万+ 2季2000万+ 5季3000万+ 5季4000万+

直播吧
2024-07-03 21:29:04
中国7岁小女孩发现特斯拉“技术缺陷”,马斯克用一个单词回复了!女孩家长最新回应

中国7岁小女孩发现特斯拉“技术缺陷”,马斯克用一个单词回复了!女孩家长最新回应

都市快报橙柿互动
2024-07-03 19:42:03
芬兰总统称如果北京愿意,一通电话就可结束俄乌冲突,外交部:中国不是乌克兰危机制造者

芬兰总统称如果北京愿意,一通电话就可结束俄乌冲突,外交部:中国不是乌克兰危机制造者

环球网资讯
2024-07-03 15:24:33
广东富豪卖饮料,半年身家涨了70亿

广东富豪卖饮料,半年身家涨了70亿

市界
2024-07-02 17:55:46
食用油事件越演越烈:多家大企业沦陷,知情人发声,揭行业内幕!

食用油事件越演越烈:多家大企业沦陷,知情人发声,揭行业内幕!

金叨叨
2024-07-03 12:36:40
完了!日本撤走空调压缩机产线,国产空调可以替代吗?

完了!日本撤走空调压缩机产线,国产空调可以替代吗?

怪识TNT
2024-07-02 10:23:00
距离英国大选投票不到48小时,现任首相私信求助,“满身黑历史”的约翰逊“出山”拉票

距离英国大选投票不到48小时,现任首相私信求助,“满身黑历史”的约翰逊“出山”拉票

红星新闻
2024-07-03 17:32:14
姜萍交卷了,试题公布!网友:宛若天书…

姜萍交卷了,试题公布!网友:宛若天书…

华人星光
2024-07-03 17:12:31
张志杰离世前接受央视采访,双眼有黑眼圈,一周前曾有人预言去世

张志杰离世前接受央视采访,双眼有黑眼圈,一周前曾有人预言去世

番茄娱乐加
2024-07-01 21:28:39
2024-07-04 00:22:44
deephub
deephub
CV NLP和数据挖掘知识
1384文章数 1416关注度
往期回顾 全部

科技要闻

吴世春:"中国大模型五虎"想跑出来非常难

头条要闻

中国7岁小女孩发现特斯拉"技术缺陷" 马斯克作出回应

头条要闻

中国7岁小女孩发现特斯拉"技术缺陷" 马斯克作出回应

体育要闻

欧洲杯最伟大的一次扑救,诞生了

娱乐要闻

刘亦菲唐嫣深夜晒照,美女贴贴好养眼

财经要闻

王忠民:AI时代切勿用周期思维做投资

汽车要闻

巴黎4S店价格对比 同款车型中国售价打对折

态度原创

游戏
手机
数码
亲子
公开课

《魔兽世界》怀旧服明日维护:已是回归后第三次

手机要闻

谷歌 Pixel 9粉色版真机现身,AI功能有变化

数码要闻

首款消费级 Chromium OS 平板电脑 Fydetab Duo 上市,4688 元

亲子要闻

笑麻了,王鹏超汗流浃背了吧!等生娃的时候恐怕一家人都得站军姿

公开课

连中三元是哪三元?

无障碍浏览 进入关怀版