GPT4做数据分析时间序列预测之五相当棒2023.5.26

用户7138673

发布于 2023-08-16 21:09:49

2510

发布于 2023-08-16 21:09:49

1、Excel的a列是年月，b列是本年月销售额。写一个Python程序，读取Excel，计算单元格某个年月后面6个月销售额累计值，用指数平滑的时间序列预测某个年月后面6个月销售额累计值。将年月、本年月销售额、后6个月销售额累计值、预测6个月销售额累计值记录到新Excel表格。

import pandas as pd
import numpy as np
from statsmodels.tsa.api import ExponentialSmoothing
from openpyxl import Workbook

# 读取Excel文件
df = pd.read_excel('input.xlsx')

# 计算后6个月销售额累计值
df['6_month_sales_sum'] = df['sales'].rolling(window=7).sum().shift(-6)

# 初始化一个新的Workbook
wb = Workbook()
ws = wb.active

# 写入标题行
ws.append(['日期', '本月销售额', '后6个月销售额累计值', '预测6个月销售额累计值'])

# 指数平滑预测模型
model = ExponentialSmoothing(np.asarray(df['sales']), seasonal_periods=12, trend='add', seasonal='add',)
model_fit = model.fit(smoothing_level=0.6, smoothing_slope=0.2, optimized=False)

# 预测后6个月的销售额
df['predicted_6_month_sales_sum'] = 0
for i in range(len(df)-6):
    df.loc[i, 'predicted_6_month_sales_sum'] = model_fit.predict(i, i + 6).sum()

# 将数据写入新的Excel文件
for i in range(len(df)):
    ws.append([df.loc[i, 'date'], df.loc[i, 'sales'], df.loc[i, '6_month_sales_sum'], df.loc[i, 'predicted_6_month_sales_sum']])

# 保存新的Excel文件
wb.save('output.xlsx')

2、增加Python代码，增加更多的时间序列预测的方法，例如SARIMAX、Prophet、ARIMA、ExponentialSmoothing移动平均、ExponentialSmoothing(另一种方法)等方法预测6个月销售额累计值，并记录到Excel中。

import pandas as pd
import numpy as np
from statsmodels.tsa.api import ExponentialSmoothing, SARIMAX, ARIMA
from fbprophet import Prophet
from openpyxl import Workbook

def 数据读取(file_name):
    df = pd.read_excel(file_name)
    df_prophet = df.rename(columns={"date": "ds", "sales": "y"})
    return df, df_prophet

def 数据计算预测(df, df_prophet):
    # 计算后6个月销售额累计值
    df['后6个月销售额累计值'] = df['sales'].rolling(window=7).sum().shift(-6)

    # ExponentialSmoothing预测模型
    model = ExponentialSmoothing(np.asarray(df['sales']), seasonal_periods=12, trend='add', seasonal='add',)
    model_fit = model.fit(smoothing_level=0.6, smoothing_slope=0.2, optimized=False)

    # 预测后6个月的销售额
    df['ES预测值'] = 0
    for i in range(len(df)-6):
        df.loc[i, 'ES预测值'] = model_fit.predict(i, i + 6).sum()

    # SARIMAX预测模型
    model = SARIMAX(df['sales'], order=(1, 1, 1), seasonal_order=(1, 1, 1, 12))
    model_fit = model.fit(disp=False)

    # 预测后6个月的销售额
    df['SARIMAX预测值'] = 0
    for i in range(len(df)-6):
        df.loc[i, 'SARIMAX预测值'] = model_fit.predict(i, i + 6).sum()

    # Prophet预测模型
    model = Prophet()
    model.fit(df_prophet)
    future = model.make_future_dataframe(periods=6, freq='MS')
    forecast = model.predict(future)

    # 预测后6个月的销售额
    df['Prophet预测值'] = forecast['yhat'].rolling(window=7).sum().shift(-6).values

    # ARIMA预测模型
    model = ARIMA(df['sales'], order=(5,1,0))
    model_fit = model.fit(disp=0)

    # 预测后6个月的销售额
    df['ARIMA预测值'] = 0
    for i in range(len(df)-6):
        df.loc[i, 'ARIMA预测值'] = model_fit.predict(i, i + 6).sum()
    
    return df

def 数据保存(df, file_name):
    # 初始化一个新的Workbook
    wb = Workbook()
    ws = wb.active

    # 写入标题行
    ws.append(['日期', '本月销售额', '后6个月销售额累计值', 'ES预测值', 'SARIMAX预测值', 'Prophet预测值', 'ARIMA预测值'])

    # 将数据写入新的Excel文件
    for i in range(len(df)):
        ws.append([df.loc[i, 'date'], df.loc[i, 'sales'], df.loc[i, '后6个月销售额累计值'], df.loc[i, 'ES预测值'], df.loc[i, 'SARIMAX预测值'], df.loc[i, 'Prophet预测值'], df.loc[i, 'ARIMA预测值']])

    # 保存新的Excel文件
    wb.save(file_name)

# 读取数据
df, df_prophet = 数据读取('input.xlsx')

# 计算预测
df = 数据计算预测(df, df_prophet)

# 保存数据
数据保存(df, 'output.xlsx')

3、

import pandas as pd
import numpy as np
from statsmodels.tsa.api import ExponentialSmoothing, SARIMAX, ARIMA
from fbprophet import Prophet
from openpyxl import Workbook

def 数据读取(文件名):
    # 读取Excel文件到DataFrame
    数据框 = pd.read_excel(文件名)
    # 为Prophet预测模型准备数据，需要将列名改为"ds"和"y"
    数据框_prophet = 数据框.rename(columns={"date": "ds", "sales": "y"})
    return 数据框, 数据框_prophet

def 数据计算预测(数据框, 数据框_prophet):
    # 使用pandas的rolling方法计算后6个月销售额累计值
    数据框['后6个月销售额累计值'] = 数据框['sales'].rolling(window=7).sum().shift(-6)

    # 使用ExponentialSmoothing方法进行预测
    模型 = ExponentialSmoothing(np.asarray(数据框['sales']), seasonal_periods=12, trend='add', seasonal='add',)
    模型_拟合 = 模型.fit(smoothing_level=0.6, smoothing_slope=0.2, optimized=False)

    # 预测后6个月的销售额
    数据框['ES预测值'] = 0
    for i in range(len(数据框)-6):
        数据框.loc[i, 'ES预测值'] = 模型_拟合.predict(i, i + 6).sum()

    # 使用SARIMAX方法进行预测
    模型 = SARIMAX(数据框['sales'], order=(1, 1, 1), seasonal_order=(1, 1, 1, 12))
    模型_拟合 = 模型.fit(disp=False)

    # 预测后6个月的销售额
    数据框['SARIMAX预测值'] = 0
    for i in range(len(数据框)-6):
        数据框.loc[i, 'SARIMAX预测值'] = 模型_拟合.predict(i, i + 6).sum()

    # 使用Prophet方法进行预测
    模型 = Prophet()
    模型.fit(数据框_prophet)
    未来 = 模型.make_future_dataframe(periods=6, freq='MS')
    预测 = 模型.predict(未来)

    # 预测后6个月的销售额
    数据框['Prophet预测值'] = 预测['yhat'].rolling(window=7).sum().shift(-6).values

    # 使用ARIMA方法进行预测
    模型 = ARIMA(数据框['sales'], order=(5,1,0))
    模型_拟合 = 模型.fit(disp=0)

    # 预测后6个月的销售额
    数据框['ARIMA预测值'] = 0
    for i in range(len(数据框)-6):
        数据框.loc[i, 'ARIMA预测值'] = 模型_拟合.predict(i, i + 6).sum()
    
    return 数据框

def 数据保存(数据框, 文件名):
    # 初始化一个新的Excel Workbook
    工作簿 = Workbook()
    工作表 = 工作簿.active

    # 写入标题行
    工作表.append(['日期', '本月销售额', '后6个月销售额累计值', 'ES预测值', 'SARIMAX预测值', 'Prophet预测值', 'ARIMA预测值'])

    # 将数据写入新的Excel文件
    for i in range(len(数据框)):
        工作表.append([数据框.loc[i, 'date'], 数据框.loc[i, 'sales'], 数据框.loc[i, '后6个月销售额累计值'], 数据框.loc[i, 'ES预测值'], 数据框.loc[i, 'SARIMAX预测值'], 数据框.loc[i, 'Prophet预测值'], 数据框.loc[i, 'ARIMA预测值']])

    # 保存新的Excel文件
    工作簿.save(文件名)

# 读取数据
数据框, 数据框_prophet = 数据读取('input.xlsx')

# 计算预测
数据框 = 数据计算预测(数据框, 数据框_prophet)

# 保存数据
数据保存(数据框, 'output.xlsx')

4、

在Python中，有多种时间序列预测的库和方法可供使用。除了你提到的ARIMA、ExponentialSmoothing、SARIMAX和Prophet之外，以下是其他一些流行的方法：

1. **LSTM（Long Short-Term Memory）**: LSTM是一种强大的循环神经网络（RNN）架构，它能够处理时间序列数据。Keras库提供了LSTM模型的实现。

2. **GRU（Gated Recurrent Unit）**: GRU是另一种RNN架构，与LSTM类似，也能够处理时间序列数据。Keras库也提供了GRU模型的实现。

3. **VAR（Vector Autoregression）**: VAR是一种多元时间序列模型，可以捕捉到多个时间序列之间的相互影响。statsmodels库提供了VAR模型的实现。

4. **ETS（Error, Trend, Seasonality）**: ETS模型可以分别对误差、趋势和季节性进行建模。statsmodels库提供了ETS模型的实现。

5. **TBATS（Trigonometric seasonality, Box-Cox transformation, ARMA errors, Trend and Seasonal components）**: TBATS模型是一种能够处理复杂季节性的时间序列模型。tbats库提供了TBATS模型的实现。

6. **LightGBM和XGBoost**: 这两种是基于梯度提升（Gradient Boosting）的机器学习模型，虽然它们通常用于分类和回归任务，但也可以用于时间序列预测。

在将这些方法增加到代码中时，需要注意每种方法的具体使用方式和参数设置可能会有所不同，同时，每种方法都有其优点和局限性，因此在实际使用时需要根据数据的特点和预测的需求进行选择和调整。

5、

首先，需要注意的是，神经网络的方法（如LSTM和GRU）需要更复杂的预处理步骤和网络配置。因此，我会展示如何将VAR、ETS和TBATS添加到您的代码中。而对于LightGBM和XGBoost，因为它们是基于树的模型，不是专门用于时间序列的模型，所以在时间序列预测中的应用需要一些特别的技巧，例如构造滞后特征(lag features)、滑动窗口特征等，这在这个示例代码中可能比较复杂。

我们来看一下将VAR、ETS和TBATS添加到您的代码中的例子：

from statsmodels.tsa.api import VAR
from statsmodels.tsa.exponential_smoothing.ets import ETSModel
from tbats import TBATS, BATS

# 数据计算预测函数中添加新的预测方法
def 数据计算预测(数据框, 数据框_prophet):
    # 其他预测部分代码省略...

    # VAR预测模型
    模型 = VAR(数据框[['sales']])
    模型_拟合 = 模型.fit(maxlags=15, ic='aic')

    # 预测后6个月的销售额
    数据框['VAR预测值'] = 0
    for i in range(len(数据框)-6):
        预测 = 模型_拟合.forecast(数据框[['sales']].values[i:], steps=7)
        数据框.loc[i, 'VAR预测值'] = sum(预测[1:])

    # ETS预测模型
    模型 = ETSModel(数据框['sales'], error='add', trend='add', seasonal='add', damped_trend=True, seasonal_periods=12)
    模型_拟合 = 模型.fit()

    # 预测后6个月的销售额
    数据框['ETS预测值'] = 0
    for i in range(len(数据框)-6):
        预测 = 模型_拟合.get_prediction(start=i, end=i+6)
        数据框.loc[i, 'ETS预测值'] = sum(预测.predicted_mean[1:])

    # TBATS预测模型
    模型 = TBATS(seasonal_periods=(6, 12))
    模型_拟合 = 模型.fit(数据框['sales'])

    # 预测后6个月的销售额
    数据框['TBATS预测值'] = 0
    for i in range(len(数据框)-6):
        预测 = 模型_拟合.forecast(steps=7)
        数据框.loc[i, 'TBATS预测值'] = sum(预测[1:])
    
    return 数据框

# 数据保存函数中添加新的预测结果
def 数据保存(数据框, 文件名):
    # 其他保存部分代码省略...

    # 将数据写入新的Excel文件
    for i in range(len(数据框)):
        工作表.append([数据框.loc[i, 'date'], 数据框.loc[i, 'sales'], 数据框.loc[i, '后6个月销售额累计值'], 数据框.loc[i, 'ES预测值'], 数据框.loc[i, 'SARIMAX预测值'], 数据框.loc[i, 'Prophet预测值'], 数据框.loc[i, 'ARIMA预测值'], 数据框.loc[i, 'VAR预测值'], 数据框.loc[i, 'ETS预测值'], 数据框.loc[i, 'TBATS预测值']])

    # 保存新的Excel文件
    工作簿.save(文件名)

6、

除了上述提到的方法外，我们还可以使用一些其他的数据分析方法来预测年月-销售额，如Facebook的新型时间序列预测模型Kats，支持向量机（SVM）和贝叶斯结构时间序列模型。请注意，这些方法的参数可能需要针对您的数据进行调整。以下是在您原有的Python代码中添加这些方法的例子：

首先，确保已经安装了必要的库。如果没有安装，可以使用以下命令进行安装：

pip install kats sklearn pydlm

from kats.models.sarima import SARIMAModel, SARIMAParams
from sklearn.svm import SVR
from pydlm import dlm, trend, seasonality

# 数据计算预测函数中添加新的预测方法
def 数据计算预测(数据框, 数据框_prophet):
    # 其他预测部分代码省略...

    # Kats SARIMA预测模型
    模型参数 = SARIMAParams(p=2, d=1, q=1, trend='ct')
    模型 = SARIMAModel(data=数据框[['date', 'sales']], params=模型参数)
    模型.fit()
    预测 = 模型.predict(steps=6)
    数据框['Kats_SARIMA预测值'] = 预测['fcst'].rolling(window=7).sum().shift(-6).values

    # SVM预测模型
    # 需要先将日期转换为数值
    数据框['date_num'] = (数据框['date'] - 数据框['date'].min())  / np.timedelta64(1,'M')
    模型 = SVR(C=1.0, epsilon=0.2)
    模型.fit(数据框[['date_num']], 数据框['sales'])
    数据框['SVM预测值'] = 0
    for i in range(len(数据框)-6):
        数据框.loc[i, 'SVM预测值'] = 模型.predict(数据框.loc[i:i+6, 'date_num']).sum()

    # 贝叶斯结构时间序列模型
    模型 = dlm(数据框['sales']) + trend(1, name='linear_trend', w=1.0) + seasonality(12, name='12 month seasonality', w=1.0)
    模型.fit()
    (predictMean, predictVar) = 模型.predictN(N=6, date=len(数据框['sales'])-1)
    数据框['贝叶斯结构时间序列预测值'] = np.append(np.repeat(np.nan, len(数据框['sales'])), predictMean.sum())
    
    return 数据框

# 数据保存函数中添加新的预测结果
def 数据保存(数据框, 文件名):
    # 其他保存部分代码省略...

    # 将数据写入新的Excel文件
    for i in range(len(数据框)):
        工作表.append([数据框.loc[i, 'date'], 数据框.loc[i, 'sales'], 数据框.loc[i, '后6个月销售额累计值'], 数据框.loc[i, 'ES预测值'], 数据框.loc[i, 'SARIMAX预测值'], 数据框.loc[i, 'Prophet预测值'], 数据框.loc[i, 'ARIMA预测值'], 数据框.loc[i, 'VAR预测值'], 数据框.loc[i, 'ETS预测值'], 数据框.loc[i, 'TBATS预测值'], 数据框.loc[i, 'Kats_SARIMA预测值'], 数据框.loc[i, 'SVM预测值'], 数据框.loc[i, '贝叶斯结构时间序列预测值']])

    # 保存新的Excel文件
    工作簿.save(文件名)

7、有Excel表格，a列为实际销售额，b列为预测销售额1，c列为预测销售额2，d列为预测销售额3。写Python程序，计算b除以a，c除以a，d除以a的结果，并保存到一个新Excel表格中。

import pandas as pd

def 计算并保存至新Excel(源文件, 新文件):
    # 读取Excel数据
    数据框 = pd.read_excel(源文件)

    # 计算b/a, c/a, d/a的结果
    数据框['b/a'] = 数据框['b列'] / 数据框['a列']
    数据框['c/a'] = 数据框['c列'] / 数据框['a列']
    数据框['d/a'] = 数据框['d列'] / 数据框['a列']

    # 将结果保存到新的Excel文件
    数据框.to_excel(新文件, index=False)

# 使用函数进行计算并保存
计算并保存至新Excel('源文件.xlsx', '新文件.xlsx')

8、写一个Python框架def，尽量用中文变量名 1、使用gui界面，有文本输入窗口，提交按钮，文本输出窗口 2、接收文本输入框提交的文本，用jieba库拆分句子，提取关键字 3、排除关键字中中黑名单出现的关键字 4、将剩下的关键字匹配TXT文件中的句子 5、将prompt、匹配到的句子上传给人工智能GPT3.5，返回结果文本 6、将文本显示在文本输出窗口中。

import tkinter as tk
import jieba
import jieba.analyse
# 以下为假设的人工智能GPT3.5库
# import gpt3_5

def 提交文本():
    # 获取输入的文本
    输入文本 = 文本输入窗口.get("1.0","end-1c")
    
    # 使用jieba进行拆分句子和提取关键字
    关键字 = jieba.analyse.extract_tags(输入文本, topK=20)
    
    # 排除关键字中黑名单出现的关键字
    黑名单 = ["不适当的关键字1", "不适当的关键字2"]
    关键字 = [关键词 for 关键词 in 关键字 if 关键词 not in 黑名单]
    
    # 从TXT文件中匹配句子
    with open('句子库.txt', 'r', encoding='utf-8') as 文件:
        句子库 = 文件.readlines()
    匹配句子 = [句子 for 句子 in 句子库 if any(关键词 in 句子 for 关键词 in 关键字)]
    
    # 将匹配到的句子上传给人工智能GPT3.5
    # 结果文本 = gpt3_5.generate(prompt=输入文本, documents=匹配句子)
    结果文本 = "这是返回的结果文本"  # 这里只是一个示例，实际应用需要用上面的代码
    
    # 将结果文本显示在文本输出窗口中
    文本输出窗口.delete("1.0", tk.END)
    文本输出窗口.insert(tk.END, 结果文本)


# 创建tkinter窗口
窗口 = tk.Tk()

# 创建文本输入窗口和提交按钮
文本输入窗口 = tk.Text(窗口, height=10)
文本输入窗口.pack()
提交按钮 = tk.Button(窗口, text="提交", command=提交文本)
提交按钮.pack()

# 创建文本输出窗口
文本输出窗口 = tk.Text(窗口, height=10)
文本输出窗口.pack()

# 开始tkinter的主循环
窗口.mainloop()

本文参与?腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2023-05-27，如有侵权请联系?cloudcommunity@tencent.com 删除

数据分析