2025-01-09来源:EPS数据
1. 引言
随着城市化进程的加速和经济的快速发展,城镇居民的生活水平和收入水平逐渐成为衡量经济健康和社会发展的重要指标之一。城镇居民人均可支配收入(简称“可支配收入”)作为反映居民经济状况的关键指标,直接影响居民的消费能力、储蓄行为以及社会的整体经济活力。因此,准确预测城镇居民的可支配收入,具有重要的社会经济意义,不仅可以为政策制定者提供科学依据,还可以帮助企业、金融机构等制定更为精准的市场策略。
在预测可支配收入的过程中,涉及到许多复杂的因素,包括经济、人口、教育、社会保障等多方面的特征。这些因素之间往往存在非线性、复杂的相互作用关系,因此需要使用具有较强拟合能力的模型进行建模。传统的回归分析方法虽然具有较高的可解释性,但在处理复杂的多维数据时,往往难以捕捉到数据之间的复杂关联性。近年来,深度学习方法,尤其是卷积神经网络(CNN),由于其强大的特征提取能力和灵活的模型架构,已经在各种回归和分类任务中取得了优异的表现。
卷积神经网络(CNN)起初主要应用于图像处理领域,但随着其逐渐扩展到其他类型的数据分析任务,尤其是时序数据和结构化数据,CNN也在回归任务中展现出了强大的潜力。CNN通过多层卷积和池化操作,能够自动从数据中提取出层次化的特征,在处理具有空间或局部相关性的复杂数据时,表现尤为突出。在本研究中,我们选用CNN作为回归模型的核心架构,旨在通过其强大的特征提取能力,从一系列经济和人口特征中学习并预测城镇居民的可支配收入。
本研究使用的数据集来源于EPS数据平台华北地区的经济统计数据,包括多项与居民收入密切相关的指标。数据集包含80个样本,每个样本包含多个经济和人口特征,具体包括以下几个主要特征:人均地区生产总值、就业人员数、财政一般预算收入、财政一般预算支出、居民消费价格指数等9个经济指标。其中,目标变量为城镇居民人均可支配收入(元),是本研究的回归预测目标。通过对这些特征的分析和建模,我们期望能够捕捉到复杂的经济、社会和人口特征对城镇居民收入的影响,从而为预测未来的收入水平提供可靠的工具。具体的数据来源可从https://www.epsnet.com.cn/查找。
利用CNN的优势,通过自动化学习经济和人口特征中的复杂模式,来提高回归预测的准确性和稳定性。相比传统的线性回归或决策树回归,CNN能够更好地处理多维度的、非线性的特征关系,从而为预测任务带来更高的精度和鲁棒性。
2. 方法
在本研究中,采用卷积神经网络(CNN)作为回归模型的核心架构,用于预测城镇居民的人均可支配收入。CNN能够自动从输入数据中提取出层次化的特征,这对于处理复杂的经济和人口特征尤为有效。以下是本研究中使用的CNN模型的详细设计和训练过程。
2.1 CNN模型架构
本模型由多个卷积层、池化层以及全连接层组成,以实现对输入特征的自动学习和回归预测。具体的架构设计如下:
图1 CNN结构原理图
1. 卷积层:本模型采用了2个卷积层,分别使用3x3和5x5大小的卷积核。第一层卷积层提取低级特征,第二层则进一步抽象这些特征,捕捉更高层次的数据关系。卷积层通过滤波器对输入数据进行局部感知,从而能够有效地提取区域间的局部模式。卷积层的输出通过ReLU(Rectified Linear Unit)激活函数进行非线性变换,ReLU函数能够加速训练并防止梯度消失问题。
2. 池化层:每个卷积层后跟一个池化层,采用最大池化(Max Pooling)操作,池化窗口大小为2x2。池化层的作用是对卷积后的特征图进行下采样,减少特征的维度,从而降低计算量,同时增强模型的平移不变性。
3. 全连接层:经过多次卷积和池化之后,提取的特征会被展平(Flatten),并传入全连接层进行最终的回归预测。全连接层的输出为一个标量值,即预测的“城镇居民人均可支配收入”值。为了确保模型的非线性表示能力,全连接层也使用了ReLU激活函数。
4. 回归输出层:在网络的最后一层,采用一个线性输出层来预测目标变量。由于是回归问题,输出层没有使用激活函数,直接输出一个实数值,表示预测的城镇居民人均可支配收入。
2.2 损失函数
对于回归问题,常用的损失函数是均方误差(MSE)。MSE的定义是预测值与实际值之间差异的平方的平均值。该损失函数的选择源于其计算简单且能有效度量模型的预测精度,特别是在回归任务中,MSE能够突出预测误差较大的样本,从而驱动模型朝着更优的方向调整权重。在本研究中,损失函数公式为:
其中,为实际值,
为预测值,n为样本数。最小化MSE能够有效指导网络学习到最佳的参数,从而提高预测精度。
2.3 优化器
为了优化CNN模型的权重参数,本研究采用了Adam优化器。Adam是一种基于梯度的自适应优化算法,它结合了AdaGrad和RMSProp的优点,通过计算每个参数的梯度的均值和方差的滑动平均来调整学习率。与传统的梯度下降方法相比,Adam能够更快地收敛,并且在参数更新时具有更高的稳定性。
图2 优化器Adam梯度下降优化参数
Adam优化器具有以下优点:(1)自适应学习率:对于每个参数,Adam会根据历史梯度信息动态调整学习率,使得在训练初期步长较大,而在接近最优解时步长较小,从而加速收敛过程。(2)鲁棒性:Adam通过动量和RMSProp的结合,能够在噪声较大的梯度更新中稳定学习。
在本研究中,Adam优化器的学习率设置为0.001,批次大小设置为32,训练时采用了2000个epoch进行训练。通过这些设置,Adam优化器能够有效地更新网络权重,降低训练误差。
3. 数据处理
3.1 数据填充
由于数据在一些年份存在缺失(数据源就是缺失的),所以我们需要先对数据进行缺失值填充,我们使用一种比较新颖的方法:Nadaraya-Watson插值法(Nadaraya-Watson Interpolation),该方法是一种非参数回归方法,常用于估计变量之间的关系。以下是关于它的详细介绍:
给定一组数据点,Nadaraya - Watson估计器通过对所有数据点的加权平均来估计函数值
。权重取决于点x与数据点
之间的距离。对于预测点x,其估计值
由下式给出:
其中是核函数(Kernel function),常见的核函数有高斯核(Gaussian kernel)
,h是带宽(Bandwidth)参数,它控制了核函数的宽度,对估计结果有重要影响。带宽越大,估计越平滑,但可能会丢失一些局部细节;带宽越小,估计越接近原始数据,但可能会导致过度拟合。
图3 Nadaraya-Watson插值结果
3.2 数据归一化
其次我们对数据进行预处理,使用归一化的预处理方法:
这种归一化方法将数据映射到了[0,1]区间内。其中是数据集中的最小值,max(x)是数据集中的最大值。我们之所以使用归一化,在这里主要是加快收敛速度:在很多机器学习算法中(如梯度下降法相关的算法),使用归一化后的数据可以使算法收敛速度更快。因为如果数据特征的尺度差异很大,在进行迭代优化时,梯度方向可能会受到数值较大特征的影响,导致收敛路径曲折,而归一化后的数据可以避免这种情况。
3.3 数据降维
由于我们是人为挑选的特征变量,所以存在一定的主观性,为了让不必要的冗余变量影响目标值的预测,我们使用经典的降维方法:主成分分析(PCA),通过主成分来降低维度。
特征根反映了每个主成分所包含的信息量。从图中可以看到:第一个主成分的特征根非常高,接近70,这意味着第一个主成分包含了大量的数据信息。随着主成分序号的增加,特征根迅速下降。第二个主成分的特征根大幅降低,大约在 20左右,后续的主成分特征根依次递减。
方差解释率表示每个主成分能够解释原始数据总方差的比例。图中显示:第一个主成分的方差解释率最高,约为63.32%,这意味着第一个主成分能够解释原始数据中大部分的方差。从第二个主成分开始,方差解释率急剧下降。第二个主成分的方差解释率约在16.30%,后续的主成分方差解释率越来越低,且下降趋势逐渐变缓。
我们可以用前五个主成分来对原始数据进行近似表示,从而达到降维的目的。后续的主成分对方差的解释能力较弱,在进行数据降维时,可能会被舍弃。
图4 主成分分析特征值和方差贡献率
4. 结果
对于模型中使用的超参数,我们在下面表格中列出:
表1 CNN模型超参数
超参数 | 取值 |
卷积核大小 | 3x3和5x5 |
池化窗口大小 | 2x2 |
全连接层激活函数 | ReLU |
优化器 | Adam |
训练轮数(epoch) | 2000 |
数据填充方法 | Nadaraya-Watson |
我们分别展示了基于卷积神经网络(CNN)和线性回归(Linear Regression)的预测结果。每个子图中都有两条曲线,蓝色代表真实值,红色代表预测值。
图5 CNN与Linear Regression预测结果
对比两个模型,CNN模型在捕捉数据波动方面表现更佳,其预测值曲线更贴合真实值曲线的波动形态。然而,两种模型在早期样本预测上均存在短板,未能精准捕捉局部峰值与波动。随着样本数量增多,二者预测值虽逐渐靠近真实值,但均有偏差,不过CNN模型在数据波动较大区域的拟合效果相对略好。
随着样本数量的增加,两种模型的预测值都逐渐接近真实值,但都存在一定的偏差。相对而言,CNN模型的拟合效果可能稍好一些,尤其是在数据波动较大的区域。
图6 CNN模型部分代码框架
5. 结论
我们利用卷积神经网络(CNN)强大的特征提取能力,对城镇居民人均可支配收入进行预测,并与传统的线性回归模型进行对比。通过一系列的实验和分析,我们得出以下结论:
CNN模型在处理复杂的经济和人口特征数据时,展现出了较强的能力。其架构设计中的多层卷积层(3x3和5x5卷积核)、池化层(2x2最大池化)以及全连接层的组合,使得模型能够有效地从数据中自动学习层次化特征。在与线性回归模型的对比中,CNN模型在预测准确性和稳定性方面具有一定优势,尤其在捕捉数据波动方面表现突出,这得益于其对复杂数据关系的良好处理能力。
尽管CNN模型表现较好,但两种模型在早期样本预测中均存在改进空间,这提示我们在后续研究中可进一步探索更有效的数据预处理方法或模型改进策略,以提升早期样本预测的准确性。
总体而言,本研究表明CNN模型在城镇居民人均可支配收入预测任务中是一种有效的方法,为相关领域的预测分析提供了有价值的参考。未来研究可考虑进一步优化模型参数、增加数据量或引入更多相关特征,以进一步提高预测精度。
下一条:GBM算法在预测任务中的对比分析