声振论坛

 找回密码
 我要加入

QQ登录

只需一步,快速开始

查看: 3063|回复: 1

[理论方法] BP神经网络在预测应用中的问题

[复制链接]
发表于 2005-9-27 00:59 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?我要加入

x
本帖最后由 wdhd 于 2016-4-13 13:15 编辑

  BP网络在实际应用中存在的问题
  对于 N个样本集合 的两个离散时间序列映射的建立,在实际应用中把总样本分成两个部分,训练样本N1 和检测样本N2 :
  首先用训练样本经过训练建立映射关系,然后再用检测样本检验网络能否给出正确的输入-输出的关系。如果可以误差达到一定的范围,我们说网络具有很好的泛化能力,可以在实际中应用,否则该网络没有任何实用价值。对于这样时间序列映射的建立,可以采用输入节点为 N个,输出节点为 M个,隐节点为 个的三层BP神经网络来实现,其中输入层到隐层的激活函数采用Sinmgod型,隐层到输出层的激活函数采用线性函数。由式,可得网络的输入与输出之间的关系如下:
  其中为网络的输入, 为网络的输出,对某一组训练样本网络误差定义为:
  设定网络总的误差小于 ,则有:
  设定检测样本平均均方误差小于 ,则有:
  在神经网络的应用过程中,由于被逼近样本的性质不能精确知道,因此即使在网络误差 为零的条件下,也未必能保证 达到要求。往往会出现 非常小,而 却无法满足要求。这就是所谓的“过拟合”现象,“过拟合”现象直接影响网络的泛化能力,使得网络最终失去实用价值。网络的泛化能力由以下几个因素影响:
  1.取决样本的特性,只有当训练样本足以表征所研究问题的一些主要的或基本特性时,网络通过合理的学习机制可以使其具有泛化能力,合理的采样结构是网络具有泛化能力的必要条件(如何合理采样本文暂不讨论)。
  2.网络自身的因素影响,如网络结构、网络初始权值的设定和网络的学习算法等。网络的结构主要包括:网络的隐层数、各隐层节点的个数和隐节点激活函数的特性(本文主要从网络的自身因素考虑如何有效提高网络的泛化能力),以下从这几个方面说明原因:
  ①.Funahashi证明,当隐层节点函数为单调递增连续函数时,三层前向网络具有以任意精度逼近定义在紧致子集上的任意非线性函数的能力,Hornik和陈天平进一步证明隐层节点函数有界是必要的,单调递增的条件是非必要。这说明采用三层BP网络,隐节点函数为Sigmoid函数,输出节点函数采用线性函数,完全可以达到网络逼近的要求。文献[61]中说道,“过拟合”现象是网络隐节点过多的必然结果,它的出现影响了网络的泛化能力,同时文献[67]也进一步提到,在满足精度的要求下,逼近函数的阶数越少越好,低阶逼近可以有效防止“过拟合”现象,从而提高网络的预测能力,反映到多层前向神经网络中,就是在精度满足的要求下,网络的隐节点数越少越好。但是在实际应用中,还没有一套成熟的理论方法来确定网络的隐节点,隐节点的确定基本上依赖经验,主要式采用递增或递减的试探方法来确定的网络隐节点。
  ②.网络的初始权值的选择缺乏依据,具有很大的随机性,这也在很大程度上影响网络的泛化能力[68-69]。神经网络连接权值的整体分布包含着神经网络系统的全部知识,传统的权值获取方法都是随机给定一组初始的权值,然后是采用某个确定的变化规则,在训练中逐步调整,最终得到一个较好权值分布。由于BP算法是基于梯度下降方法,不同的初始权值可能会导致完全不同的结果。一旦取值不当,就会引起网络振荡或不收敛,即使收敛也会导致训练时间增长,再加之实际问题往往是极其复杂的多维曲面,存在多个局部极值点,使得BP算法极易陷入局部极值点。这些导致BP神经网络训练时间过长而最终得不到适当的权值分布,从而影响网络的泛化能力,极大的限制了神经网络在实际预报中的应用。
  ③.BP神经网络算法收敛慢,即使一个相当简单的问题求解,其训练次数也要几百或几千次迭代。而且网络对各种参数(包括初始权值、学习速率、动量参数)极为敏感,稍小的变动就会引起拟合和泛化能力的振荡,在反复实验中确定各种参数,这样的过度训练会提高网络的拟合能力,同时也拟合了训练数据中的噪声和训练样本中没有代表行的特征,最终导致过拟合现象[70],从而影响网络的泛化能力,限制了神经网络在实际预报中的应用。
  [63] Funahshi K I. On the Approxirnate Realization of Continuous Mappings by Neutral Networks[J]. Neural Network, 1989,2: 183-192.
  [64] Hornik K, Strinchcomber M, Whiter H. Mutilayer Feedforward Networks Are Universal Approximators[J]. Neural Networks. 1989,2:359-366.
  [65] Honik K. Approximation Capabilities of Multilayer Feedforward Networks Neural[J]. Neural Network, 1991,4: 551-557.
  [66] 陈天平. 神经网络及其在系统识别应用中的逼近问题[J]. 中国科学(A辑), 1994,24 (1): 1-7.
  [67] 董聪. 前向网络全局最优化问题研究[J].中国科学基金, 1997,1:23-29.
  [68] 懂聪. 人工神经网络: 当前的进展与问题[J]. 科技导报,1999,7:26-30.
  [69] 懂聪, 郭晓华. 计算智能中若干热点问题的研究与进展[J]. 控制理论与应用, 2000, 17(5):691-697.
  [70] Tom M. Mitchell著. 机器学习[M]. 曾华军, 张银奎等译. 北京: 机械工业出版社. 2003, 1.
  [ 本帖最后由 zhangnan3509 于 2007-7-4 19:00 编辑 ]
回复
分享到:

使用道具 举报

发表于 2006-5-22 20:17 | 显示全部楼层
good
您需要登录后才可以回帖 登录 | 我要加入

本版积分规则

QQ|小黑屋|Archiver|手机版|联系我们|声振论坛

GMT+8, 2024-5-4 16:56 , Processed in 0.055573 second(s), 17 queries , Gzip On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表