Все это ведет к заключению, что чем больше выборка, тем более вероятность того, что найденные параметры системы будут представительным отражением характеристик рынка в целом. Маленькая выборка, скорее всего, будет непредставительной: ее кривые вряд ли будут соответствовать долговременным, устойчивым характеристикам рынка. Любая модель, построенная с использованием маленькой выборки, может быть эффективной только по чистой случайности. Будет ли подгонка "полезной" или "вредной", во многом зависит от отражения в ней случайных ценовых движений или реальных рыночных процессов, что, в свою очередь, зависит от представительности выборки. Статистика полезна, поскольку позволяет принять в расчет при оценке системы степень подгонки.
При работе с нейронными сетями опасения относительно излишнего обучения, или генерализации, соответствуют опасениям относительно излишней подгонки под исторические данные. Если выборка достаточно объемиста и представительна, повышается вероятность отражения в найденных оптимальных параметрах реальных характеристик рынка, что полезно для реальной работы системы. Если же выборка мала, модель практически гарантированно будет настроена на особенности выборки, но никак не на особенности рынка в целом. Для нейронных сетей успех генерализации означает то же, что для других систем, - устойчивость в будущем и так же сильно зависит от размеров выборки, использованной для обучения сети. Чем больше выборка или чем меньше количество весов связей (т.е. параметров), тем выше вероятность удачной генерализации. Это также можно доказать математически путем разбора несложных примеров.
Как и в случае с регрессией, при разработке нейронной сети можно произвести оценку коррекции коэффициента корреляции (т.е. показателя, обратного генерализации). Фактически, нейронная сеть представляет собой систему уравнений множественной регрессии, хотя и нелинейных, и корреляция выходных значений сети может рассматриваться как множественный коэффициент корреляции. Множественная корреляция между выходными и целевыми значениями может быть скорректирована для прогнозирования поведения системы на данных вне выборки. Такая скорректированная множественная корреляция должна постоянно использоваться для определения того, является ли эффективность нейронной сети
случайной или она вызвана обнаружением реальной закономерности в ценовом поведении рынка. Формула коррекции коэффициента множественной корреляции приведена ниже:
RC = SQRT (1.0 - ( (N - 1.0) / (N - Р) ) * (1.0 - R*R) )
Формула приведена в стиле языка FORTRAN. Здесь SORT означает квадратный корень; N - количество точек данных или фактов в случае нейронной сети; Р- количество коэффициентов регрессии или (в случае нейронной сети) весов связей; R - некорректированную множественную корреляцию; RC - скорректированную корреляцию. Хотя эта формула строго приложима только к линейной множественной регрессии (для которой, собственно, и разрабатывалась), она неплохо работает с нейронными сетями и может быть использована для того, чтобы оценить, какая часть эффективности системы обусловлена "вредной" подгонкой на данном образце. Эта формула описывает связь между размером выборки, количеством параметров и снижением эффективности результатов. Статистическая коррекция, рассчитываемая по данной формуле, будет использована в главе о входах систем на нейронных сетях.
Назад