Сигмоид


Сигмоид
Сигмоид

Сигмоид — это гладкая монотонная нелинейная S-образная функция, которая часто применяется для “сглаживания“ значений некоторой величины. Возрастающая функция.

Часто под сигмоидом понимают логистическую функцию

\sigma(x) = \frac{1}{1 + e^{-x}}

Содержание

Семейство функций класса сигмоид

В семейство функций класса сигмоид также входят такие функции как арктангенс, гиперболический тангенс и другие функции подобного вида.

Функция Ферми (экспоненциальная сигмоида): f(s)= \frac{1}{1+e^{-2 \alpha s}}

Рациональная сигмоида: f(s)= \frac{s}{|s|+ \alpha}

Гиперболический тангенс: f(s)= th \frac{s}{\alpha} = \frac{ e^{ \frac{s}{\alpha} } - e^{ - \frac{s}{\alpha}} } 
{e^{ \frac{s}{\alpha} } + e^{ - \frac{s}{\alpha}}}

Применение

Нейронные сети

Сигмоид применяется в нейронных сетях для того, чтобы ввести некоторую нелинейность в работу сети, но при этом не слишком сильно изменить результат ее работы.

Одна из причин, по которой сигмоид используется в нейронных сетях, это простое выражение его производной через саму функцию (которое и позволило существенно сократить вычислительную сложность метода обратного распространения ошибки, сделав его применимым на практике):

\sigma'(x) = (1 + \sigma(x)) \cdot (1 - \sigma(x)) - для гиперболического тангенса
\sigma'(x) = \sigma(x) \cdot (1 - \sigma(x)) - для логистической функции

Не менее важной причиной введения нелинейности является математически доказанная возможность получить сколь угодно точное приближение любой непрерывной функции многих переменных, используя операции сложения и умножения на число, суперпозицию функций, линейные функции а также одну произвольную непрерывную нелинейную функцию одной переменной (Обобщенная аппроксимационная теорема - источник недоступен (23.11.09), возможная альтернатива - Обобщенная аппроксимационная теорема и вычислительные возможности нейронных сетей)

Логистическая регрессия

Логистическая функция f(x) = \frac{1}{1 + e^{-x}} используется в логистической регрессии следующим образом. В ней решается задача классификации с двумя классами (y = 0 и y = 1, где y — переменная, указывающая класс объекта), и делается предположение о том, что вероятность принадлежности объекта к одному из классов выражается через значения признаков этого объекта x1,x2,...,xn (действительные числа):

\Pr\{y=0|x_1,\ldots,x_n\} = f(a_1 x_1 + \ldots + a_n x_n) = \frac{1}{1 + \exp(-a_1 x_1 - \ldots - a_n x_n)},

где a1,...,an — некоторые коэффициенты, требующие подбора, обычно, методом наибольшего правдоподобия.

Выбор именно этой функции f(x) можно обосновать, рассматривая логистическую регрессию, как обобщённую линейную модель в предположении, что зависимая переменная y распределена по закону Бернулли.

См. также

Ссылки


Wikimedia Foundation. 2010.