Machine Learning

Machine Learning #

다음 사이트등을 참조하여 머신 러닝 관련 자료 정리.

Machine Learning 분류 #

머신 러닝은 지도학습, 비지도학습, 강화학습으로 분류. 지도학습은 다시 회귀와 분류, 비지도 학습은 군집화,변환,연관으로 분류¹.

Supervised Learning
- Regression
- Classification
Unsupervised Learning
- Clustering
- Transform
- Association
Reinforcement Learning

Linear Regression² #

Regression이란 전체의 평균으로 회귀하려는 속성을 나타냄. 데이터의 분포를 가장 잘 설명 할 수 있는 직선의 방정식을 찾아내는 것을 의미.

linear regression ...

H(X) = WX+B ( y = ax + b )

H : Hypothesis (가설)

W : Weight (기울기)

B : Bias (절변)

Cost는 데이터와 직선 차이의 합. 음수, 양수 모두 존재함으로 제곱을 사용.

cost ...

Cost : \( H(x) - y \)

Total Cost : \( \frac{(H(x_1)-y_1)^2 + (H(x_2)-y_2)^2 + ... + (H(x_n)-y_n)^2 }{n} \)

Total Cost : cost(W) = \( \frac{1}{n}\, \textstyle\sum_{i=1}^n \,(Wx_i-y)^2 \)

Cost Function : cost(W,b) = \( \frac{1}{n}\, \textstyle\sum_{i=1}^n \,(H(x_i)-y_i)^2 \)

Goal : minimize_w,_b cost(W,b)

Goal은 가설과 실제 데이터 차이의 제곱이 최소가 되는 기울기와 절편은 찾는 문제.

Gradient Descent #

임의 점에서 시작 학습률 만큼 기울기가 낮은 쪽으로 진행하며 최적해를 탐색하는 방식을 경사하강법이라 함. Convext 상황에서는 잘 작동하나 Local Optimal이 존재할 경우 문제가 발생됨³.

gradient descent ...

\( W := W - \alpha \frac{\partial}{\partial W} \, cost(W) \)

\( \frac {\partial}{\partial W} (WX-Y)^2 \)

체인룰 적용 \( U = WX+Y \to \frac {\partial U^2}{\partial U} \cdotp \frac {\partial U}{\partial W}\)

\( 2U \cdotp \frac {\partial U}{\partial W}\)

\( 2(WX+Y) \cdotp \frac {\partial (WX+Y)}{\partial W}\)

\( 2(WX+Y) \cdotp (X+0)\)

\( \therefore 2(WX+Y)X\)

Derivative #

함수 f(x)에 대한 미분은 아래와 같음. x의 변화량이 0으로 수렴할때 y의 변화량을 의미.

derivative ...

\( f'(x) = \frac{\Delta f(x)}{\Delta x} = \lim\limits_{\Delta x \rightarrow 0 } \, \frac{f(x+\Delta x)-f(x)}{\Delta x} \)

미분 기초 정리

derivative basic ...

\( f(x) = constant -> f'(x) = 0 \)

\( f'(x) = e ^ x => f'(x) = e ^ x \)

\( f'(x) = e ^ -x => f'(x) = -e ^ -x \)

\( f'(x) = ax ^ x => f'(x) = nax ^ {n-1} \)

\( f'(x) = ln ^ x => f'(x) = \frac{1}{x} \)

\( \frac{1}{x} = x^{-1} \)

미분의 의미

meaning of derivative ...

\( f(x) = x^2 \) 일 경우 \( f'(x) = 2 * x^ {2-1} = 2x \)

\( f(2) = 2^2 = 4 \) 일 경우 \( f'(2) = 2*2 = 4 \)

\( f(2) = 1^2 = 1 \) 일 경우 \( f'(2) = 2*1 = 2 \)

\( f(2) = 0^2 = 0 \) 일 경우 \( f'(2) = 2*0 = 0 \)

즉 x = 2 일때 미분 f(x)는 4의 변화를 가지게 됨 즉 x = 1 일때 미분 f(x)는 2의 변화를 가지게 됨 즉 x = 0 일때 미분 f(x)는 0의 변화를 가지게 됨 즉 x의 한점에서 y의 변화량을 통해 위의 x^2이 Cost라 가정하고 반복한다면 기울기가 0이되는 즉 Cost가 최저인 점을 구할 수 있음.

practice 1 : derivative ...

\( f(x) = 3x^2 + e^x + 7 \) 의 \( f'(x) ? \)

\( = 3*2*x^{2-1} + e^x + 0 = 6x + e^x \)

practice 2 : derivative ...

\( f(x) = lnx + \frac{1}{x} \) 의 \( f'(x) ? \)

> \( = \frac{1}{x} - \frac{1}{x^2} \)

입력변수가 하나 이상인 다변수 함수에서 사용하는 편미분을 사용. 편미분은 미분하고자 하는 변수를 제외하고 나머지는 상수로 취급.

practice 1 : partial derivative ...

\( f(x,y) = 2x + 3xy + y^3 \) 변수 x에 대해 편미분

\( = \frac{\partial f(x,y)}{\partial x} = \frac{\partial(2x+3xy+y^3)}{\partial x} \)

\( = \frac{\partial 2x}{\partial x} + \frac{\partial 3xy}{\partial x} + \frac{\partial y^3}{\partial x} \)

\( = 2 + 3y + 0 \)

\( = 2 + 3y \)

\( f(x,y) = 2x + 3xy + y^3 \) 변수 y에 대해 편미분

\( = \frac{\partial f(x,y)}{\partial y} = \frac{\partial(2x+3xy+y^3)}{\partial y} \)

\( = \frac{\partial 2x}{\partial y} + \frac{\partial 3xy}{\partial y} + \frac{\partial y^3}{\partial y} \)

\( = 0 + 3x + 3y^2 \)

\( = 3x + 3y^2 \)

복합 함수를 위해 Chain Rule을 통해 미분. 특정 함수를 치환하여 약분 개념을 적용. 두 함수 곱의 미분은 단순 곱이 아니며 Product Rule이 적용됨.

chain rule ...

\( \frac{\partial f}{\partial x} = \frac{\partial f}{\partial t} \circ \frac{\partial t}{\partial x} \)

product rule ...

\( \frac{\partial}{\partial x}[f(x)g(x)]=f(x)g'(x)+f'(x)g(x) \)

practice 1 : chain rule ...

\( f(x) = e ^ {3x^2} \space \space \space e^t , \space t = 3x^2 \)

\( \frac{\partial f}{\partial x} = \frac{\partial f}{\partial t} \circ \frac{\partial t}{\partial x} = \frac{\partial (e^t)}{\partial t} \circ \frac{\partial (3x^2)}{\partial x} = (e^t)(6x) = (e^{3x^2})(6x) = 6xe^{3x2} \)

practice 2 : chain rule ...

\( f(x) = e^{-x} \space \space \space e^t , \space t = -x \)

\( \frac{\partial f}{\partial x} = \frac{\partial f}{\partial t} \circ \frac{\partial t}{\partial x} = \frac{\partial (e^t)}{\partial t} \circ \frac{\partial (-x)}{\partial x} = (e^t)(-1) = (e^{-x})(-1) = -e^{-x} \)

practice 3 : chain/product rule ...

\( f(x) = 3xe^x \)

\( \frac{\partial}{\partial x}(3xe^x) = 3 \Big( \frac{\partial}{\partial x}(e^x x) \Big) \)

Product Rule을 적용 \( \frac{\partial}{\partial x}(u v) = v \frac{\partial u}{\partial x} + u \frac{\partial v}{\partial x} \) 다음으로 치환 \( u = e^x \space v = x \)

\( 3 \Big( x \frac{\partial}{\partial x}(e^x) + e^x \frac {\partial}{\partial x}(x) \Big) \)

Chain Rule을 적용 \( \frac{\partial}{\partial x}(e^x) = \frac {\partial e^u}{\partial u} \frac{\partial u}{\partial x} \) 다음으로 치환 \( u = x, \space \frac{\partial}{\partial u}(e^u)=e^u \)

\( = 3 \Big( x e^x \frac{\partial}{\partial x}(x) + e^x \frac{\partial}{\partial x}(x) \Big) \)

\( = 3 \Big( x e^x 1 + e^x \frac{\partial}{\partial x}(x) \Big) \)

\( = 3 \Big( x e^x + e^x 1 \Big) \)

\( = 3 ( x e^x + e^x ) \)

\( = 3 e^x( x + 1 ) \)

Loss Function #

다시 선형회귀에서 실측되는 데이터와 f(x) = wx+b간 error는 최소가 되어야함. Error가 최소가 되는 W,B를 연속적으로 측정하기 위해 사용되는 것이 손실함수임.

loss function ...

\( Loss Funtion = \frac{(t_1-y_1)^2 + (t_2-y_2)^2 + ... + (t_n-y_n)^2}{n} \)

\( = \frac{[t_1-(Wx_1+b)]^2 + [t_2-(Wx_2+b)]^2 + ... + [t_n-(Wx_n+b)]^2}{n} \)

\( = \frac{1}{n} \, \displaystyle\sum_{i=1}^n \, [t_i-(Wx_i+b)]^2 \)

원 기울기에서 학습률*미분만큼을 감소시키며 기울기가 0이 되는 최적해로 진행됨.

gradient descent ...

\( W := W - \alpha \frac{\partial}{\partial W} \, \frac{1}{2m} \textstyle\sum_{i=1}^m (W(x_i)-y_i)^2 \)

\( W := W - \alpha \frac{1}{2m} \, \textstyle\sum_{i=1}^m 2(W(x_i)-y_i)X_i \)

\( W := W - \alpha \frac{1}{m} \, \textstyle\sum_{i=1}^m (W(x_i)-y_i)X_i \)

\( W := W - \alpha \frac{\partial}{\partial W} \, cost(W) \)

\( b := b - \alpha \frac{\partial}{\partial b} \, cost(b) \)

여기서 학습률은 최적해를 향한 진행 폭을 결정. 작을 경우 성능이 저하. 클 경우 학습이 진행되지 않음.

learning rate ...

\( W = W - \alpha \, \frac{\partial E(W,b)}{\partial W} \)

이론적으로 Convex Function이라면 대체로 최적해를 잘 찾을 수 있으나 그렇지 않다면 Parameter에 따라 결과가 상이할 수 있음.

Dot Product #

모든 요소들의 행렬곱을 통해 계산.

dot product ...

\( x_1 * W + b_1 = y_1 \)

\( x_2 * W + b_2 = y_2 \)

\( x_3 * W + b_3 = y_3 \)

\( x_4 * W + b_4 = y_4 \)

\( x_5 * W + b_5 = y_5 \)

행렬의 곱으로 전환

\( \begin{pmatrix} x_1 \\ x_2 \\ x_3 \\ x_4 \\ x_5 \end{pmatrix} \circ (W) + b = \begin{pmatrix} y_1 \\ y_2 \\ y_3 \\ y_4 \\ y_5 \end{pmatrix} \)

\( X \circ W + b = Y \)

multi variable dot product ...

\( \begin{pmatrix} x_1 \\ x_2 \\ x_3 \\ x_4 \\ x_5 \end{pmatrix} \circ \begin{pmatrix} w_1 \\ w_2 \\ w_3 \end{pmatrix} + b = \begin{pmatrix} y_1 \\ y_2 \\ y_3 \\ y_4 \\ y_5 \end{pmatrix} \)

\( X \circ W + b = Y \)

Logistic Regression #

Regression을 통해 처리된 결과를 Classification 처리함. Linear Regression의 결과는 수치형 값을 가지게 됨으로 분류 문제에 취약. Linear한 결과를 Logistic Regression을 통해 선택의 결과로 대치.

분류의 문제를 위해 지수 함수 \( e^x \) 를 \( e^{-x} \) 로 전환 후 \( \frac{1}{1 + e^{-x}} \) 에 대입하여 x의 좌측으로 진행할수로 \( \infty \) 에 가까워지며 0에 수렴하게되고 x의 우측으로 진행하게 될수록 0에 수렴하면서 1에 가까워지는 결과가 됨.

sigmoid ...

\( Z = Wx + b \)

\( y = \frac {1}{1+e^{-(Wx+b)}} \)

\( y = sigmoid(Z) = \sigma (z) = \frac{1}{1+e^{-z}} \)

Logistic Regression의 Cost Function은 y = 1 일때와 y = 0 일때로 구분할 수 있는데 y = 1 일때는 \( \log(h(x)) \) 의 역 \( -\log(h(x)) \) 을 취해 0으로 근접할 수록 오차가 \( \infty \) 에 수렴하게 됨. 반대로 y = 0 일때는 \( \log(1 - h(x)) \) 와 같이 1에서 차감하여 1에 근접할 수록 오차가 \( \infty \) 에 수렴하함. 이 두 식을 합하면 Logistic Regression의 Convex한 Cost Funtion이 되게 됨.

Cross-Entropy 유도의 또다른 설명은 다음과 같음.

하나의 입력 x에 대해 출력이 1일 확률을 y로 정의. y는 0 또는 1일임으로 y = sigmoid(Wx+b)로 나타낼 수 있음. 입력 x에 대해 출력이 0일 확률은 1이 나타날 확률의 나머지임으로 1-y 임. 확률 변수 C는 0 또는 1 이외에는 존재하지 않음으로 베르누이 시행을 전제로 하며 베르누이 분포의 확률질량함수(PMF)는 아래와 같이 정의됨. 이를 Log 변환을 통해 Convex의 형태와 극점의 위치를 유지하며 곱을 선형의 조합 꼴로 풀 수 있도록 변환함.

bernoulli distribution (PMF) ...

\( p(C=1|x) = y = sigmoid(Wx+b) \)

\( p(C=0|x) = 1 - p(C=1|x) = 1 - y \)

\( p(C=p|x) = y^p ( 1 - y )^{1-P} \)

\( Likelyhood (W,b) = \displaystyle\prod_{i=1}^n p(C=p_i|x_i) = \displaystyle\prod_{i=1}^n y_i^{p_i} (1-y_i)^{1-p_i} \)

\( E(W,b) = - \log L(W,b) = -\displaystyle\sum_{i=1}^n \lbrace t_i \textstyle\log y_i + (1-p_i) \log(1-y_i) \rbrace \)

logistic regression cross entropy ...

\( y = \frac{1}{1+e^{-(Wx+b)}} , \space p_i = 0 \space or \space 1 \)

\( E(W,b) = - \, \displaystyle\sum_{i=1}^n \, \lbrace p_i \, \log y_i + (1-p_i) \log (1-y_i) \rbrace \)

Bayes Theorem #

Logit, Sigmoid, Softmax를 유도하기 위해 다음과 같은 확률의 개념이 선행되어야함.

불확실성 하의 의사 결정의 문제를 수학적으로 다룰때 사용되는 베이즈의 정리(Bayes Theorem)와 전확률 법칙(law of total probability)는 다음과 같음.

bayes theorem ...

\( P(Y|X) = \frac {P(X \bigcap Y)}{P(X)} \)

\( P(X|Y) = \frac {P(Y \bigcap X)}{P(Y)} \)

\( P(Y \bigcap X) = P(X \bigcap Y) = P(X|Y)P(Y) = P(Y|X)P(X) \)

\( \therefore P(Y|X) = \frac {P(X|Y)P(Y)}{P(X)} \)

P(Y|X) : 사후확률(Posterio probability)

P(X|Y) : 가능도(likelihood)

P(Y) : 확률변수 Y의 사전확률(prior probability)

P(X) : 확률변수 X의 사전확률(prior probability)

표본 공간 S를 n개로 나누었을때 사건 A의 확률은 다음과 같이 나타나며 총합은 1이됨.

law of total probability ...

\( P(A) = P(A \bigcap B_1) + P(A \bigcap B_2) + ... + P(A \bigcap B_n) \)

일반적으로 \( A_1,A_2,A_3 \) 가 서로 Mutually Exclusive이고 이들의 합집합이 표본공간과 S와 같으면 사건 \( A_1,A_2,A_3 \) 는 표본공간 S의 분할이라고 정의. 특정 사건 B가 나타날 확률은 전확률 공식에 의거 다음과 같이 표현할 수 있음.

b : law of total probability ...

\( P(B)) = P(A_1)P(B|A_1)+ P(A_2)P(B|A_2) + P(A_3)P(B|A_3) = \displaystyle\sum_{i=1}^3 P(A_i)P(B|A_i) \)

\(P(A_1)\) , \(P(A_2)\) , \(P(A_3)\) 은 미리 알고 있다는 의미로 사전확률(Prior Probability)로 불리고, \(P(B|A_1)\) , \(P(B|A_2)\) , \(P(B|A_3)\) 는 우도(Likelihood Probability)라 부름.

\( P(A_1|B) \) 는 사건 B를 관측한 후 원인이 되는 사건 A의 확률을 따졌다는 의미에서 사후확률(Posterior Probability)로 정의되며 다음과 같이 나타낼 수 있음.

posterior probability ...

\( P(A_1|B)) = \frac {P(A_1)P(B|A_1)}{P(B)} = \frac {P(A_1)P(B|A_1)}{P(A_1)P(B|A_1)+P(A_2)P(B|A_2)+P(A_3)P(B|A_3)} \)

practice 1 : 진단문제 ...

전체 인구의 1%가 어떤 병에 걸렸다고 가정. 이 병의 진단 정확도가 97% 오진률은 6%라고 가정.

\( P(D) = 0.01 \) : 사전확률

\( P( \backsim D) = 0.99 \) : 사전확률

\( P(+|D) = 0.97 \) : 우도

\( P(+| \backsim D) = 0.06 \) : 우도

\( P(D|+) \) = ????? : 사후확률 (진단테스트 양성일때 실제 환자일 확률 )

\( P(+) = P(D \cap +)+P( \backsim D \cap +) \)

\( = P(D)P(+|D)+P( \backsim D)P(+| \backsim D) \)

\( = 0.01 \times 0.97 + 0.99 \times 0.06 \)

\( = 0.691 \)

\( P(D|+) = \frac {P(D)P(+|D)}{P(+)} \)

\( = \frac {0.01 \times 0.97}{0.691} \)

\( = 0.014 \)

practice 2 : 딸기맛 문제 ...

사탕주머니 1 : 딸기맛 30개, 포도맛 10

사탕주머니 2 : 딸기맛 20개, 포도맛 20

두 주머니에서 임의로 골랐을때 딸기였다면 주머니1에서 나왔을 확률은?

\( P(H) \) : 사전확률 -> 주머니1을 고를 확률

\( P(D|H) \) : 우도 -> 주머니1의 딸기 확률

\( P(D) \) : 한정상수 -> 딸기를 고를 확률

\( P(H|D)) \) : 사후확률 -> 주머니1에서 딸기를 골랐을 확률

\( P(H|D)) = \frac {P(H)P(D|H)}{P(D)} = \frac { \frac {1}{2} * \frac {3}{4} }{ \frac {5}{8} } = \frac {3}{5} \)

이때 한정상수 \( P(D) \) 는 상호배제(Mutually Exclusive)와 전체포괄(Collectively Exhaustive)의 원칙에서 같은 값을 지니며 계산이 생략됨

Point	Theory1	Theory2
사전확률 P(H)	1/2	1/2
우도P(D	H)	3/4
사전확률*우도	3/8	1/4
한정상수P(D)	5/8	5/8
사후확률P(H	D)	3/5

\( P(H|D) = \frac {P(H)P(D|H)}{P(D)} = \frac { \frac {1}{2} * \frac {3}{4} }{ \frac {5}{8} } = \frac {3}{5} \)

practice 3 : 카드문제 ...

카드A : 앞뒤 모두 검은색

카드B : 앞은 검은색, 뒤는 하얀색

카드C : 앞뒤 모두 하얀색

세카드 중 하나를 뽑아서 본면이 검은색일 때 그 뒷면도 검은색이 나올 확률

\( P(A|Black) = \frac {P(A)P(Black|A)}{P(Black)} \)

\( = \frac {P(A)P(Black|A)}{P(A)P(Black|A)+P(B)P(Black|B)} \)

\( = \frac { \frac {1}{3} * 1 }{ \frac {1}{3} * 1 + \frac{1}{3} * \frac{1}{2} } = \frac {2}{3} \)

practice 4 : 몬티홀문제 ...

문A1 : 상금

문A2 : 꽝

문A3 : 꽝

출연자가 문을 하나 선택한 후

사회자가 다른 문을 열어 문을 하나 보여준 후

출연자가 선택을 바꾸지 않고 문을 열때의 당첨 확률

\( P(A1|B) = \frac {P(A1 \cap B))}{P(B)} = \frac {P(A1 \cap B)}{P(A1 \cap B) + P(A2 \cap B) + P(A3 \cap B)} = \frac { P(A1)P(B|A1) }{ P(A1)P(B|A1) + P(A2)P(A2|B) + P(A3)P(A3|B) } = \frac {\frac {2}{3} * \frac {1}{2}}{\frac {1}{3}* \frac {1}{2} + \frac {1}{3}*0 \frac {1}{3}*1} = \frac {1}{3} \)

Logit / Sigmoid / Softmax #

Logit /Sigmoid /Softmax의 관계를 정리

Logit은 Log Odds를 의미.
Odds란 도박에서 얻을 확률과 잃을 확률의 비율을 의미

odds / logit ...

\( Classes : C_1, C_2 \)

\( Probability of C_1 given X : y = P(C_1|X) \)

\( Probability of C_2 given X : 1-y = P(C_2|X) \)

Odds = \( \frac {y}{1-y} = \frac {P(C_1|X)}{1-P(C_1|X)} \)

Choose = \( \begin{cases} C_1 \space if \space \frac {y}{1-y} > 1 \\ C_2 \space if \space \frac {y}{1-y} < 1 \end{cases} \)

이를 Log를 이용해 0~1의 범위로 한정된 Logit을 도출

logits ...

\( = log \Big( \frac{y}{1-y} \Big) \)

\( = log \Big( \frac{P(C_1|X)}{1-P(C_1|X)} \Big) \)

\( z = log( \frac {y}{1-y} \) , \( e^z = ( \frac {y}{1-y} ) \)

\( e^z = ( \frac {y}{1-y} ) \)

\( \frac {1}{e^z} = \frac {1-y}{y} \) = \( \frac {1}{e^z} = \frac {1}{y} -1 \)

\( \frac {1}{e^z} + 1 = \frac {1}{y} \) = \( \frac {1 + e^z}{e^z} = \frac {1}{y} \)

\( \frac {e^z}{1 + e^z} = y \)

\( \frac {e^z / e^z}{(1 + e^z)/e^z} = y \)

\( \frac {1}{ \frac{1}{e^z} + 1 } = y \)

\( \frac {1}{ e^{-z} + 1 } = y \)

\( \therefore y = \frac {1}{ 1 + e^{-z}} \)

여기서 Softmax는 Sigmoid를 K개 이상으로 일반화 하여 유도.

softmax ...

\( \frac {P(C_1|X)}{P(C_2|X)} = e^z \)

\( \frac {P(C_i|X)}{P(C_k|X)} = e^{z_i} \)

\( \displaystyle\sum_{i=1}^{k-1} \frac { P(C_i|X)}{P(C_k|X)} = \displaystyle\sum_{i=1}^{k-1} e^{z_i} \)

\( \frac {P(C_1|X)+P(C_2|X)+...+P(C_{k-1}|X)}{P(C_k|X)} = \displaystyle\sum_{i=1}^{k-1} e^{z_i} \)

\( \frac {1-P(C_k|X)}{P(C_k|X)} = \displaystyle\sum_{i=1}^{k-1} e^{z_i} \)

\( P(C_k|X) = \frac{1}{1+ \textstyle\sum_{i=1}^{k-1} e^{z_i} } \)

\( P(C_i|X) = e^{z_i} P(C_k|X) \)

\( P(C_i|X) = \frac {e^{z_i}}{1 + \textstyle\sum_{i=1}^{k-1} e^{z_i}} \)

\( P(C_i|X) = \frac {e^{z_i}}{e^{z_i} + \textstyle\sum_{i=1}^{k-1} e^{z_i}} = \frac {e^{z_i}}{ \textstyle\sum_{i=1}^{k} e^{z_i}} \)

Learning Rate #

Learning Rate와 학습의 상관관계는 아래와 같음. Learning rate가 너무 높을 경우 Overshooting이 발생되며 너무 작을 경우 학습이 매우 더디게 진행됨.

학습시점에 따라 Learning rate를 조정하는 decay방식이 있음.

Step deacy : N epoch or validation loss
Exponential decay : \( \alpha = \apha 0 \epsilon - kt \)
1/t decay : \( \alpha = \apha 0 (1+kt) \)
inverse time decay
natural exponential decay
piecewise constant
polynomical decay

Data Preprocessing #

Data의 분포가 편중되어 있을 경우 표준화(Standardization)와 정규화(Normalization)을 통해서 전처리.

Feature Scaling Standardization : \( x_{new} = \frac {x - \mu}{\sigma} \) Normalization : \( x_{new} = \frac {x - x_{min}}{x_{max} - - x_{min}} \)

Noisy Data 학습에 필요한 Data로 정제하는 전처리 과정.

Overfitting #

Underfitting : High bias 상태. 학습이 덜된 상태. Overfitting : High variance. 학습이 너무되어 주어진 data에만 맞춰진 상태.

Solution

Set features : Get more training data
Set features : Smaller set of features (PCA)
Set features : Add additional features (for underfitting)
Regularization (Add term to loss)

Linear regression with regularization

softmax ...

\( h_{\theta}(x) = \theta_0 + \theta_1 x + \theta_2 x^2 + \theta_3 x^3 + \theta_4 x^4 \)
\( J(\theta) = \frac{1}{2m}\displaystyle\sum_{i=1}^m (h_{\theta}(x^{(i)}) - y^{(i)})^2 + \frac{ \lambda }{2m}\displaystyle\sum_{j=1}^m \theta_{j}^2 \)

\( \lambda-- \) : fixed high bias (under fitting)

\( \lambda++ \) : fixed high variance (over fitting)

XOR Prolem #

1958년 Frank Rosenblatt에 의에 제안된 신경망 시스템의 모델로 McGullock, Pitts, Hebb의 연구를 기초로 하고 있음.

하지만 XOR의 문제는 Linear Regression으로 해결할 수 없다는 수학적 결론을 내림. (Perceptrons by Marvin Minsky)

AND

X1	X2	T
0	0	0
1	0	0
0	1	0
1	1	1

X1	X2	T
0	0	0
1	0	1
0	1	1
1	1	1

NAND

X1	X2	T
0	0	1
1	0	1
0	1	1
1	1	0

NOR

X1	X2	T
0	0	1
1	0	0
0	1	0
1	1	0

Flow

graph LR A(NAND)-->C(AND)-->D(XOR) B(_OR_)-->C style A fill:#ffffff,stroke:#000000,stroke-width:1px style B fill:#ffffff,stroke:#000000,stroke-width:1px style C fill:#ffffff,stroke:#000000,stroke-width:1px style D fill:#ffffff,stroke:#000000,stroke-width:1px

XOR

NOR

X1	X2	NAND	OR	AND
0	0	1	0	0
1	0	1	1	1
0	1	1	1	1
1	1	0	1	0

Flow

graph LR E(NOR)-->F(AND)-->G(XOR) H(AND)-->F style E fill:#ffffff,stroke:#000000,stroke-width:1px style F fill:#ffffff,stroke:#000000,stroke-width:1px style G fill:#ffffff,stroke:#000000,stroke-width:1px style H fill:#ffffff,stroke:#000000,stroke-width:1px

XOR

NOR

X1	X2	AND	NOR	AND
0	0	0	1	0
1	0	0	0	1
0	1	0	0	1
1	1	1	0	0

Backpropagation #

1974, 1982 Paul Werbos, 1986 Hinton에 의해 정립된 개념. 순전파에서 목표값과 모델의 계산값의 오차를 구한후 그 오차값을 역방향으로 전파하며 노드들의 변수들을 갱신하는 알고리즘. 다만 복잡한 Neural Networks 환경에서는 역전파되는 값들이 소실되는 Vanishing Gradient 현상이 발생됨. 2006년 2007년 Hinton과 Bengio에 의해 초기 Parameter에 의한 영향이 주목되며 Deep Learning이라는 용어가 등장함.

Geoffrey Hinton’s summary

Our labeled datasets were thousands of times too small.
Our computers were millions of times too slow.
We initialized the wieghts in a stupid way.
We used the wrong type of non-linearity.

Node Notation

node notation ...

\( W_{2,1}^{(2)} \) : 계층2에 적용되는 가중치로 1계층 노드 1에서 2계층 노드 2로 전달됨을 의미

\( B_{1}^{(2)} \) : 계층2의 노드1에 적용 Bias를 의미

\( Z_{2}^{(2)} \) : 계층2의 노드2의 계산값을 의미 ( \( Z_{2}^{(2)} = X_1 W_{2,1}^{(2)} + X_2 W_{2,2}^{(2)} + b_2^{(2)} \) )

\( a_{2}^{(2)} \) : 계층2의 노드2의 출력값을 의미 ( \( sigmoid(Z_2^{(2)}) \) )

Backpropagation

Chain Rule을 이용한 국소 미분된 오차 역전파

derivative of backpropagation ...

\( W^{(2)} = W^{(2)} - \alpha \frac {\partial E}{\partial W^{(2)}} = W^{(2)} - \alpha ( \frac {\partial E}{\partial A^{(3)}} \cdotp \frac {\partial A^{(3)}}{\partial A^{(2)}} \cdotp \frac {\partial A^{(2)}}{\partial W^{(2)}} ) \)

Sigmoid 미분

derivative of sigmoid ...

\( \frac {\partial sigmoid(z)}{\partial z} = \frac {\partial }{\partial z} (\frac {1}{1+ e^{-z}} ) \)

Chian rule 적용 : \( \frac {\partial f}{\partial u} \cdotp \frac {\partial u}{\partial x} \) 이때 \( u = e^{-x}+1 \) 이면 \( f = \frac {1}{u} \) 이고 \( \therefore \frac {\partial}{\partial u} (\frac {1}{u}) \cdotp \frac {\partial u}{\partial x} \)

\( = - \frac {1}{(1+e^{-x})^2} \cdotp \frac {\partial (1+e^{-x})}{\partial x} \)

\( = - \frac {1}{(1+e^{-x})^2} \cdotp (\frac {\partial}{\partial x} (1) + \frac {\partial}{\partial x} (e^{-x})) \)

Chian rule 적용 : \( u = -x \) 이면 \( \frac {\partial}{\partial x}(e^{-x}) = \frac {\partial e^u}{\partial u} \cdotp \frac {\partial u}{\partial x} \)

\( \frac {\partial}{\partial u}(e^u) = e^u \)

\( \therefore \frac {\partial}{\partial x}(e^{-x}) = e^{-x} \)

\( \frac {\partial}{\partial x}(-x) = -1 \)

\( = - \frac {1}{(1+e^{-x})^2} \cdotp (\frac {\partial}{\partial x} (1) + \frac {\partial}{\partial x} (e^{-x})) = - \frac {1}{(1+e^{-x})^2} \cdotp (0 + -1 e^{-x}) \)

\( = \frac {e^{-x}}{(1+e^{-x})^2} \)

\( = \frac {1+e^{-x}-1}{(1+e^{-x})^2} \)

\( = \frac {1+e^{-x}}{(1+e^{-x})^2} - \frac {1}{(1+e^{-x})^2} \)

\( = \frac {1}{(1+e^{-x})} - \frac {1}{(1+e^{-x})^2} \)

\( = \frac {1}{(1+e^{-x})} (1 - \frac {1}{(1+e^{-x})}) \)

\( = sigmoid(x)(1-sigmoid(x)) \)

using derivative of sigmoid ...

\( \frac {\partial E_{(1)}}{\partial w_{(1,1)}^{(3)}} = \frac {\partial E_{(1)}}{\partial a_{(1)}^{(3)}} * \frac {\partial a_{(1)}^{(3)}}{\partial z_{(1)}^{(3)}} * \frac {\partial z_{(1)}^{(3)}}{\partial w_{(1,1)}^{(3)}} \)

\( = \frac {\partial E_{(1)}}{\partial a_{(1)}^{(3)}} * \frac {\partial sigmoid(z_{(1)}^{(3)}}{\partial z_{(1)}^{(3)}} * \frac {\partial z_{(1)}^{(3)}}{\partial w_{(1,1)}^{(3)}} \)

\( = \frac {\partial E_{(1)}}{\partial a_{(1)}^{(3)}} * sigmoid(z_{(1)}^{(3)}) * (1-sigmoid(z_{(1)}^{(3)})) * \frac {\partial z_{(1)}^{(3)}}{\partial w_{(1,1)}^{(3)}} \)

\( = \frac {\partial E_{(1)}}{\partial a_{(1)}^{(3)}} * a_{(1)}^{(3)} * (1-a_{(1)}^{(3)}) * \frac {\partial z_{(1)}^{(3)}}{\partial w_{(1,1)}^{(3)}} \)

preparation of backpropagation ...

입력층 선형회귀값 (z) * 없음

입력층 출력값 (a)

\( a_{1}^{(1)} = x_{1} \)

\( a_{2}^{(1)} = x_{2} \)

은닉층 선형회귀값 (z)

\( z_{1}^{(2)} = a_{1}^{(1)} w_{1,1}^{(2)} + a_{2}^{(1)} w_{1,2}^{(2)} + b_{1}^{(2)} \)

\( z_{2}^{(2)} = a_{1}^{(1)} w_{2,1}^{(2)} + a_{2}^{(1)} w_{2,2}^{(2)} + b_{2}^{(2)} \)

은닉층 출력값 (a)

\( a_{1}^{(2)} = sigmoidz(z_{1}{(2)} \)

\( a_{2}^{(2)} = sigmoidz(z_{2}{(2)} \)

출력층 선형회귀값 (z)

\( z_{1}^{(3)} = a_{1}^{(2)} w_{1,1}^{(3)} + a_{2}^{(2)} w_{1,2}^{(3)} + b_{1}^{(3)} \)

\( z_{2}^{(3)} = a_{1}^{(2)} w_{2,1}^{(3)} + a_{2}^{(2)} w_{2,2}^{(3)} + b_{2}^{(3)} \)

출력층 출력값 (a)

\( a_{1}^{(3)} = sigmoidz(z_{1}{(3)} \)

\( a_{2}^{(3)} = sigmoidz(z_{2}{(3)} \)

\( E = \frac {1}{n} \displaystyle\sum_{i=1}^{n}(t_{i}^{(3)} - a_{i}^{(3)})^2 = \frac {1}{2} ( (t_{1}^{(3)} - a_{1}^{(3)})^2 + (t_{2}^{(3)} - a_{2}^{(3)})^2 ) \)

\( E_1 + E_2 = \frac {1}{2} (t_{1}^{(3)}-a_{1}^{(3)})^2 + \frac {1}{2} (t_{2}^{(3)}-a_{2}^{(3)})^2 \)

\( W^{(2)} = \begin{pmatrix} w_{(1,1)}^{(2)} & w_{(2,1)}^{(2)} \\ w_{(1,2)}^{(2)} & w_{(2,2)}^{(2)} \end{pmatrix} , W^{(3)} = \begin{pmatrix} w_{(1,1)}^{(3)} & w_{(2,1)}^{(3)} \\ w_{(1,2)}^{(3)} & w_{(2,2)}^{(3)} \end{pmatrix} \)

\( W^{(2)} = W^{(2)} - \alpha \frac {\partial E}{\partial W^{(2)}} \to \frac {\partial E}{\partial W^{(2)}} = \frac {\partial E}{\partial W_{(1,1)}^{(2)}} , \frac {\partial E}{\partial W_{(2,1)}^{(2)}} , \frac {\partial E}{\partial W_{(1,2)}^{(2)}} , \frac {\partial E}{\partial W_{(2,2)}^{(2)}} \)

\( W^{(3)} = W^{(3)} - \alpha \frac {\partial E}{\partial W^{(3)}} \to \frac {\partial E}{\partial W^{(3)}} = \frac {\partial E}{\partial W_{(1,1)}^{(3)}} , \frac {\partial E}{\partial W_{(2,1)}^{(2)}} , \frac {\partial E}{\partial W_{(1,2)}^{(3)}} , \frac {\partial E}{\partial W_{(2,2)}^{(3)}} \)

\( b^{(2)} = \begin{pmatrix} b_{(1)}^{(2)} & b_{(2)}^{(2)} \end{pmatrix} , b^{(3)} = \begin{pmatrix} b_{(1)}^{(3)} & b_{(2)}^{(3)} \end{pmatrix} \)

\( b^{(2)} = b^{(2)} - \alpha \frac {\partial E}{\partial b^{(2)}} \to \frac {\partial E}{\partial b^{(2)}} = \frac {\partial E}{\partial b_{(1)}^{(2)}} , \frac {\partial E}{\partial b_{(2)}^{(2)}} \)

\( b^{(3)} = b^{(3)} - \alpha \frac {\partial E}{\partial b^{(3)}} \to \frac {\partial E}{\partial b^{(3)}} = \frac {\partial E}{\partial b_{(1)}^{(3)}} , \frac {\partial E}{\partial b_{(2)}^{(3)}} \)

output layer 1 ...

\( \frac {\partial E} {\partial W_{(1,1)}^{(3)}} = \frac {\partial E_{(1)}} {\partial W_{(1,1)}^{(3)}} + \frac {\partial E_{(2)}} {\partial W_{(1,1)}^{(3)}} = \frac {\partial E_{(1)}} {\partial a_{(1)}^{(3)}} * \frac {\partial a_{(1)}^{(3)}}{\partial z_{(1)}^{(3)}} * \frac {\partial z_{(1)}^{(3)}}{\partial w_{(1,1)}^{(3)}} \)

\( = \frac {\partial \begin{Bmatrix} \frac{1}{2} (t_{(1)}^{(3)} - a_{(1)}^{(3)})^2 ) \end{Bmatrix} } {\partial a_{(1)}^{(3)}} * \frac { \partial sigmoid (z_{(1)}^{(3)}) } { \partial z_{(1)}^{(3)} } * \frac { \partial ( a_{(1)}^{(2)} w_{(1,1)}^{(3)} + a_{(2)}^{(2)} w_{(1,2)}^{(3)} + b_{(1)}^{(3)} ) } { \partial w_{(1,1)}^{(3)} } \)

1) \( \frac {\partial \begin{Bmatrix} \frac{1}{2} (t_{(1)}^{(3)} - a_{(1)}^{(3)})^2 ) \end{Bmatrix} } {\partial a_{(1)}^{(3)}} = \frac{1}{2} \cdotp \frac {\partial (t_{(1)}^{(3)})^2 + (a_{(1)}^{(3)})^2 -2 t_{(1)}^{(3)} a_{(1)}^{(3)} } { \partial a_{(1)}^{(3)} }\)

\( \space \space \space \space = \frac{1}{2} \cdotp (0 + 2*(a_{(1)}^{(3)})^{(2-1)} + -2 t_{(1)}^{(3)}) = a_{(1)}^{(3)} - t_{(1)}^{(3)}\)

2) \( \frac { \partial sigmoid (z_{(1)}^{(3)}) } { \partial z_{(1)}^{(3)} } = sigmoid(z_{(1)}^{(3)}) * (1-sigmoid(z_{(1)}^{(3)}))\)

3) \( \frac { \partial ( a_{(1)}^{(2)} w_{(1,1)}^{(3)} + a_{(2)}^{(2)} w_{(1,2)}^{(3)} + b_{(1)}^{(3)} ) } { \partial w_{(1,1)}^{(3)} } = a_{(1)}^{(2)} + 0 + 0\)

\( = (a_{(1)}^{(3)} - t_{(1)}^{(3)}) * sigmoid(z_{(1)}^{(3)}) * (1-sigmoid(z_{(1)}^{(3)})) * a_{(1)}^{(2)}\)

여기서 \( sigmoid(z_{(1)}^{(3)}) = a_{(1)}^{(3)}\)

\( = (a_{(1)}^{(3)} - t_{(1)}^{(3)}) * a_{(1)}^{(3)} * ( 1 - a_{(1)}^{(3)} ) * a_{(1)}^{(2)}\)

\( \frac {\partial E} {\partial W_{(2,1)}^{(3)}} = \frac {\partial E_{(1)}} {\partial W_{(2,1)}^{(3)}} + \frac {\partial E_{(2)}} {\partial W_{(2,1)}^{(3)}} = \frac {\partial E_{(2)}} {\partial a_{(2)}^{(3)}} * \frac {\partial a_{(2)}^{(3)}}{\partial z_{(2)}^{(3)}} * \frac {\partial z_{(2)}^{(3)}}{\partial w_{(2,1)}^{(3)}} \)

\( = \frac {\partial \begin{Bmatrix} \frac{1}{2} (t_{(2)}^{(3)} - a_{(2)}^{(3)})^2 ) \end{Bmatrix} } {\partial a_{(2)}^{(3)}} * \frac { \partial sigmoid (z_{(2)}^{(3)}) } { \partial z_{(2)}^{(3)} } * \frac { \partial ( a_{(1)}^{(2)} w_{(2,1)}^{(3)} + a_{(2)}^{(2)} w_{(2,2)}^{(3)} + b_{(2)}^{(3)} ) } { \partial w_{(2,1)}^{(3)} } \)

1) \( \frac {\partial \begin{Bmatrix} \frac{1}{2} (t_{(2)}^{(3)} - a_{(2)}^{(3)})^2 ) \end{Bmatrix} } {\partial a_{(2)}^{(3)}} = \frac{1}{2} \cdotp \frac {\partial (t_{(2)}^{(3)})^2 + (a_{(2)}^{(3)})^2 -2 t_{(2)}^{(3)} a_{(2)}^{(3)} } { \partial a_{(2)}^{(3)} }\)

\( \space \space \space \space = \frac{1}{2} \cdotp (0 + 2*(a_{(2)}^{(3)})^{(2-1)} + -2 t_{(2)}^{(3)}) = a_{(2)}^{(3)} - t_{(2)}^{(3)}\)

2) \( \frac { \partial sigmoid (z_{(2)}^{(3)}) } { \partial z_{(2)}^{(3)} } = sigmoid(z_{(2)}^{(3)}) * (1-sigmoid(z_{(2)}^{(3)}))\)

3) \( \frac { \partial ( a_{(1)}^{(2)} w_{(2,1)}^{(3)} + a_{(2)}^{(2)} w_{(2,2)}^{(3)} + b_{(2)}^{(3)} ) } { \partial w_{(2,1)}^{(3)} } = a_{(1)}^{(2)} + 0 + 0\)

\( = (a_{(2)}^{(3)} - t_{(2)}^{(3)}) * sigmoid(z_{(2)}^{(3)}) * (1-sigmoid(z_{(2)}^{(3)})) * a_{(1)}^{(2)}\)

여기서 \( sigmoid(z_{(2)}^{(3)}) = a_{(2)}^{(3)}\)

\( = (a_{(2)}^{(3)} - t_{(2)}^{(3)}) * a_{(2)}^{(3)} * ( 1 - a_{(2)}^{(3)} ) * a_{(1)}^{(2)}\)

\( \frac {\partial E} {\partial W_{(1,2)}^{(3)}} = \frac {\partial E_{(1)}} {\partial W_{(1,2)}^{(3)}} + \frac {\partial E_{(2)}} {\partial W_{(1,2)}^{(3)}} = \frac {\partial E_{(1)}} {\partial a_{(1)}^{(3)}} * \frac {\partial a_{(1)}^{(3)}}{\partial z_{(1)}^{(3)}} * \frac {\partial z_{(1)}^{(3)}}{\partial w_{(1,2)}^{(3)}} \)

\( = \frac {\partial \begin{Bmatrix} \frac{1}{2} (t_{(1)}^{(3)} - a_{(1)}^{(3)})^2 ) \end{Bmatrix} } {\partial a_{(1)}^{(3)}} * \frac { \partial sigmoid (z_{(1)}^{(3)}) } { \partial z_{(1)}^{(3)} } * \frac { \partial ( a_{(1)}^{(2)} w_{(1,1)}^{(3)} + a_{(2)}^{(2)} w_{(1,2)}^{(3)} + b_{(1)}^{(3)} ) } { \partial w_{(1,2)}^{(3)} } \)

1) \( \frac {\partial \begin{Bmatrix} \frac{1}{2} (t_{(1)}^{(3)} - a_{(1)}^{(3)})^2 ) \end{Bmatrix} } {\partial a_{(1)}^{(3)}} = \frac{1}{2} \cdotp \frac {\partial (t_{(1)}^{(3)})^2 + (a_{(1)}^{(3)})^2 -2 t_{(1)}^{(3)} a_{(1)}^{(3)} } { \partial a_{(1)}^{(3)} }\)

\( \space \space \space \space = \frac{1}{2} \cdotp (0 + 2*(a_{(1)}^{(3)})^{(2-1)} + -2 t_{(1)}^{(3)}) = a_{(1)}^{(3)} - t_{(1)}^{(3)}\)

2) \( \frac { \partial sigmoid (z_{(1)}^{(3)}) } { \partial z_{(1)}^{(3)} } = sigmoid(z_{(1)}^{(3)}) * (1-sigmoid(z_{(1)}^{(3)}))\)

3) \( \frac { \partial ( a_{(1)}^{(2)} w_{(1,1)}^{(3)} + a_{(2)}^{(2)} w_{(1,2)}^{(3)} + b_{(1)}^{(3)} ) } { \partial w_{(1,2)}^{(3)} } = a_{(1)}^{(2)} + 0 + 0\)

\( = (a_{(1)}^{(3)} - t_{(1)}^{(3)}) * sigmoid(z_{(1)}^{(3)}) * (1-sigmoid(z_{(1)}^{(3)})) * a_{(2)}^{(2)}\)

여기서 \( sigmoid(z_{(1)}^{(3)}) = a_{(1)}^{(3)}\)

\( = (a_{(1)}^{(3)} - t_{(1)}^{(3)}) * a_{(1)}^{(3)} * ( 1 - a_{(1)}^{(3)} ) * a_{(2)}^{(2)}\)

\( \frac {\partial E} {\partial W_{(2,2)}^{(3)}} = \frac {\partial E_{(1)}} {\partial W_{(2,2)}^{(3)}} + \frac {\partial E_{(2)}} {\partial W_{(2,2)}^{(3)}} = \frac {\partial E_{(2)}} {\partial a_{(2)}^{(3)}} * \frac {\partial a_{(2)}^{(3)}}{\partial z_{(2)}^{(3)}} * \frac {\partial z_{(2)}^{(3)}}{\partial w_{(2,2)}^{(3)}} \)

\( = \frac {\partial \begin{Bmatrix} \frac{1}{2} (t_{(2)}^{(3)} - a_{(2)}^{(3)})^2 ) \end{Bmatrix} } {\partial a_{(2)}^{(3)}} * \frac { \partial sigmoid (z_{(2)}^{(3)}) } { \partial z_{(2)}^{(3)} } * \frac { \partial ( a_{(1)}^{(2)} w_{(2,1)}^{(3)} + a_{(2)}^{(2)} w_{(2,2)}^{(3)} + b_{(2)}^{(3)} ) } { \partial w_{(2,2)}^{(3)} } \)

1) \( \frac {\partial \begin{Bmatrix} \frac{1}{2} (t_{(2)}^{(3)} - a_{(2)}^{(3)})^2 ) \end{Bmatrix} } {\partial a_{(2)}^{(3)}} = \frac{1}{2} \cdotp \frac {\partial (t_{(2)}^{(3)})^2 + (a_{(2)}^{(3)})^2 -2 t_{(2)}^{(3)} a_{(2)}^{(3)} } { \partial a_{(2)}^{(3)} }\)

\( \space \space \space \space = \frac{1}{2} \cdotp (0 + 2*(a_{(2)}^{(3)})^{(2-1)} + -2 t_{(2)}^{(3)}) = a_{(2)}^{(3)} - t_{(2)}^{(3)}\)

2) \( \frac { \partial sigmoid (z_{(2)}^{(3)}) } { \partial z_{(2)}^{(3)} } = sigmoid(z_{(2)}^{(3)}) * (1-sigmoid(z_{(2)}^{(3)}))\)

3) \( \frac { \partial ( a_{(1)}^{(2)} w_{(2,1)}^{(3)} + a_{(2)}^{(2)} w_{(2,2)}^{(3)} + b_{(2)}^{(3)} ) } { \partial w_{(2,2)}^{(3)} } = a_{(2)}^{(2)} + 0 + 0\)

\( = (a_{(2)}^{(3)} - t_{(2)}^{(3)}) * sigmoid(z_{(2)}^{(3)}) * (1-sigmoid(z_{(2)}^{(3)})) * a_{(2)}^{(2)}\)

여기서 \( sigmoid(z_{(2)}^{(3)}) = a_{(2)}^{(3)}\)

\( = (a_{(2)}^{(3)} - t_{(2)}^{(3)}) * a_{(2)}^{(3)} * ( 1 - a_{(2)}^{(3)} ) * a_{(2)}^{(2)}\)

\( \frac {\partial E} {\partial b_{(1)}^{(3)}} = \frac {\partial E_{(1)}} {\partial b_{(1)}^{(3)}} + \frac {\partial E_{(2)}} {\partial b_{(1)}^{(3)}} = \frac {\partial E_{(1)}} {\partial a_{(1)}^{(3)}} * \frac {\partial a_{(1)}^{(3)}}{\partial z_{(1)}^{(3)}} * \frac {\partial z_{(1)}^{(3)}}{\partial b_{(1)}^{(3)}} \)

\( = \frac {\partial \begin{Bmatrix} \frac{1}{2} (t_{(1)}^{(3)} - a_{(1)}^{(3)})^2 ) \end{Bmatrix} } {\partial a_{(1)}^{(3)}} * \frac { \partial sigmoid (z_{(1)}^{(3)}) } { \partial z_{(1)}^{(3)} } * \frac { \partial ( a_{(1)}^{(2)} w_{(1,1)}^{(3)} + a_{(2)}^{(2)} w_{(1,2)}^{(3)} + b_{(1)}^{(3)} ) } { \partial b_{(1)}^{(3)} } \)

1) \( \frac {\partial \begin{Bmatrix} \frac{1}{2} (t_{(1)}^{(3)} - a_{(1)}^{(3)})^2 ) \end{Bmatrix} } {\partial a_{(1)}^{(3)}} = \frac{1}{2} \cdotp \frac {\partial (t_{(1)}^{(3)})^2 + (a_{(1)}^{(3)})^2 -2 t_{(1)}^{(3)} a_{(1)}^{(3)} } { \partial a_{(1)}^{(3)} }\)

\( \space \space \space \space = \frac{1}{2} \cdotp (0 + 2*(a_{(1)}^{(3)})^{(2-1)} + -2 t_{(1)}^{(3)}) = a_{(1)}^{(3)} - t_{(1)}^{(3)}\)

2) \( \frac { \partial sigmoid (z_{(1)}^{(3)}) } { \partial z_{(1)}^{(3)} } = sigmoid(z_{(1)}^{(3)}) * (1-sigmoid(z_{(1)}^{(3)}))\)

3) \( \frac { \partial ( a_{(1)}^{(2)} w_{(1,1)}^{(3)} + a_{(2)}^{(2)} w_{(1,2)}^{(3)} + b_{(1)}^{(3)} ) } { \partial b_{(1)}^{(3)} } = 0 + 0 + 1\)

\( = (a_{(1)}^{(3)} - t_{(1)}^{(3)}) * sigmoid(z_{(1)}^{(3)}) * (1-sigmoid(z_{(1)}^{(3)})) * 1\)

여기서 \( sigmoid(z_{(1)}^{(3)}) = a_{(1)}^{(3)}\)

\( = (a_{(1)}^{(3)} - t_{(1)}^{(3)}) * a_{(1)}^{(3)} * ( 1 - a_{(1)}^{(3)} ) * 1\)

\( \frac {\partial E} {\partial b_{(2)}^{(3)}} = \frac {\partial E_{(1)}} {\partial b_{(2)}^{(3)}} + \frac {\partial E_{(2)}} {\partial b_{(2)}^{(3)}} = \frac {\partial E_{(2)}} {\partial a_{(2)}^{(3)}} * \frac {\partial a_{(2)}^{(3)}}{\partial z_{(2)}^{(3)}} * \frac {\partial z_{(2)}^{(3)}}{\partial b_{(2)}^{(3)}} \)

\( = \frac {\partial \begin{Bmatrix} \frac{1}{2} (t_{(2)}^{(3)} - a_{(2)}^{(3)})^2 ) \end{Bmatrix} } {\partial a_{(2)}^{(3)}} * \frac { \partial sigmoid (z_{(2)}^{(3)}) } { \partial z_{(2)}^{(3)} } * \frac { \partial ( a_{(1)}^{(2)} w_{(2,1)}^{(3)} + a_{(2)}^{(2)} w_{(2,2)}^{(3)} + b_{(2)}^{(3)} ) } { \partial b_{(2)}^{(3)} } \)

1) \( \frac {\partial \begin{Bmatrix} \frac{1}{2} (t_{(2)}^{(3)} - a_{(2)}^{(3)})^2 ) \end{Bmatrix} } {\partial a_{(2)}^{(3)}} = \frac{1}{2} \cdotp \frac {\partial (t_{(2)}^{(3)})^2 + (a_{(2)}^{(3)})^2 -2 t_{(2)}^{(3)} a_{(2)}^{(3)} } { \partial a_{(2)}^{(3)} }\)

\( \space \space \space \space = \frac{1}{2} \cdotp (0 + 2*(a_{(2)}^{(3)})^{(2-1)} + -2 t_{(2)}^{(3)}) = a_{(2)}^{(3)} - t_{(2)}^{(3)}\)

2) \( \frac { \partial sigmoid (z_{(2)}^{(3)}) } { \partial z_{(2)}^{(3)} } = sigmoid(z_{(2)}^{(3)}) * (1-sigmoid(z_{(2)}^{(3)}))\)

3) \( \frac { \partial ( a_{(1)}^{(2)} w_{(2,1)}^{(3)} + a_{(2)}^{(2)} w_{(2,2)}^{(3)} + b_{(2)}^{(3)} ) } { \partial b_{(2)}^{(3)} } = 0 + 0 + 1\)

\( = (a_{(2)}^{(3)} - t_{(2)}^{(3)}) * sigmoid(z_{(2)}^{(3)}) * (1-sigmoid(z_{(2)}^{(3)})) * 1\)

여기서 \( sigmoid(z_{(2)}^{(3)}) = a_{(2)}^{(3)}\)

\( = (a_{(2)}^{(3)} - t_{(2)}^{(3)}) * a_{(2)}^{(3)} * ( 1 - a_{(2)}^{(3)} ) * 1\)

output layer 2 ...

\( \frac {\partial E} {\partial W^{(3)}} = \begin{bmatrix} \frac {\partial E}{\partial W_{(1,1)}^{(3)}} & \frac {\partial E}{\partial W_{(2,1)}^{(3)}} \\ \frac {\partial E}{\partial W_{(1,2)}^{(3)}} & \frac {\partial E}{\partial W_{(2,2)}^{(3)}} \end{bmatrix}\)

\( = \begin{bmatrix} (a_{(1)}^{(3)}-t_{(1)}^{(3)})a_{(1)}^{(3)}(1-a_{(1)}^{(3)})a_{(1)}^{(2)} & (a_{(2)}^{(3)}-t_{(2)}^{(3)})a_{(2)}^{(3)}(1-a_{(2)}^{(3)})a_{(1)}^{(2)} \\ (a_{(1)}^{(3)}-t_{(1)}^{(3)})a_{(1)}^{(3)}(1-a_{(1)}^{(3)})a_{(2)}^{(2)} & (a_{(2)}^{(3)}-t_{(2)}^{(3)})a_{(2)}^{(3)}(1-a_{(2)}^{(3)})a_{(2)}^{(2)} \end{bmatrix}\)

\( = \begin{bmatrix} a_{(1)}^{(2)}(a_{(1)}^{(3)}-t_{(1)}^{(3)})a_{(1)}^{(3)}(1-a_{(1)}^{(3)}) & a_{(1)}^{(2)}(a_{(2)}^{(3)}-t_{(2)}^{(3)})a_{(2)}^{(3)}(1-a_{(2)}^{(3)}) \\ a_{(2)}^{(2)}(a_{(1)}^{(3)}-t_{(1)}^{(3)})a_{(1)}^{(3)}(1-a_{(1)}^{(3)}) & a_{(2)}^{(2)}(a_{(2)}^{(3)}-t_{(2)}^{(3)})a_{(2)}^{(3)}(1-a_{(2)}^{(3)}) \end{bmatrix}\)

\( = \begin{bmatrix} a_{(1)}^{(2)} \\ a_{(2)}^{(2)} \end{bmatrix} \cdotp \begin{bmatrix} (a_{(1)}^{(3)}-t_{(1)}^{(3)})a_{(1)}^{(3)}(1-a_{(1)}^{(3)}) & (a_{(2)}^{(3)}-t_{(2)}^{(3)})a_{(2)}^{(3)}(1-a_{(2)}^{(3)}) \end{bmatrix}\)

\( A2 = (a_{(1)}^{(2)} a_{(2)}^{(2)}) \)

\( loss\_3 = \begin{bmatrix} (a_{(1)}^{(3)}-t_{(1)}^{(3)})a_{(1)}^{(3)}(1-a_{(1)}^{(3)}) & (a_{(2)}^{(3)}-t_{(2)}^{(3)})a_{(2)}^{(3)}(1-a_{(2)}^{(3)}) \end{bmatrix}\)

\( = A2^{T} \cdotp loss\_3 \)

\( \frac {\partial E} {\partial b^{(3)}} = \begin{bmatrix} \frac {\partial E}{\partial b_{(1)}^{(3)}} \\ \frac {\partial E}{\partial b_{(2)}^{(3)}} \end{bmatrix}\)

\( = \begin{bmatrix} ((a_{(1)}^{(3)}-t_{(1)}^{(3)})a_{(1)}^{(3)}(1-a_{(1)}^{(3)})) \\ ((a_{(2)}^{(3)}-t_{(2)}^{(3)})a_{(2)}^{(3)}(1-a_{(2)}^{(3)})) \end{bmatrix}\)

\( loss\_3 = \begin{bmatrix} (a_{(1)}^{(3)}-t_{(1)}^{(3)})a_{(1)}^{(3)}(1-a_{(1)}^{(3)}) & (a_{(2)}^{(3)}-t_{(2)}^{(3)})a_{(2)}^{(3)}(1-a_{(2)}^{(3)}) \end{bmatrix}\)

output layer 3 ...

\( W^{(3)} = W^{(3)} - \alpha \frac {\partial E}{\partial W^{(3)}} = W^{(3)} - \alpha \times (A2^T \cdotp loss\_3 )\)

\( b^{(3)} = b^{(3)} - \alpha \frac {\partial E}{\partial b^{(3)}} = b^{(3)} - \alpha \times loss\_3\)

hidden layer 1 ...

\( W^{(2)} = W^{(2)} - \alpha \frac {\partial E}{\partial W^{(2)}} = \frac {\partial E}{\partial W_{(1,1)}^{(2)}} , \frac {\partial E}{\partial W_{(2,1)}^{(2)}} , \frac {\partial E}{\partial W_{(1,2)}^{(2)}} , \frac {\partial E}{\partial W_{(2,2)}^{(2)}} \)

\( b^{(2)} = b^{(2)} - \alpha \frac {\partial E}{\partial b^{(2)}} = \frac {\partial E}{\partial b_{(1)}^{(2)}} , \frac {\partial E}{\partial b_{(2)}^{(2)}} \)

\( \frac {\partial E}{\partial W_{(1,1)}^{(2)}} = \frac {\partial E_{(1)}}{\partial W_{(1,1)}^{(2)}} + \frac {\partial E_{(2)}}{\partial W_{(1,1)}^{(2)}}\)

\( = \frac {\partial E_{(1)}}{\partial a_{(1)}^{(3)}} \times \frac {\partial a_{(1)}^{(3)}}{\partial z_{(1)}^{(3)}} \times \frac {\partial z_{(1)}^{(3)}}{\partial a_{(1)}^{(2)}} \times \frac {\partial a_{(1)}^{(2)}}{\partial z_{(1)}^{(2)}} \times \frac {\partial z_{(1)}^{(2)}}{\partial w_{(1,1)}^{(2)}}\)

\( + \frac {\partial E_{(2)}}{\partial a_{(2)}^{(3)}} \times \frac {\partial a_{(2)}^{(3)}}{\partial z_{(2)}^{(3)}} \times \frac {\partial z_{(2)}^{(3)}}{\partial a_{(1)}^{(2)}} \times \frac {\partial a_{(1)}^{(2)}}{\partial z_{(1)}^{(3)}} \times \frac {\partial z_{(1)}^{(2)}}{\partial w_{(1,1)}^{(2)}} \)

\( = ( a_{(1)}^{(3)}- t_{(1)}^{(3)} \times sigmoid(z_{(1)}^{(3)}) (1-sigmoid(z_{(1)}^{(3)})) \times w_{(1,1)}^{(3)} \times sigmoid(z_{(1)}^{(2)}) (1-sigmoid(z_{(1)}^{(2)})) \times a_{(1)}^{(1)} )\)

\( \space \space \space + ( a_{(2)}^{(3)}- t_{(2)}^{(3)} \times sigmoid(z_{(2)}^{(3)}) (1-sigmoid(z_{(2)}^{(3)})) \times w_{(2,1)}^{(3)} \times sigmoid(z_{(1)}^{(2)}) (1-sigmoid(z_{(1)}^{(2)})) \times a_{(1)}^{(1)} )\)

\( = ( a_{(1)}^{(3)}- t_{(1)}^{(3)} \times a_{(1)}^{(3)}(1-a_{(1)}^{(3)}) \times w_{(1,1)}^{(3)} \times a_{(1)}^{(2)}(1-a_{(1)}^{(2)}) \times a_{(1)}^{(1)} )\)

\( \space \space \space + ( a_{(2)}^{(3)}- t_{(2)}^{(3)} \times a_{(2)}^{(3)}(1-a_{(2)}^{(3)}) \times w_{(1,1)}^{(3)} \times a_{(1)}^{(2)}(1-a_{(1)}^{(2)}) \times a_{(1)}^{(1)} )\)

\( \frac {\partial E}{\partial W_{(2,1)}^{(2)}} = \frac {\partial E_{(1)}}{\partial W_{(2,1)}^{(2)}} + \frac {\partial E_{(2)}}{\partial W_{(2,1)}^{(2)}}\)

\( = \frac {\partial E_{(1)}}{\partial a_{(1)}^{(3)}} \times \frac {\partial a_{(1)}^{(3)}}{\partial z_{(1)}^{(3)}} \times \frac {\partial z_{(1)}^{(3)}}{\partial a_{(2)}^{(2)}} \times \frac {\partial a_{(2)}^{(2)}}{\partial z_{(2)}^{(2)}} \times \frac {\partial z_{(2)}^{(2)}}{\partial w_{(2,1)}^{(2)}}\)

\( + \frac {\partial E_{(2)}}{\partial a_{(2)}^{(3)}} \times \frac {\partial a_{(2)}^{(3)}}{\partial z_{(2)}^{(3)}} \times \frac {\partial z_{(2)}^{(3)}}{\partial a_{(2)}^{(2)}} \times \frac {\partial a_{(2)}^{(2)}}{\partial z_{(2)}^{(3)}} \times \frac {\partial z_{(2)}^{(2))}}{\partial w_{(2,1)}^{(2)}} \)

\( = ( a_{(1)}^{(3)}- t_{(1)}^{(3)} \times sigmoid(z_{(1)}^{(3)}) (1-sigmoid(z_{(1)}^{(3)})) \times w_{(1,2)}^{(3)} \times sigmoid(z_{(2)}^{(2)}) (1-sigmoid(z_{(2)}^{(2)})) \times a_{(1)}^{(1)} )\)

\( \space \space \space + ( a_{(2)}^{(3)}- t_{(2)}^{(3)} \times sigmoid(z_{(2)}^{(3)}) (1-sigmoid(z_{(2)}^{(3)})) \times w_{(2,2)}^{(3)} \times sigmoid(z_{(2)}^{(2)}) (1-sigmoid(z_{(2)}^{(2)})) \times a_{(1)}^{(1)} )\)

\( = ( a_{(1)}^{(3)}- t_{(1)}^{(3)} \times a_{(1)}^{(3)}(1-a_{(1)}^{(3)}) \times w_{(1,2)}^{(3)} \times a_{(2)}^{(2)}(1-a_{(2)}^{(2)}) \times a_{(1)}^{(1)} )\)

\( \space \space \space + ( a_{(2)}^{(3)}- t_{(2)}^{(3)} \times a_{(2)}^{(3)}(1-a_{(2)}^{(3)}) \times w_{(2,2)}^{(3)} \times a_{(2)}^{(2)}(1-a_{(2)}^{(2)}) \times a_{(1)}^{(1)} )\)

\( \frac {\partial E}{\partial W_{(1,1)}^{(2)}} = \frac {\partial E_{(1)}}{\partial W_{(1,2)}^{(2)}} + \frac {\partial E_{(2)}}{\partial W_{(1,2)}^{(2)}}\)

\( = \frac {\partial E_{(1)}}{\partial a_{(1)}^{(3)}} \times \frac {\partial a_{(1)}^{(3)}}{\partial z_{(1)}^{(3)}} \times \frac {\partial z_{(1)}^{(3)}}{\partial a_{(1)}^{(2)}} \times \frac {\partial a_{(1)}^{(2)}}{\partial z_{(1)}^{(2)}} \times \frac {\partial z_{(1)}^{(2)}}{\partial w_{(1,2)}^{(2)}}\)

\( + \frac {\partial E_{(2)}}{\partial a_{(2)}^{(3)}} \times \frac {\partial a_{(2)}^{(3)}}{\partial z_{(2)}^{(3)}} \times \frac {\partial z_{(2)}^{(3)}}{\partial a_{(1)}^{(2)}} \times \frac {\partial a_{(1)}^{(2)}}{\partial z_{(1)}^{(3)}} \times \frac {\partial z_{(1)}^{(2))}}{\partial w_{(1,2)}^{(2)}} \)

\( = ( a_{(1)}^{(3)}- t_{(1)}^{(3)} \times sigmoid(z_{(1)}^{(3)}) (1-sigmoid(z_{(1)}^{(3)})) \times w_{(1,1)}^{(3)} \times sigmoid(z_{(1)}^{(2)}) (1-sigmoid(z_{(1)}^{(2)})) \times a_{(2)}^{(1)} )\)

\( \space \space \space + ( a_{(2)}^{(3)}- t_{(2)}^{(3)} \times sigmoid(z_{(2)}^{(3)}) (1-sigmoid(z_{(2)}^{(3)})) \times w_{(2,1)}^{(3)} \times sigmoid(z_{(1)}^{(2)}) (1-sigmoid(z_{(1)}^{(2)})) \times a_{(2)}^{(1)} )\)

\( = ( a_{(1)}^{(3)}- t_{(1)}^{(3)} \times a_{(1)}^{(3)}(1-a_{(1)}^{(3)}) \times w_{(1,1)}^{(3)} \times a_{(1)}^{(2)}(1-a_{(1)}^{(2)}) \times a_{(2)}^{(1)} )\)

\( \space \space \space + ( a_{(2)}^{(3)}- t_{(2)}^{(3)} \times a_{(2)}^{(3)}(1-a_{(2)}^{(3)}) \times w_{(2,1)}^{(3)} \times a_{(1)}^{(2)}(1-a_{(1)}^{(2)}) \times a_{(2)}^{(1)} )\)

\( \frac {\partial E}{\partial W_{(2,2)}^{(2)}} = \frac {\partial E_{(1)}}{\partial W_{(2,2)}^{(2)}} + \frac {\partial E_{(2)}}{\partial W_{(2,2)}^{(2)}}\)

\( = \frac {\partial E_{(1)}}{\partial a_{(1)}^{(3)}} \times \frac {\partial a_{(1)}^{(3)}}{\partial z_{(1)}^{(3)}} \times \frac {\partial z_{(1)}^{(3)}}{\partial a_{(2)}^{(2)}} \times \frac {\partial a_{(2)}^{(2)}}{\partial z_{(2)}^{(2)}} \times \frac {\partial z_{(2)}^{(2)}}{\partial w_{(2,2)}^{(2)}}\)

\( + \frac {\partial E_{(2)}}{\partial a_{(2)}^{(3)}} \times \frac {\partial a_{(2)}^{(3)}}{\partial z_{(2)}^{(3)}} \times \frac {\partial z_{(2)}^{(3)}}{\partial a_{(2)}^{(2)}} \times \frac {\partial a_{(2)}^{(2)}}{\partial z_{(2)}^{(3)}} \times \frac {\partial z_{(2)}^{(2))}}{\partial w_{(2,2)}^{(2)}} \)

\( = ( a_{(1)}^{(3)}- t_{(1)}^{(3)} \times sigmoid(z_{(1)}^{(3)}) (1-sigmoid(z_{(1)}^{(3)})) \times w_{(1,2)}^{(3)} \times sigmoid(z_{(2)}^{(2)}) (1-sigmoid(z_{(2)}^{(2)})) \times a_{(2)}^{(1)} )\)

\( \space \space \space + ( a_{(2)}^{(3)}- t_{(2)}^{(3)} \times sigmoid(z_{(2)}^{(3)}) (1-sigmoid(z_{(2)}^{(3)})) \times w_{(2,2)}^{(3)} \times sigmoid(z_{(2)}^{(2)}) (1-sigmoid(z_{(2)}^{(2)})) \times a_{(2)}^{(1)} )\)

\( = ( a_{(1)}^{(3)}- t_{(1)}^{(3)} \times a_{(1)}^{(3)}(1-a_{(1)}^{(3)}) \times w_{(1,2)}^{(3)} \times a_{(2)}^{(2)}(1-a_{(2)}^{(2)}) \times a_{(2)}^{(1)} )\)

\( \space \space \space + ( a_{(2)}^{(3)}- t_{(2)}^{(3)} \times a_{(2)}^{(3)}(1-a_{(2)}^{(3)}) \times w_{(2,2)}^{(3)} \times a_{(2)}^{(2)}(1-a_{(2)}^{(2)}) \times a_{(2)}^{(1)} )\)

\( \frac {\partial E}{\partial b_{(1)}^{(2)}} = \frac {\partial E_{(1)}}{\partial b_{(1)}^{(2)}} + \frac {\partial E_{(2)}}{\partial b_{(1)}^{(2)}}\)

\( = \frac {\partial E_{(1)}}{\partial a_{(1)}^{(3)}} \times \frac {\partial a_{(1)}^{(3)}}{\partial z_{(1)}^{(3)}} \times \frac {\partial z_{(1)}^{(3)}}{\partial a_{(1)}^{(2)}} \times \frac {\partial a_{(1)}^{(3)}}{\partial z_{(1)}^{(2)}} \times \frac {\partial z_{(1)}^{(2)}}{\partial b_{(1)}^{(2)}}\)

\( + \frac {\partial E_{(2)}}{\partial a_{(2)}^{(3)}} \times \frac {\partial a_{(2)}^{(3)}}{\partial z_{(2)}^{(3)}} \times \frac {\partial z_{(2)}^{(3)}}{\partial a_{(1)}^{(2)}} \times \frac {\partial a_{(1)}^{(2)}}{\partial z_{(1)}^{(3)}} \times \frac {\partial z_{(1)}^{(2))}}{\partial w_{(1)}^{(2)}} \)

\( = ( a_{(1)}^{(3)}- t_{(1)}^{(3)} \times sigmoid(z_{(1)}^{(3)}) (1-sigmoid(z_{(1)}^{(3)})) \times w_{(1,1)}^{(3)} \times sigmoid(z_{(1)}^{(2)}) (1-sigmoid(z_{(1)}^{(2)})) \times 1 )\)

\( \space \space \space + ( a_{(2)}^{(3)}- t_{(2)}^{(3)} \times sigmoid(z_{(2)}^{(3)}) (1-sigmoid(z_{(2)}^{(3)})) \times w_{(2,1)}^{(3)} \times sigmoid(z_{(1)}^{(2)}) (1-sigmoid(z_{(1)}^{(2)})) \times 1 )\)

\( = ( a_{(1)}^{(3)}- t_{(1)}^{(3)} \times a_{(1)}^{(3)}(1-a_{(1)}^{(3)}) \times w_{(1,1)}^{(3)} \times a_{(1)}^{(2)}(1-a_{(1)}^{(2)}) \times 1 )\)

\( \space \space \space + ( a_{(2)}^{(3)}- t_{(2)}^{(3)} \times a_{(2)}^{(3)}(1-a_{(2)}^{(3)}) \times w_{(2,1)}^{(3)} \times a_{(1)}^{(2)}(1-a_{(1)}^{(2)}) \times 1 )\)

\( \frac {\partial E}{\partial b_{(2)}^{(2)}} = \frac {\partial E_{(1)}}{\partial b_{(2)}^{(2)}} + \frac {\partial E_{(2)}}{\partial b_{(2)}^{(2)}}\)

\( = \frac {\partial E_{(1)}}{\partial a_{(1)}^{(3)}} \times \frac {\partial a_{(1)}^{(3)}}{\partial z_{(1)}^{(3)}} \times \frac {\partial z_{(1)}^{(3)}}{\partial a_{(2)}^{(2)}} \times \frac {\partial a_{(2)}^{(3)}}{\partial z_{(2)}^{(2)}} \times \frac {\partial z_{(2)}^{(2)}}{\partial b_{(2)}^{(2)}}\)

\( + \frac {\partial E_{(2)}}{\partial a_{(2)}^{(3)}} \times \frac {\partial a_{(2)}^{(3)}}{\partial z_{(2)}^{(3)}} \times \frac {\partial z_{(2)}^{(3)}}{\partial a_{(2)}^{(2)}} \times \frac {\partial a_{(2)}^{(2)}}{\partial z_{(2)}^{(3)}} \times \frac {\partial z_{(2)}^{(2))}}{\partial w_{(2)}^{(2)}} \)

\( = ( a_{(1)}^{(3)}- t_{(1)}^{(3)} \times sigmoid(z_{(1)}^{(3)}) (1-sigmoid(z_{(1)}^{(3)})) \times w_{(1,3)}^{(3)} \times sigmoid(z_{(2)}^{(2)}) (1-sigmoid(z_{(2)}^{(2)})) \times 1 )\)

\( \space \space \space + ( a_{(2)}^{(3)}- t_{(2)}^{(3)} \times sigmoid(z_{(2)}^{(3)}) (1-sigmoid(z_{(2)}^{(3)})) \times w_{(2,2)}^{(3)} \times sigmoid(z_{(2)}^{(2)}) (1-sigmoid(z_{(2)}^{(2)})) \times 1 )\)

\( = ( a_{(1)}^{(3)}- t_{(1)}^{(3)} \times a_{(1)}^{(3)}(1-a_{(1)}^{(3)}) \times w_{(1,2)}^{(3)} \times a_{(2)}^{(2)}(1-a_{(2)}^{(2)}) \times 1 )\)

\( \space \space \space + ( a_{(2)}^{(3)}- t_{(2)}^{(3)} \times a_{(2)}^{(3)}(1-a_{(2)}^{(3)}) \times w_{(2,2)}^{(3)} \times a_{(2)}^{(2)}(1-a_{(2)}^{(2)}) \times 1 )\)

hidden layer 2 ...

\( \frac {\partial E} {\partial W^{(2)}} = \begin{bmatrix} \frac {\partial E}{\partial W_{(1,1)}^{(2)}} & \frac {\partial E}{\partial W_{(2,1)}^{(2)}} \\ \frac {\partial E}{\partial W_{(1,2)}^{(2)}} & \frac {\partial E}{\partial W_{(2,2)}^{(2)}} \end{bmatrix}\)

1) \( \frac {\partial E}{\partial W_{(1,1)}^{(2)}}\)

\( = a_{(1)}^{(1)}(a_{(1)}^{(3)}-t_{(1)}^{(3)})a_{(1)}^{(3)}(1-a_{(1)}^{(3)})w_{(1,1)}^{(3)}a_{(1)}^{(2)}(1-a_{(1)}^{(2)})\)

\( + a_{(1)}^{(1)}(a_{(2)}^{(3)}-t_{(2)}^{(3)})a_{(2)}^{(3)}(1-a_{(2)}^{(3)})w_{(2,1)}^{(3)}a_{(1)}^{(2)}(1-a_{(1)}^{(2)})\)

2) \( \frac {\partial E}{\partial W_{(2,1)}^{(2)}}\)

\( = a_{(1)}^{(1)}(a_{(1)}^{(3)}-t_{(1)}^{(3)})a_{(1)}^{(3)}(1-a_{(1)}^{(3)})w_{(1,2)}^{(3)}a_{(2)}^{(2)}(1-a_{(2)}^{(2)})\)

\( + a_{(1)}^{(1)}(a_{(2)}^{(3)}-t_{(2)}^{(3)})a_{(2)}^{(3)}(1-a_{(2)}^{(3)})w_{(2,2)}^{(3)}a_{(2)}^{(2)}(1-a_{(2)}^{(2)})\)

3) \( \frac {\partial E}{\partial W_{(1,2)}^{(2)}}\)

\( = a_{(2)}^{(1)}(a_{(1)}^{(3)}-t_{(1)}^{(3)})a_{(1)}^{(3)}(1-a_{(1)}^{(3)})w_{(1,1)}^{(3)}a_{(1)}^{(2)}(1-a_{(1)}^{(2)})\)

\( + a_{(2)}^{(1)}(a_{(2)}^{(3)}-t_{(2)}^{(3)})a_{(2)}^{(3)}(1-a_{(2)}^{(3)})w_{(2,1)}^{(3)}a_{(1)}^{(2)}(1-a_{(1)}^{(2)})\)

4) \( \frac {\partial E}{\partial W_{(2,2)}^{(2)}}\)

\( = a_{(2)}^{(1)}(a_{(1)}^{(3)}-t_{(1)}^{(3)})a_{(1)}^{(3)}(1-a_{(1)}^{(3)})w_{(1,2)}^{(3)}a_{(2)}^{(2)}(1-a_{(2)}^{(2)})\)

\( + a_{(2)}^{(1)}(a_{(2)}^{(3)}-t_{(2)}^{(3)})a_{(2)}^{(3)}(1-a_{(2)}^{(3)})w_{(2,2)}^{(3)}a_{(2)}^{(2)}(1-a_{(2)}^{(2)})\)

\( = \begin{bmatrix} a_{(1)}^{(1)} \\ a_{(2)}^{(1)} \end{bmatrix}\)

\( \cdotp \Big( \begin{bmatrix} (a_{(1)}^{(3)}-t_{(1)}^{(3)})a_{(1)}^{(3)}(1-a_{(1)}^{(3)}) & (a_{(2)}^{(3)}-t_{(2)}^{(3)})a_{(2)}^{(3)}(1-a_{(2)}^{(3)}) \end{bmatrix}\)

\( \cdotp \begin{bmatrix} w_{(1,1)}^{(3)} & w_{(1,2)}^{(3)} \\ w_{(2,1)}^{(3)} & w_{(2,2)}^{(3)} \end{bmatrix}\)

\( \times \begin{bmatrix} a_{(1)}^{(2)}(1-a_{(1)}^{(2)}) & a_{(2)}^{(2)}(1-a_{(2)}^{(2)}) \end{bmatrix} \Big)\)

\( = A1^{T} \cdotp ( (loss\_3 \cdotp W3^{T}) \times (A2 \times (1-A2)) )\)

\( = A1^{T} \cdotp loss\_2 \)

\( \frac {\partial E} {\partial b^{(2)}} = \begin{bmatrix} \frac {\partial E}{\partial b_{(1)}^{(2)}} \\ \frac {\partial E}{\partial b_{(2)}^{(2)}} \end{bmatrix}\)

1) \( = (a_{(1)}^{(3)}-t_{(1)}^{(3)})a_{(1)}^{(3)}(1-a_{(1)}^{(3)}w_{(1,1)}^{(3)}a_{(1)}^{(2)}(1-a_{(1)}^{(2)}\)

\( + (a_{(2)}^{(3)}-t_{(2)}^{(3)})a_{(2)}^{(3)}(1-a_{(2)}^{(3)}w_{(2,1)}^{(3)}a_{(1)}^{(2)}(1-a_{(1)}^{(2)}\)

2) \( = (a_{(1)}^{(3)}-t_{(1)}^{(3)})a_{(1)}^{(3)}(1-a_{(1)}^{(3)}w_{(1,2)}^{(3)}a_{(2)}^{(2)}(1-a_{(2)}^{(2)}\)

\( + (a_{(2)}^{(3)}-t_{(2)}^{(3)})a_{(2)}^{(3)}(1-a_{(2)}^{(3)}w_{(2,2)}^{(3)}a_{(2)}^{(2)}(1-a_{(2)}^{(2)}\)

3) \( = (a_{(1)}^{(3)}-t_{(1)}^{(3)})a_{(1)}^{(3)}(1-a_{(1)}^{(3)}w_{(1,1)}^{(3)}a_{(1)}^{(2)}(1-a_{(1)}^{(2)}\)

\( + (a_{(2)}^{(3)}-t_{(2)}^{(3)})a_{(2)}^{(3)}(1-a_{(2)}^{(3)}w_{(2,1)}^{(3)}a_{(1)}^{(2)}(1-a_{(1)}^{(2)}\)

4) \( = (a_{(1)}^{(3)}-t_{(1)}^{(3)})a_{(1)}^{(3)}(1-a_{(1)}^{(3)}w_{(1,2)}^{(3)}a_{(2)}^{(2)}(1-a_{(2)}^{(2)}\)

\( + (a_{(2)}^{(3)}-t_{(2)}^{(3)})a_{(2)}^{(3)}(1-a_{(2)}^{(3)}w_{(2,2)}^{(3)}a_{(2)}^{(2)}(1-a_{(2)}^{(2)}\)

\( = (a_{(1)}^{(3)}-t_{(1)}^{(3)})a_{(1)}^{(3)}(1-a_{(1)}^{(3)}\)

\( \space \space \space (a_{(2)}^{(3)}-t_{(2)}^{(3)})a_{(2)}^{(3)}(1-a_{(2)}^{(3)})\)

\( \cdotp \begin{bmatrix} W_{(1,1)}^{(3)} & W_{(1,2)}^{(3)} \\ W_{(2,1)}^{(3)} & W_{(2,2)}^{(3)} \end{bmatrix}\)

\( \times \begin{bmatrix} a_{(1)}^{(2)}(1-a_{(1)}{(2)}) \\ a_{(2)}^{(2)}(1-a_{(2)}{(2)}) \end{bmatrix}\)

\( = ((loss\_3 \cdotp W3^{T}) \times (A2 \times (1-A2)) )\)

\( = loss\_2\)

hidden layer 3 ...

\( W^{(2)} = W^{(2)} - \alpha \frac {\partial E}{\partial W^{(2)}} = W^{(2)} - \alpha \times (A1^{T} \cdotp loss\_2 )\)

\( b^{(2)} = b^{(2)} - \alpha \frac {\partial E}{\partial b^{(2)}} = b^{(2)} - \alpha \times loss\_2\)

loss, weight and bias update ...

\( loss\_4 = (A4 - Target) \times A4(1-A4)\)

\( W4 = W4 - \alpha \frac {\partial E}{\partial W4} = W4 - \alpha \times (A3^{T} \cdotp loss\_4)\)

\( b4 = b4 - \alpha \frac {\partial E}{\partial b4} = b4 - \alpha \times loss\_4\)

\( loss\_3 = ( loss\_4 \cdotp W4^{T} ) \times A3(1-A3)\)

\( W3 = W3 - \alpha \frac {\partial E}{\partial W3} = W3 - \alpha \times (A2^{T} \cdotp loss\_3)\)

\( b3 = b3 - \alpha \frac {\partial E}{\partial b3} = b3 - \alpha \times loss\_3\)

\( loss\_2 = ( loss\_3 \cdotp W3^{T} ) \times A2(1-A2)\)

\( W2 = W2 - \alpha \frac {\partial E}{\partial W2} = W2 - \alpha \times (A1^{T} \cdotp loss\_2)\)

\( b2 = b2 - \alpha \frac {\partial E}{\partial b2} = b2 - \alpha \times loss\_2\)

Vanishing Gradient

Sigmoid나 Tanh등 Activation Function의 제한적 실수 범위의 선택으로 Depth가 깊은 Layer에서는 차이가 Squashing되어 소실 되는 특성을 지님

Solution 1 : Relu, Leaky Relu \( f(x) = max(0,x)\)
Solution 2 : Weight Initialization (Xavier)
Solution 3 : Dropout
Solution 4 : Batch Normalization

OpenTutorial ↩︎
“Regression toward the mean”, Sir Francis Galton (1822~1911) ↩︎
Global 해를 찾는 과정 ↩︎