일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- Java
- 노마드코더
- Unity
- Eclipse
- SQL
- Spring
- 유니티
- 홀리데이익스프레스
- 쿠키런킹덤
- 개발자
- 딥러닝
- programmers
- 자바
- 오블완
- MySQL
- dart
- 웹개발
- 쿠키런킹덤공략
- 티스토리챌린지
- oracle
- HTML
- JavaScript
- 크리스마스
- 쿠키런킹덤크리스마스
- edwith
- 자바스크립트
- 프로그래머스
- 쿠킹덤
- 쿠킹덤공략
- 이클립스
Archives
- Today
- Total
Dev study and notes
[딥러닝] 4-11 랜덤 초기화 본문
반응형
이전포스팅:https://devlunch4.tistory.com/108
4-11 랜덤 초기화
학습목표: 변수를 임의값으로 초기화하는 이유를 알 수 있다.
핵심키워드: 가중치 초기화(weight initialization)
- 신경망을 훈련시킬 때 변수를 임의값으로 초기화하는 것은 중요합니다
- 신경망에서 모두 0으로 초기화하고 경사 하강법을 적용할 경우 올바르게 동작하지 않을 것입니다 이제 그 이유를 살펴보겠습니다
- 두 개의 입력 특성을 가지는데요. 따라서 n^[0]는 2가 됩니다 .
- 두 개의 은닉층이 있고 n^[1] 은 2의 값을 가집니다.
- 은닉층에 관한 행렬 w^[1]은 (2, 2) 행렬이 될 것입니다.
- 초기화 의 경우 a1^[1] 과 a2^{1}의 경우 완전히 같은 것이 되고 완전 대칭이라고 말할수 있다.
- >
- 수학적 귀납법에 의해 여러 반복에 의해 두 은닉 유닛은 항상 같은 함수를 갖는다.
- >
- 모든 값을 0으로 초기화 한다면 모든 은닉 유닛은 대칭이 되고 경사하강법 적용시키는지에 상관 없이 모든 유닛은 항상 같은 함수를 계산하기 되므로 쓸모가 없다.>
- W^[1]는 가우시간 랜덤 변수를 생성한다.
- >
- 왜 가중치 0.01으로 하는가? 너무 큰 값을 가지는 경우 활성 값을 계산하면
- z^[1]은 w^[1]x + b^[1]이고 활성 함수 a^[1]은 z^[1]에 대한 값이 됩니다
- w가 큰 값을 가지는 경우에 z도 굉장히 큰 값을 가지거나 몇몇 값이 굉장히 크거나 굉장히 작은 상태가 될 수 있습니다
- >
- 결론적으로 w가 너무 긑 값을 가지면 매우 큰 값의 z를 이용해 훈련을 시작하게 되고
- tanh나 시그모이드 활성 함수가 너무 큰 값을 가지게 되므로 학습의 속도가 느려진다.
반응형
'StudyAndDev' 카테고리의 다른 글
[스프링 퀵스타트] DAY 01 CLASS 1.2 실습 프로젝트 생성 중 오류 해결 (0) | 2021.11.29 |
---|---|
[스프링퀵스타트] DAY 01 CLASS 1.1 개발 환경 구축 (0) | 2021.11.19 |
[딥러닝] 4-10 역전파에 대한 이해 (0) | 2021.08.15 |
[딥러닝] 4-9 신경망 네트워크와 경사 하강법 (0) | 2021.08.15 |
[딥러닝] 4-8 활성화 함수의 미분 (0) | 2021.08.15 |
Comments