라벨이 머신러닝/딥러닝인 게시물 표시

LSTM 네트워크 이해하기

이미지
 이 글은 http://colah.github.io/posts/2015-08-Understanding-LSTMs/ 를 번역하여 정리한 글입니다. -------------------------------------------------------------------------  RNN(Recurrent Neural Network)은 히든 노드가 방향을가진 엣지로 연결되어 순환 구조를 이루는 Neural Network의 한 종류이다. RNN이 기존 Neural Network와 다른 점은 지금 들어온 입력 데이터와 과거에 입력 받았던 데이터를 동시에 고려한다는 점이다. 순환 신경망은 내부에 정보가 지속되는 것을 돕는 순환 구조를 가진 네트워크이며, 과거의 데이터가 미래에 영향을 주는 구조를 가지고 있다. [그림 1] RNN의 기본구조  [그림 1]에서 신경망 A는 $X_t$를 입력 값으로 가지고 $h_t$를 결과 값으로 출력한다. 루프는 정보가 전 단계의 네트워크에서 그 다음 단계로 전달되도록 한다. 순환 신경망은 하나의 네트워크가 여러 개로 복사된 형태를 보이고 있는데, 각각의 네트워크는 현재 갖고있는 정보를 다음 단계로 넘겨준다. [ 그림 2] 펼쳐진 순환 신경망    [그림 2]는 [그림 1]의 순환 구조를 펼쳐 놓은 것이다. RNN의 사슬 같은 모양을 통해 RNN이 시퀀스와 리스트를 처리하는 것과 관련이 있음을 알 수 있다. 따라서 순환 신경망은 연속적인 이벤트, 리스트에 관한 문제를 해결하기 위한 알고리즘으로 적절하기 때문에 시계열 모형 수립에 활용할 수 있다. 순환 신경망의 단점 중 하나는 정보가 오래된 정보를 현재 정보에 반영할 수 없다는 점이다. 이를 해결하기 위해 나타난 것이 LSTM이다. LSTM의 기본 동작 원리는 정보를 오랫동안 기억하는 것이며 [그림 3]은 LSTM의 구조를 나타낸 그림이...

[번역] National Artificial Intelligence Research and Development Strategic Plan

2016년 10월에 발표된 National Artificial Intelligence Research and Development Strategic Plan 보고서의 Executive Summary 부분을 구글번역기로 번역한 후, 교정한 자료입니다. --------------------------------------------------------------------------------------------- 인공 지능은 엄청난 사회적 경제적 이익을 약속하는 혁신 기술입니다 . 인공 지능은 우리가 살아가고 , 일하고 , 배우고 , 발견하고 , 의사 소통하는 방식에 혁명을 일으킬 잠재력이 있습니다 . 인공 지능 연구는 경제적 번영의 증진 , 교육의 기회와 삶의 질 향상 , 국가 및 국토 안보의 강화 등 우리의 국가 우선 순위를 더욱 높일 수 있습니다 . 이러한 잠재적 이익 때문에 미국 정부는 수년간 인공 지능 연구에 투자 해 왔습니다 . 그러나 연방 정부가 관심을 갖는 중요한 기술과 마찬가지로 엄청난 기회뿐만 아니라 인공 지능에 대한 연방 기금 연구 개발의 전반적인 지침을 수립 할 때 고려해야 할 여러 가지 고려 사항이 있습니다 . 2016 년 5 월 3 일 , 행정부는 AI 의 연방 활동을 조정할 수 있도록 기계 학습 및 인공 지능에 관한 새로운 NSTC 소위원회를 구성한다고 발표했습니다 . 이 소위원회는 2016 년 6 월 15 일 네트워킹 및 정보 기술 연구 소위원회 및 개발 (NITRD) 을 통해 국가 인공 지능 연구 및 개발 전략 계획을 수립했습니다 . 인공 지능에 관한 NITRD 태스크 포스는 AI R& 에 대한 연방의 전략적 우선 순위를 정의하기 위해 형성되었으며 산업계에서는 다루기 힘든 분야에 특히 주의를 기울였습니다 . 이 National Artificial Intelligence R&D Strategic Plan 은 연방 정부의 자금 지원을 받는 인공 지능 연구의 목표를 수립합니...

[머신러닝] Deep Learning Tutorials

이 글은 http://deeplearning.net/tutorial/index.html의 내용을 공부목적으로 번역한 것입니다. 번역이 이상할 수 있고 필요한 내용만 번역되어 있을 수 도 있습니다. -------------------------------------------------------------------------------------------------------------------------------------  딥러닝은 머신러닝의 원래 목표중 하나인 인공지능으로 다가게하는 목적으로 소개된 머신러닝 연구의 새로운 분야다.  딥러닝은 이미지, 소리 그리고 텍스트와 같은 데이터들의 이해를 돕는 다양한계층의 표현과 추상적 개념에 대한 학습이다. 딥러닝 알고리즘에 대한 예제를 보고싶으면 다음을 예를 보면 된다 : The monograph or review paper  Learning Deep Architectures for AI  (Foundations & Trends in Machine Learning, 2009). The ICML 2009 Workshop on Learning Feature Hierarchies  webpage  has a  list of references . The LISA  public wiki  has a  reading list  and a  bibliography . Geoff Hinton has  readings  from 2009’s  NIPS tutorial .  여기있는 튜토리얼들은 가장 중요한 몇개의 딥러닝 알고리즘과 그것을  Theano 를 이용해 어떻게 작동시킬것인지 소개할 것이다. Theano는 딥러닝 모델을 쉽게 배울수 있게하고 그것들을 GPU에서 훈련시킬수 있도록 선택할 수 있는 파이썬 라이브러...

[머신러닝] CNN(Convolution Neural Network)

이미지
Why CNN?  이미지 인식과 같은 분야에서 MLP(Multi-Layer Perceptron) 또는 multi-layered neural network를 사용하게 되면 MLP는 모든 입력이 위치와 상관없이 동일한 수준의 중요도를 갖는다고 본다. 그렇기 때문에 이를 이용해 fully-connected neural network를 구성하게 되면 파라미터의 크기가 엄청나게 커지는 문제가 생긴다. 이에 대한 해결책으로 탄생한 것이 바로 CNN이다. Receptive Field  수용영역이란 외부 자극이 전체 영향을 끼치는 것이 아니라 특정 영역에만 영향을 준다는 뜻이다. 손가락으로 몸의 여러 부분을 찔러 보았을 때 그것을 느낄 수 있는 범위가 제한적이라는 것을 생각하면 될 것이다. 그리고 어디를 찌르느냐에 따라 느끼는 영역의 크기가 다를 것이다.  마찬가지로 영상에서 특정 위치에 있는 픽셀들은 그 주변에 있는 일부 픽셀들 하고만 correlation이 높고 거리가 멀어질수록 그 영향은 감소하게 된다. 이를 이용해 영상이나 이미지를 해석하여 "인식 알고리즘"을 수행하고자 할 경우 영상 전체 영역에 대해 서로 동일한 중요도를 부여하여 처리하는 대신에 특정 범위를 한정해 처리를 하면 훨씬 효과적일 것이라 짐작 할 수 있다. 이를 영상에만 한정하는 것이 아니라 locality를 갖는 모든 신호들에 유사하게 적용할 수있다는 아이디어에 기반하여 출현한 것이 CNN이다. convolution이란?  영상 처리 분야에서 convolution은 주로 filter 연산에 사용되며 영상으로부터 특정 feature들을 추출하기 위한 필터를 구현할 때 convolution을 사용한다. 즉 3 by 3 또는 그 이상의 window 혹은 mask를 영상 전체에 대해 반복적으로 수행을 하게 되면, 그 mask의 계수 값들의 따라 적정한 결과를 얻을 수 있다.  아래 그림을 보면 왼쪽...

[머신러닝] 최소자승법(Least Square Method)

이미지
 이번에는 시계열 분석에 사용되는 최소자승법 에 대해 알아보겠다. 예를 들어, 대학교 입학성적이 대학교 재학 중 학업성적에 미치는 영향을 조사하기 원한다고 가정하자. 이를 위해 6명의 재학생의 입학성적( x 1 =수능성적,   x 2 =학생부 성적)과 학생들의 대학 재학시 총 평균학점(y=GPA)의 자료를 얻었다. 이 자료를 근거로 재학생의 학업 성취도가 대학 입학성적과 어떤 연관이 있는지 살펴 보려면  Y = a 1 x 1  + a 2 x 2     (1.1)  을 만족하는  a 1,  a 2  값을 정하면 된다. 여기서  a 1 은 수능성적이 1점 상승할 때 대학에서의 GPA가 얼마나 오르는지에 대한 증가량을 나타내며  a 1 >0 이면 수능 성적이 높을 수록 GPA가 높아짐을 의미한다. 모든 자료가 식 1.1을 만족시키는 것은 불가능하기 때문에 오차항(error)  e i 을 이용하면 i 번째 학생의 경우 y i = a 1x x 1i  + a 2 x 2i + e i    (1.2) 라는 모형식을 가정 할 수 있다. 이를 행렬식으로 표시하면 y = Xa+e 라고 할 수 있다. 그리고 여기서 a값을 결정하기 위해 흔히 사용하는 방법은 오차항의 길이 제곱을 최소로 하는 방법인데, 이를 최소자승법이라고 한다.  기하학적으로 오차항의 길이를 최소로 하는 방법은 벡터 y를 열공간 C(X)에 투영시켰을 때의 a값을 얻는 거이며, 이때 투영된 그림자를 y^이라 하고 그 때의 a값을 a^이라고 한다면  y^ = Py = X(X T X) -1 X T y = Xa^   (1.3) 로 부터 a^ = (X­ T X) -1 X T y   (1.4) 라는 값이 얻어지고 이를 '최소자승추정량(Least Sq...

T-Robotics : Robot & Math: 추천! 로봇공학 / 기계학습 무료 교재(pdf) 15가지

T-Robotics : Robot & Math: 추천! 로봇공학 / 기계학습 무료 교재(pdf) 15가지 Terry.t.um님 블로그에서 가져온 무료 교재들 천천히 봐야지..