[머신러닝] 최소자승법(Least Square Method)

이미지
 이번에는 시계열 분석에 사용되는 최소자승법 에 대해 알아보겠다. 예를 들어, 대학교 입학성적이 대학교 재학 중 학업성적에 미치는 영향을 조사하기 원한다고 가정하자. 이를 위해 6명의 재학생의 입학성적( x 1 =수능성적,   x 2 =학생부 성적)과 학생들의 대학 재학시 총 평균학점(y=GPA)의 자료를 얻었다. 이 자료를 근거로 재학생의 학업 성취도가 대학 입학성적과 어떤 연관이 있는지 살펴 보려면  Y = a 1 x 1  + a 2 x 2     (1.1)  을 만족하는  a 1,  a 2  값을 정하면 된다. 여기서  a 1 은 수능성적이 1점 상승할 때 대학에서의 GPA가 얼마나 오르는지에 대한 증가량을 나타내며  a 1 >0 이면 수능 성적이 높을 수록 GPA가 높아짐을 의미한다. 모든 자료가 식 1.1을 만족시키는 것은 불가능하기 때문에 오차항(error)  e i 을 이용하면 i 번째 학생의 경우 y i = a 1x x 1i  + a 2 x 2i + e i    (1.2) 라는 모형식을 가정 할 수 있다. 이를 행렬식으로 표시하면 y = Xa+e 라고 할 수 있다. 그리고 여기서 a값을 결정하기 위해 흔히 사용하는 방법은 오차항의 길이 제곱을 최소로 하는 방법인데, 이를 최소자승법이라고 한다.  기하학적으로 오차항의 길이를 최소로 하는 방법은 벡터 y를 열공간 C(X)에 투영시켰을 때의 a값을 얻는 거이며, 이때 투영된 그림자를 y^이라 하고 그 때의 a값을 a^이라고 한다면  y^ = Py = X(X T X) -1 X T y = Xa^   (1.3) 로 부터 a^ = (X­ T X) -1 X T y   (1.4) 라는 값이 얻어지고 이를 '최소자승추정량(Least Sq...

[데이터 분석] 파이썬에서 소셜 데이터 수집과 분석

이미지
이 글은 정광윤님이 DB Guide.net에 연재한 개발자를 위한 파이썬 분석을 정리한 내용입니다. ---------------------------------------------------------------------------------------------------  트위터에서 트윗되고 있는 데이터 중에서 파이썬, 자바스크립트, 루비(Ruby)의 인기도를 분석해 보자. 0. 준비하기 먼저 필요한 패키지들은 다음과 같다. 1. pandas 2. matplotlib 3. json 4. re 5. tweepy 여기서 3,4번은 이미 내장되어 있는 패키지이다. 1,2 번은 pip install을 사용해 설치하면 되기 때문에 tweepy 설치 방법만 알아 보겠다. 1. Twitter API key 획득하기  Application Programming Interface의 약자인 API라는 것이 있다. 이 API 덕분에 우리가 데이터를 흔하게 접할 수 있고 쉽게 데이터를 획득 할 수 있다. API는 즉, 프로그래밍 언어로 어플리케이션에 접근할 수 있는 인터페이스이다.  트위터로부터 데이터를 가져오기 위해서는 아래 4가지 정보가 필요하다. 1. API Key 2. API Secret 3. Access Token 4. Access Token Secret  이 네가지 정보를 얻기 위해서는 트위터 계정이 있어야하고 계정에 본인의 핸드폰 번호도 등록되어 있어야 한다. 1. https://apps.twitter.com/에 접속한다. 2. 우측 상단의 'Create New App'을 클릭한다. 3. 양식들에 값들을 적당히 채운다.(이름, 설명, 웹사이트(아무거나 입력 가능)만 입력하면 된다.) 4. 'Create your Twitter application'을 클릭한다. 5. 'Keys and Access Tokens' 탭으로 이동하면 Consumer Key(A...

[책 리뷰]인사이트 통찰의 힘

이미지
  내가 가장 관심을 갖고 공부하는 분야가 데이터 분석인데 분석 기술 보다 중요한것이 분석 결과를 보고 인사이트를 도출해 내는 것이라 들었다. 하지만 듣기만 했을 뿐 도대체 무엇을 어떻게 해야하는지 감이 잡히지 않았는데 책을 보면서 약간 알것 같기도 하다는 생각을 하게 되었다.  혁신이나 뭐니 하는 말이 많이 나오는 요즘 시대는 새로움을 향한 열망이 많은 시대인 것 같다. 이 책은 그 혁신을 이루기 위해 가장 중요한 것을 공감 으로 봤다. 통찰을 발견하기 위한 렌즈를 바로  공감 으로 봤는데 문제를 정의한 다음 그것에 대해 소통 하고 관찰 하고 코드 를 맞추며 확산 시킨다. 그 다음 이것들을 공감이라는 렌즈를 통해 통찰 , 발상 , 그리고 콘셉트 설정을 통해 그것들을 수렴시킨 다음 그것들을 실행하는 법에 대한 내용이 이 책의 핵심 내용이다.  위의 여섯가지 내용을 살펴보자. 먼저, 코드 가 있다. 코드는 사용자에 맞는 문화 코드로 전환하라 는 내용이다. 아무리 혁신적이고 좋은 아이디어 일지라도 사용자들의 정서와 문화 코드 같은 것들과 맞지 않으면 그 아이디어는 사용자들로 부터 반응을 이끌어내기 힘들 것이다. 혁신이라는 것은 사용자에게 혁신적이어야지 내가 느끼기에 혁신적이어선 안되기 때문이다. 책의 저자는 코드를 맞추기 위해 프로젝트를 진행할 때마다 '사용자 되어보기' 방법을 사용 한다고 한다. '사용자 되어보기' 를 하기 위해 사용자에 맞는 환경을 조성한다고 한다. 예를 들어 학교와 관련된 프로젝트를 진행할 경우 프로젝트 룸을 실제 교실처럼 조성하는 것이다. 급훈을 달고, 학급내에 있는 것과 비슷한 게시판, 책상, 의자 등을 구비해놓고 그곳에서 프로젝트를 진행하며 '사용자 처럼' 이 아니라 '진짜 사용자' 가 되어 보는 방법이다.  그 다음은 관찰 이다. 관찰은 익숨함 속에 숨겨진 새로운 기회를 발견 하는 것을 말한다. 새로운 것을 발견하는 것이 아니라 새로운 눈으로 사물을 보는 것이라 생...

독서 요약을 시작하며

 책을 읽고 난 뒤 나중가면 그 책의 내용이 기억나지 않을 때가 많다. 그리고 기억을 못하는데 읽어봤자 무슨 소용일까 싶은 생각도 많이 해봤다. 책을 읽고 정리, 요약을 해놓으면 좀 더 기억이 오래가지 않을까 싶어 시작하는 독서요약(혹은 독후감).

T-Robotics : Robot & Math: 추천! 로봇공학 / 기계학습 무료 교재(pdf) 15가지

T-Robotics : Robot & Math: 추천! 로봇공학 / 기계학습 무료 교재(pdf) 15가지 Terry.t.um님 블로그에서 가져온 무료 교재들 천천히 봐야지..