Wacky_Life

Big Data 분석2 (11/16 ~ 11/24)


  16일에 시험을 본 후, 곧바로 쉴틈 없이 다음 과정을 진행했다. 통계의 이해와 Big Data 분석1은 실습보다 이론의 비중이 더 높았다면 Big Data 분석2는 실습의 비중 즉 파이썬을 더 많이 했던 것 같다. Big Data 분석2의 후반부에 배우는 텍스트 분석은 다른 강사님이 수업을 진행했고 전반부는 통계 수업을 진행하신 송홍준 교수님이 담당하시고 중반부 부터는 다른 교수님이 수업을 담당하셨다. 모든 교수님들이 질문을 하면 친절하게 잘 알려주셔서 질문하는 것을 거리낌 없이 했었다. 이번 주의 수업 내용은 대략 아래와 같다. 

- 데이터 수집 및 정제
- 탐색적 분석(그래프 분석)
- 예측 모델(선형 회귀, 다중 회귀, 의사결정 나무, 랜덤 포레스트, 그래디언트 부스팅)
- 주성분 분석
- 분류 모델(로지스틱 회귀분석, 의사결정 나무, 앙상블, SVM, 인공신경망, K-NN)
- 텍스트 분석 (웹구조, HTML 기초, 스크래핑, 전처리, KoNLPy 등)

등등을 배웠다. 과제는 Big Data 분석1 보다 더 늘어났다. 교재에 있는 내용 뿐만 아니라 별도의 과제가 적혀 있는 PPT 파일을 받았고 이를 기한 내에 제출해야 했다. 주로 수업시간에 배운 내용의 과제를 주피터 노트북에 정리하여 제출했다.  수업시간용 주피터 노트븍 파일과 과제 제출용 주피터 노트북을 따로 정리하지 않으면 복잡할 정도로 그 양이 많았다. 파이썬 수업을 듣던 1주차만 해도 퇴근 시간이 7시 부근이었다면 이 순간 부터는 밤 12시 퇴근이 일상이 되었던 것 같다. 다른 사람들한테 물어보면서 배운 것을 이해하고 과제하느라 그랬던 것 같다. 퇴근은 늦어졌지만 개인적으로 Big Data분석1 때보다는 재미있었던 것 같다. 각종 예측, 분류 모델을 돌리다 보면 좀 있어보이는 느낌이 들었기 때문인 것 같다. 11월 24일에 학습한 내용을 바탕으로 시험이 예정되어 있었다. 시험은 Big Data분석1 때와 마찬가지로 총 25문제로 20문제는 객관식과 단답형 그리고 5문제는 주관식으로 이루어져 있었다.  1차 시험보다는 2차 시험때 평균이 더 높다고 담당자 분께서 말씀하셨다. 

 

2차 시험 준비

 

  시험을 보기에 앞서서 종합실습과제를 제출해야 했었다. 원래는 11월 20일까지 종합실습과제1을 제출하고 22일까지 종합실습과제2를 제출하기로 했었으나 사람들의 요청으로 종합실습과제 1과 2 모두 24일까지 제출로 미루어 졌다.  종합실습과제 1은 보스턴 주택가격을 예측하는 것으로 Kaggle에도 있는 주제였고 종합실습과제 2는 공장의 Scale 불량을 분석하는 것이었는데 후판공정과 관련 있었다. 실습과제1은 인터넷에 검색하면 여러 정보가 나와서 상대적으로 하기 쉽고 여러 가지를 할 수 있었는데 실습과제 2는 주제부터 낯선 내용이라 쉽지 않았다. 그래서 조원들과 함께 나눠서 조사하고 토의하고 분석 내용을 공유했었다. 텍스트 분석 수업은 23일 하루 동안 진행했었는데 시험과 종합실습과제 마감 하루 전이라 많은 사람들이 제대로 수업에 집중하지 않았었다. 그럼에도 불구하고 그동안 배워보지 않은 분야라 수업시간에는 충실히 수업내용을 다 따라했었다. 교수님이 수업을 참 잘 가르치셔서 단 하루만 수업을 듣는 것이 아쉬웠다.  

 

종합실습1 과제PPT
종합실습2 과제PPT

 

  24일까지 급하게 시험과 종합실습과제 그리고 수업을 마무리한 이유는 25일 부터 조별로 빅데이터 프로젝트를 진행해야 했기 때문이다. 사실상 이 아카데미에 참가한 1차 목적이므로 필자에게는 중요한 분기점이 되는 순간이었다. 빅데이터 프로젝트 관련해서는 다음 포스팅에 작성하겠다.

공유하기

facebook twitter kakaoTalk kakaostory naver band
loading