이 책은 정형, 비정형 데이터를 다루기 위해서 빅데이터 프로세스를 이해하고 사용하는 기술을 배우고 데이터를 다루는 능력을 키우는 것을 목적으로 한다. 파이썬 기본 문법과 라이브러리 활용법을 익히고 데이터를 다루고 처리하는 방법에 대해서 프로젝트를 통해 학습할 수 있다.
1장~4장에서는 파이썬 문법에 대해 학습하고, 5장에서는 웹 기초 문법에 대해 학습한다.
6장~7장에서는 크롤러를 만들고 데이터를 수집하는 과정을 설명하고, 8장은 네이버 API 이용 방법에 대해 설명하고 있다. 9장과 10장은 각각 JSON과 워드클라우드에 대해 설명하고 있으며, 11장~13장에서는 공공 데이터를 활용하여 프로젝트를 만들어 본다.
방진숙
· 배재대학교 컴퓨터공학 박사
· 연세대학교 창업학 석사
· (현) 호서대학교 조교수
· (전) 배재대, 우송대, 우송정보대 겸임교수
· (전) 다솜정보 책임연구원, ㈜탑텍 책임연구원
· (전) 연세대, 한밭대, 순천향대 등 강의
· (전) 목원대, 대전보건전문대, 건양대, 상지영서대 등 다수 대학 강의
· (전) 2017년 이공계 전문기술 연수사업(IoT기반 자바&안드로이드 SW융합 개발자 양성과정) 진행, LG CNS 협력업체 기술 양성과정, NCS 기반 IOT 기반 융합 SW 개발자 양성과정 강의, 삼성SDI, 삼성정밀코닝 신입 사원 및 재직자 과정 강의, 프로젝트 기반의 스마트팩토리 SW 개발 실무자 양성 과정 강의, 그 외 다수 업체 강의
주진현
· (현) 호서대학교 조교수
· (전) 호서대학교 강사
· (전) 잉카엔트웍스 연구원
Chapter 01 파이썬의 개요 및 개발환경 설정
1. 파이썬 개요
2. 프로그램 설치
Chapter 02 파이썬 기초
1. 변수와 데이터형 이해
2. 연산자의 종류
3. 제어문 구조
Chapter 03 리스트, 튜플, 딕셔너리, 라이브러리 사용하기
1. 리스트(List) 이해하기
2. 딕셔너리(Dictionary) 이해하기
3. 라이브러리 이해하기
Chapter 04 파일 I/O 이해하기
1. 파일 I/O 이해하기
2. 클래스와 함수 이해하기
Chapter 05 웹 기초 문법
1. HTTP와 URL 이해하기
2. HTML5 문법
3. JSON 문법 이해하기
Chapter 06 크롤러 만들기(데이터 수집)
1. urllib 패키지
2. BeautifulSoup
3. 네이버 날씨 웹 페이지에서 시간대별 기온 데이터 가져오기
Chapter 07 데이터 기획과 수집
1. 프로젝트 기획
2. 데이터 수집
3. 데이터 수집 예제 활용하기
4. 네이버 쇼핑몰 제품 리스트 활용 예제
Chapter 08 NAVER API 이용하기
1. 네이버 API 등록하기
2. API 주소 알아보기
Chapter 09 JSON 데이터 기반 그래프 그리기
1. 데이터 시각화(Visualization)
2. 영화 사이트로부터 평점 데이터 가져와 시각화하기
Chapter 10 워드클라우드 라이브러리 이용하여 데이터 활용하기
1. 워드클라우드 이해하기
2. 필요한 라이브러리
3. 워드클라우드 만들기
4. 워드클라우드로 한글 키워드(명사) 시각화
Chapter 11 공공 데이터 이용하기
1. 공공 데이터 개요
2. 네이버 오픈 API
3. 그래프 나누기
Chapter 12 분석된 데이터를 지도에 표시하기
1. 기본 그래프 그리기
2. 아산 인구 구조 그래프로 시각화
Chapter 13 공공 데이터를 활용한 데이터 분석 프로젝트 만들기
1. 추세선(Trend line) 그리기
2. 공공 데이터 활용한 데이터 분석 활용 예제
3. 클래스 작성
4. 그래프 작성
5. 추세선 작성
6. 데이터 상관관계 분석
부록 공모전
눈 깜짝할 찰나의 사이에도 방대한 데이터가 오고 가는 세상이 되었다. 이러한 현대 시대에 가장 필요로 하게 된 기술은 무엇일까? 바로 그 수많은 빅데이터를 수집하고 분석하고 처리하는 것이다. 이 책은 웹상에 있는 데이터들을 수집하고 데이터베이스에 저장하는 등의 웹크롤링 방법에 대해 학습하고 직접 실습해볼 수 있도록 구성되어 있다.
웹크롤링을 위한 파이썬의 기초 문법부터 웹 기초 문법까지 폭 넓게 설명하고 있으며, 고급 과정으로는 API를 이용하거나 JSON, 워드클라우드, 공공데이터를 활용 방법을 설명하고 있다. 누구나 차근차근 따라 학습한다면 다양한 데이터를 효율적으로 처리할 수 있는 능력을 얻게 될 것이다.