베스트셀러

베스트셀러

데이터사이언스 입문

인공지능시대의 전문서
  • 저자일본 국립 시가대학교 데이터사이언스학부 타케무라 아키미치 교수 외 12인 저 / 황석형, 김응희, 김민경 역
  • 발행일2019-12-26
  • 정가22,000원
  • 페이지280 페이지
  • ISBN979-11-85578-57-6
  • 일반자료 이미지 (Image)
  • 책소개
  • 저자소개
  • 목차
  • 출판사 서평
손에 잡히는 설명, 쉽게 풀어가는 데이터사이언스
실제 데이터 활용사례의 소개

『데이터사이언스 입문』은 빅 데이터 시대를 살아가는 독자들이 습득해야 하는 필독서로서 데이터사이언스 분야에 대한 개론 내용을 함축하여 해설하고, 보다 고급수준의 내용을 학습하기 위한 가교역할을 하는 교과서이다. 또한 대학의 교양과정에서 활용하는 것을 생각한다면, 문과계열 학생들도 읽기 쉽도록 수식은 가능한 한 사용하지 않고 그래프 등을 이용하여 직관적으로 설명함으로써 데이터 사이언스 전반을 살펴볼 수 있는 내용으로 구성하였다.

이 책은 데이터사이언스 응용사례로서 마케팅, 이미지 처리, 품질관리 등의 다양한 분야에서 일어나는 실제 데이터 활용 사례들을 소개하고 있다. 이 같은 활용 사례들을 통하여, 데이터사이언스가 현대사회에서 어떠한 역할을 수행하고 있는지 파악할 수 있으며, 또한 데이터사이언스를 지속적으로 학습하기 위한 훌륭한 출발점 역할을 할 수 있다.

◆저자소개



타케무라 아키미치


일본 국립 시가대학교 데이터사이언스학부 교수이다.




◆역자소개



황석형 sukhyung.hwang@gmail.com


일본 오사카대학교 대학원(정보공학과)에서 공학박사(소프트웨어공학전공) 학위를 취득하였다. 국방대학교 국방정보화사업 관리자과정 외래강사(소프트웨어공학 관련 강의), 재단법인 충남테크노파크 상근 겸임교수, 선문대학교 IT교육원장, 아일랜드국립대학교 Digital Enterprise Research Institute의 Visiting Researcher 등을 역임하였다. 1997년~2016년까지 선문대학교 컴퓨터공학부 교수로 재직하였고, 2017년부터는 글로벌소프트웨어학과 학과장으로 임명되어 소프트웨어공학 및 데이터사이언스 전공 학생들의 교육과 연구에 더욱 힘쓰고 있다. 기타 번역서로는 <프로그래머처럼 생각하라>, <똑똑한 엄마는 국영수보다 코딩을 가르친다>, <시멘틱 웹을 위한 RDF/OWL 입문>, <소프트웨어공학> 등이 있다.



김응희 eungheekim@gmail.com


서울대학교 치의학대학원에서 의료정보학분야 공학석사학위를, 동 대학 의과대학 의료정보학협동과정을 통해 의학박사학위를 각각 취득하였다. 박사학위 취득 후, 서울대학교 치의학생명과학사업단 BK21 연구교수로 활동하며, 빅데이터와 기계학습 기반의 신약개발 과제 등에 참여하였다. 2018년부터 선문대학교 글로벌소프트웨어에서 조교수로 재직하며, 같은 소속 교수 및 학생들과 함께 소프트웨어 그리고 패턴 추출 분야를 즐겁게 연구하고 있다.



김민경 minkyoung.kimm@gmail.com


미국 서던캘리포니아대학교(University of Southern California)에서 컴퓨터과학분야 공학석사학위를, 호주국립대학교(Australian National University)에서 공학박사학위를 각각 취득하였다. 박사학위 취득 후에는, 미국 스탠포드대학교(Stanford University)에서 박사후 연구원으로서 ‘지식확산 및 융합’ 메커니즘을 발견하기 위한 수학적 모델링을 연구하였으며, 호주 최대의 국가연구기관인 CSIRO(호주연방과학산업연구소)에서 전염병 확산 모델링 및 시뮬레이션을 연구하여 2019년 유레카상 후보(Ereka Prize 2019 Finalist)에 선정되기도 하였다. 국내에서는 삼성전자 디지털미디어 연구소 선임연구원 및 SK텔레콤 인공지능 연구소에서 매니저로 활동하기도 하였다. 현재, 선문대학교 글로벌소프트웨어학과에서 조교수로 재직 중이며, 데이터사이언스 및 인공지능 분야 교육과 연구에 전념하고 있다.

제01장 현대사회와 데이터사이언스
1.1 데이터사이언스의 역할
   1.1.1 빅 데이터 시대와 데이터사이언스
   1.1.2 자원으로서의 데이터
   1.1.3 현대식 주판으로서의 데이터사이언스
   1.1.4 데이터 사이언티스트
1.2 데이터분석을 위한 데이터의 수집과 관리
   1.2.1 데이터분석의 대상과 목적의 설정
   1.2.2 데이터의 유형
   1.2.3 데이터 용량
   1.2.4 대규모 데이터의 이용
   1.2.5 데이터의 수집방법
   1.2.6 데이터의 전처리

제02장 데이터분석의 기초
2.1 히스토그램/상자수염그림/평균값과 분산
   2.1.1 히스토그램
   2.1.2 상자수염그림
   2.1.3 평균값과 분산
   2.2 산포도와 상관관계
   2.2.1 2개의 양적 데이터
   2.2.2 산포도
   2.2.3 상관계수
2.3 회귀직선
   2.3.1 회귀직선과 최소제곱법
   2.3.2 목적변수의 변동과 결정계수
2.4 데이터분석에서 주의사항
   2.4.1 상관관계와 인과관계
   2.4.2 관찰연구와 실험연구
   2.4.3 표본조사
   2.4.4 적절한 그래프 사용법

제03장 데이터사이언스 분야의 분석기법
3.1 크로스집계(cross tabulation, 교차집계)
3.2 회귀분석
   3.2.1 선형회귀
   3.2.2 결과를 살펴보는 방법(예: 평균수명과 담배)
   3.2.3 떨어져 있는 값의 영향
   3.2.4 역 회귀 분석
   3.2.5 주성분 분석에 의한 설명변수의 합성
   3.2.6 로지스틱 회귀분석
3.3 베이즈 추론
   3.3.1 베이즈 정리
   3.3.2 베이즈 추론의 응용사례(스팸 메일 검출)
3.4 연관성 분석
3.5 클러스터링
   3.5.1 거리와 클러스터링
   3.5.2 계층적 클러스터링
   3.5.3 비계층적 클러스터링 : k-means기법(k 평균 군집법)
3.6 의사결정트리
   3.6.1 의사결정트리의 예
   3.6.2 의사결정트리의 작성방법
3.7 뉴럴네트워크
   3.7.1 뉴럴네트워크의 개념
   3.7.2 간단한 뉴럴네트워크의 예
3.8 기계학습과 인공지능
   3.8.1 기계학습과 인공지능의 발전
   3.8.2 뉴럴네트워크 분야에서의 학습
   3.8.3 지도 학습과 비지도 학습
   3.8.4 과적합
   3.8.5 인공지능의 발전

제04장 컴퓨터를 이용한 분석
4.1 엑셀을 이용한 데이터분석
   4.1.1 데이터의 수집
   4.1.2 다양한 통계량 계산
   4.1.3 그래프 작성(히스토그램, 상자수염그림)
   4.1.4 산포도와 회귀직선
4.2 통계해석 소프트웨어 R을 이용한 데이터분석
   4.2.1 R의 설치
   4.2.2 R의 시작과 작동방법
   4.2.3 R을 사용한 데이터 분석
   4.2.4 다양한 기능들
4.3 프로그래밍언어 Python을 이용한 데이터분석
   4.3.1 Anaconda의 설치와 Jupyter Notebook의 실행
   4.3.2 Python 프로그래밍의 기본
   4.3.3 보다 편리한 모듈 및 라이브러리 사용법
   4.3.4 pandas를 이용한 데이터 정리
   4.3.5 matplotlib를 이용한 데이터의 가시화
   4.3.6 scikit-learm을 이용한 데이터의 분류와 기계학습

제05장 데이터사이언스 응용사례
5.1 마케팅
   5.1.1 마케팅이란
   5.1.2 소비자의 니즈 파악
   5.1.3 수요예측
   5.1.4 고객에 대한 분류
   5.1.5 A/B 테스트
   5.1.6 상품 추천 시스템
   5.1.7 연관성 분석
5.2 금융
   5.2.1 포트폴리오 선택
   5.2.2 디폴트 확률의 분석
   5.2.3 고객에 대한 행동분석
   5.2.4 보험
   5.2.5 인공지능(AI)의 활용
5.3 품질관리
   5.3.1 산업ㆍ기업의 운명을 좌우하는 “품질”
   5.3.2 오늘날의 품질관리에 관한 개념
   5.3.3 품질의 분류
   5.3.4 품질관리에 관한 데이터
   5.3.5 데이터 활용을 위한 기법: 수치데이터의 활용기법
   5.3.6 데이터 활용을 위한 기법: 언어데이터 활용기법
   5.3.7 앞으로의 과제와 데이터사이언스
5.4 이미지 처리
   5.4.1 인간의 눈과 기계의 눈
   5.4.2 화소
   5.4.3 색표현
   5.4.4 이미지 데이터 처리
   5.4.5 인간의 시각 및 인지기능에 대한 모방과 응용
   5.4.6 데이터사이언스와 이미지처리기술
   5.4.7 이미지 해석의 어려움
   5.4.8 삼각측량법과 스테레오기법
   5.4.9 동영상으로부터 3차원복원
   5.4.10 자유시점 이미지생성
   5.4.11 데이터의 결손보완기법과 응용
5.5 음성처리
   5.5.1 음성데이터의 활용
   5.5.2 음성데이터의 특징
   5.5.3 음성데이터의 저장형식
   5.5.4 음성데이터의 스펙트럼 표현
   5.5.5 조화파구조와 스펙트럼 포락선
   5.5.6 수록환경에 의한 음성왜곡의 보정
   5.5.7 음성데이터의 분석
5.6 의학
   5.6.1 데이터 통계해석 기반 의학
   5.6.2 생물학ㆍ분자생물학 기반의 의학
   5.6.3 염색체로부터의 유전자 검색
   5.6.4 대규모 질병연쇄유전자 검출
   5.6.5 생물학ㆍ분자생물학 기반의 의학

제06장 후속 학습을 위한 참고문헌 소개
6.1 1장 현대사회와 데이터사이언스
6.2 2장 데이터분석의 기초
6.3 3장 데이터사이언스 분야의 분석기법
6.4 4장 컴퓨터를 이용한 분석
6.5 5장 데이터사이언스 응용사례
데이터사이언스(Data Science)는 데이터로부터 의미있는 정보를 얻어내기 위한 학문분야이다. 인공지능이나 기계학습 등과 같은 데이터사이언스 분야의 첨단기술은 4차 산업혁명 시대의 경쟁력 있는 기업들이 갖추어야 할 핵심적이면서 필수적인 정보기술이 되었다.
최근 일본에서는 이와 같은 데이터사이언스의 진정한 가치와 중요성을 인식하는 기업과 대학들이 급증하고 있다. 일본의 대표적인 기업 NEC는 2020년까지 데이터사이언티스트 및 인공지능 분야 인재를 1,000명으로 증원하는 계획을 발표하였고, 히타치 그룹의 경우 2021년까지 전사적 규모로 데이터사이언티스트를 3,000명까지 증원하다는 발표가 있었다.
이 책은 이러한 데이터사이언티스트 양성을 위해 일본 최초로 설립된 국립 시가대학교 데이터사이언스 학부의 교수진들이 발간하고 있는 "데이터사이언스 대계 시리즈"의 첫 번째 성과물이다. 향후 데이터사이언스 분야 인재 양성을 위한 학문체계를 이해하고, 데이터사이언티스트를 꿈꾸는 독자들에게 큰 도움이 될 것으로 기대한다.