컨텐츠상세보기

파이썬 머신러닝 판다스 데이터 분석 (커버이미지)
알라딘
파이썬 머신러닝 판다스 데이터 분석
  • 평점평점점평가없음
  • 저자오승환 지음 
  • 출판사정보문화사 
  • 출판일2019-06-14 
보유 1, 대출 0, 예약 0, 누적대출 26, 누적예약 6

책소개

데이터 과학자가 되기 위한 첫걸음!

파이썬 초급자나 중급자가 데이터 분석과 머신러닝을 배우고자 마음먹었다면 이 책을 선택해야 한다. 필수 라이브러리를 소개하고 설치부터 예제 코드를 따라 하면서 자연스럽게 익숙해지도록 안내하고 있기 때문이다. 어려울 것 같은 수학과 통계학적 이론은 가능한 한 낮추고 실습하며 최소한의 설명으로 결과값과 확인할 수 있도록 하였다. 또한 방대한 텍스트보다는 다이어그램 등과 같은 도식화에 신경을 기울여 한눈에 이해할 수 있도록 구성하였다. 누구나 데이터 과학자가 될 수 있다. 그 출발 선상에 섰다면 이 책과 함께 예제코드를 하나씩 실행해보면, 파이썬 데이터 분석을 즐기고 있는 본인을 발견할 것이다.

학습에 필요한 예제 코드와 자료 파일은 정보문화사 홈페이지(infopub.co.kr) 자료실에서 다운로드할 수 있다. 또한 저자의 블로그(okkam76.blog.me)에 질의응답 게시판을 운영하고 있으니 궁금한 점이나 책과 관련된 요청사항은 피드백할 수 있다.

너도 할 수 있어, 판다스!

사회적으로 데이터 분석에 대한 관심이 커지면서 머신러닝에 입문하려는 사용자들도 늘어났다. 하지만 복잡하고 어려운 고급적인 수학과 통계학 이론 도서들로는 금방 포기하게 된다. 이 책의 저자는 독학으로 공부한 만큼 여러 시행착오를 겪으며 초보자의 입장을 제일 잘 이해하므로 쉽게 알려주는 방식으로 안내하고 있다.

판다스 라이브러리는 데이터를 수집하고 정리하는데 최적화된 도구인데, 오픈소스라는 장점도 갖고 있다. 또한 배우기 쉬운 파이썬을 기반으로 하기 때문에 전공자가 아니라도 쉽게 따라하며 배우는 것이 가능하다. 판다스는 데이터 분석에 필요한 두 가지 종류의 기본 데이터 시리즈와 데이터프레임을 제공한다. 이를 활용하여 데이터의 입출력부터 머신러닝 데이터 분석까지 직접 응용하며 실력향상을 할 수 있기 바란다.

저자소개

과학고, 서울대를 졸업하고, 중국 CKGSB MBA, FRM(미국 재무위험관리사) 자격을 보유하고 있다. 국내 주요 금융기관과 대기업에서 기업(산업) 분석 및 전략 기획 전문가로 근무했다. IT 비전공자이지만 Python과 R을 익히고, 데이터 기반 전략적 의사결정을 실무에 적용하기 위한 연구 중이다. Python 데이터 분석의 저변확대를 위해 블로그 운영 및 강연 활동 등을 통한 지식 나눔 활동을 병행하고 있다.

목차

PART 1. 판다스 입문
1. 데이터과학자가 판다스를 배우는 이유
2. 판다스 자료구조
2-1. 시리즈
2-2. 데이터프레임
3. 인덱스 활용
4. 산술연산
4-1. 시리즈 연산
4-2. 데이터프레임 연산

PART 2. 데이터 입출력
1. 외부 파일 읽어오기
1-1. CSV 파일
1-2. Excel 파일
1-3. JSON 파일
2. 웹(web)에서 가져오기
2-1. HTML 웹 페이지에서 표 속성 가져오기
2-2. 웹 스크래핑
3. API 활용하여 데이터 수집하기
4. 데이터 저장하기
4-1. CSV 파일로 저장
4-2. JSON 파일로 저장
4-3. Excel 파일로 저장
4-4. 여러 개의 데이터프레임을 하나의 Excel 파일로 저장

PART 3. 데이터 살펴보기
1. 데이터프레임의 구조
1-1. 데이터 내용 미리보기
1-2. 데이터 요약 정보 확인하기
1-3. 데이터 개수 확인
2. 통계 함수 적용
2-1. 평균값
2-2. 중간값
2-3. 최대값
2-4. 최소값
2-5. 표준편차
2-6. 상관계수
3. 판다스 내장 그래프 도구 활용

PART 4. 시각화 도구
1. Matplotlib - 기본 그래프 도구
1-1. 선 그래프
1-2. 면적 그래프
1-3. 막대 그래프
1-4. 히스토그램
1-5. 산점도
1-6. 파이 차트
1-7. 박스 플롯
2. Seaborn 라이브러리 - 고급 그래프 도구
3. Folium 라이브러리 - 지도 활용

PART 5. 데이터 사전 처리
1. 누락 데이터 처리
2. 중복 데이터 처리
3. 데이터 표준화
3-1. 단위 환산
3-2. 자료형 변환
4. 범주형(카테고리) 데이터 처리
4-1. 구간 분할
4-2. 더미 변수
5. 정규화
6. 시계열 데이터
6-1. 다른 자료형을 시계열 객체로 변환
6-2. 시계열 데이터 만들기
6-3. 시계열 데이터 활용

PART 6. 데이터프레임의 다양한 응용

1. 함수 매핑
1-1. 개별 원소에 함수 매핑
1-2. 시리즈 객체에 함수 매핑
1-3. 데이터프레임 객체에 함수 매핑
2. 열 재구성
2-1. 열 순서 변경
2-2. 열 분리
3. 필터링
3-1. 불린 인덱싱
3-2. isin( ) 메소드 활용
4. 데이터프레임 합치기
4-1. 데이터프레임 연결
4-2. 데이터프레임 병합
4-3. 데이터프레임 결합
5. 그룹 연산
5-1. 그룹 객체 만들기(분할 단계)
5-2. 그룹 연산 메소드(적용-결합 단계)
6. 멀티 인덱스
7. 피벗

PART 7. 머신러닝 데이터 분석
1. 머신러닝 개요
1-1. 머신러닝이란?
1-2. 지도 학습 vs 비지도 학습
1-3. 머신러닝 프로세스
2. 회귀분석
2-1. 단순회귀분석
2-2. 다항회귀분석
2-3, 다중회귀분석
3. 분류
3-1. KNN
3-2. SVM
3-3. Decision Tree
4. 군집
4-1. k-Means
4-2. DBSCAN

한줄 서평