혼공단/혼공단 9기

혼자 공부하는 데이터 분석 with 파이썬 1장 - 데이터 분석을 시작하며

하양훈 2023. 1. 15. 17:46
반응형

01-1 데이터 분석이란

 

데이터 분석 : 데이터를 수집, 처리, 정제, 분석, 모델링하여 의사 결정을 내리는 데 도움을 주는 작업. 통계학과 머신러닝의 기술을 사용하고 비즈니스 문제를 해결하기 위해 도메인 지식이 필요하다.

 

데이터 과학 : 데이터 분석, 머신러닝을 아우르는 개념. 데이터 분석에 비해 머신러닝 모델을 만들어 문제를 해결하는데 많은 비중을 든다.

 

<데이터 분석에 필요한 도구>

- 데이터 분석, 데이터 과학, 머신러닝 작업에 사용할 수 있는 인기 있는 프로그래밍 언어는 파이썬이다.

넘파이(numpy) 과학 계산과 배열에 필요한 수학 패키지
판다스(pandas) 숫자와 문자를 섞어 표처럼 사용하는 데이터프레임 제공
맷플롯립(matplotlib) 동적,정적 그래프를 만들 수 있는 시각화 패키지
사이파이(scipy) 수학과 과학 계산 전문 패키지(미적분,선형대수 포함)
사이킷런(sklearn) 파이썬에서 사용하는 머신러닝 패키지

 

01-3 이 도서가 얼마나 인기가 좋을까요?

 

1) 데이터 찾기

 

- 데이터 분석을 하기 위해서는 분석 목적에 맞는 데이터를 찾아야 한다.

- 데이터는 다양하게 찾는 방법이 있지만 공개 데이터 세트를 활용하는게 많다.

- 공개 데이터 세트 : 기업이나 정부 등이 무료로 공개하는 데이터 세트. 누구나 저작권에 상관없이 다운로드하여 데이터 분석이나 제품 개발에 활용할 수 있다.

- CSV파일 : 콤마(,)로 구분된 텍스트 파일

 

 

 

파이썬으로 CSV 파일 출력하기

with open('파일이름.csv') as f:
    print(f.readline())

파일 인코딩 형식 확인하기 : chardet.detect() 함수

import chardet
with open('파일이름.csv',mode='rb') as f:
    d = f.readline()
print(chardet.detect(d))

CSV 파일을 데이터프레임으로 읽기: read_csv() 함수

import pandas as pd
df = pd.read_csv('파일이름.csv',encoding='EUC=KR',low_memory=False)

 

데이터프레임을 CSV 파일로 저장하기: to_csv() 함수

df.to_csv('파일이름.csv')
반응형