혼공단/혼공단 8기

혼자 공부하는 R데이터분석 6장 - 데이터 시각화 : ggplot2 패키지

하양훈 2022. 8. 18. 22:29
반응형

06-1 그래프 그리기

 

데이터 시각화 : 복잡해보이는 수치 데이터를 이미지화하여 누구나 쉽게 내용을 이해할 수 있도록 시각적으로 전달하는 것.

 

<ggplot2 패키지>

- reshape2, dplyr패키지를 만든 해들리 위컴이 만든 패키지

- R 시각화 1순위 패키지

- 기본적으로 ggplot()함수를 이용하여 그래프 틀을 만들고, 그 안에 다양한 이미지 객체 레이어를 계속 포개는 방식으로 그래프를 표현한다.

 

<ggplot2 패키지 함수들>

함수 기능
geom_point() 산점도를 그린다.
geom_line() 선 그래프를 그린다.
geom_bar() 막대그래프를 그린다.
geom_boxplot() 상자그림을 그린다.
geom_histogram() 히스토그램을 그린다.

 

 

06-2 그래프에 객체 추가하기

 

<ggplot 그래프에 넣는 요소 함수들>

함수 기능
geom_abline() 그래프에 사선을 그린다.
geom_line() 그래프에 평행선을 그린다.
geom_vline() 그래프에 수직선을 그린다.
geom_text() 그래프 위에 레이블을 입력한다.
geom_annotate() 그래프에 도형을 그린다.
labs() 축이나 그래프에 제목을 입력한다.

 

<theme() 함수>

- 그래프의 여러 구성 요소 및 디자인을 지정되어 있는 형태로 일괄 변경할때 사용한다.

1) theme_gray() 함수 : 회색 바탕과 흰 선

2) theme_bw() 함수 : 흰 바탕과 회색 선

3) theme_linedraw() 함수 : 흰 바탕과 가늘고 검은 선

4) theme_light() 함수 : 밝은 회색 바탕

5) theme_dark() 함수 : 어두운 바탕

6) theme_minimal() 함수 : 단순한 배경

7) theme_classic() 함수 : 눈금과 안내선이 없는 기본 바탕

8) theme_void() 함수 : 가장 간결한 바탕

 

<회귀분석>

회귀분석 : 독립변수와 종속변수 간의 인과관계를 구하는 분석 비법

단순회귀분석 : 독립변수가 1개인 경우

다중회귀분석 : 독립변수가 2개 이상인 경우

독립변수 : 다른 변수의 변화에 영향을 받지 않은 독립적인 변수

종속변수 : 독립변수에 영향을 받아 변하는 변수, 분석의 대상

 

[단순회귀분석]

- 두 변수 간의 관계식을 도출하는 분석 기법

- 두 변수간의 선형성, 독립성, 정규분포, 등분산성을 가정하는 분석

- lm() 함수를 이용해 p-value, 기울기, 절편을 구할 수 있다.

lm(종속변수 ~ 독립변수, data = 데이터 세트)

- 두 변수간의 상관관계를 파악하려면 cor.test() 함수를 사용한다.

cor.test(data=테이블명$변수명1,테이블명$변수명2)

 

06-3 지도 시각화 : ggmap 패키지

 

<지도 시각화>

- 지도 상에 위치 데이터를 표시하여 보여주는 것

- 위치를 단순하게 좌표나 주소로 보여주는 것이 아닌 지도위에 직접 데이터를 표시함으로써 위치를 쉽게 파악할 수 있다.

- R에서는 지도를 API로 불러와 시각화를 할 수 있다.

- 구글지도는 물론 오픈스트리트맵, 스테이먼 맵 등을 지원한다.

- 이 중 구글지도는 ggmap 패키지로 불러올 수 있다.

 

<ggmap 패키지 함수>

함수 기능
register_google() 구글 지도 API키를 등록한다.
get_google_map() 위치 데이터로 구글 지도를 가져온다.
ggmap() 위치 데이터를 구글 지도로 시각화한다.
geocode() 위치를 포함하는 문자열(지명 혹은 주소)를 위도와 경도 값으로 반환한다.

 

반응형