Skip to content

Latest commit

 

History

History
590 lines (430 loc) · 21.1 KB

2020-05-07-visualization.md

File metadata and controls

590 lines (430 loc) · 21.1 KB

시각화 도구

Matplotlib

데이터 분석시 다루는 데이터의 종류는 매우 다양하며, 크기 또한 방대한 경우가 많다. 시각화를 통해 데이터의 구조와 패턴을 파악하기 용이하며, 다양한 관점에서 데이터에 대한 통찰력을 제공한다.

Matplotlib은 파이썬 표준 시각화 도구라고 부를 수 있을 정도로 2D 평면 그래프에 대한 다양한 포맷과 기능을 제공하고 있다.

필요 라이브러리 import

import matplotlib as mlp
import matplotlib.pyplot as plt

데이터 시각화에 사용할 matplotlib.pyplot 모듈을 import해 사용한다.

한글 출력 오류

numpy를 이용해 임의로 데이터를 생성해서 그래프를 그려볼 것이다.

import matplotlib as mpl
import matplotlib.pyplot as plt
import numpy as np

mpl.rcParams['axes.unicode_minus'] = False # minus 깨짐 설정

data = np.random.randint(-100,100,50).cumsum() # cumsum : 배열 원소들의 누적 합을 계산
print(data)
array([ -68,   10,   90,  172,  132,   56,   21,   59,    9,  -60,  -48,
         23,   68,   -7,  -21,   75,   30,  -58, -102, -141,  -51,   42,
        108,   63,  -31,  -87, -171, -244, -171, -271, -234, -209, -284,
       -252, -177, -191, -249, -162, -199, -106, -152, -234, -232, -178,
       -270, -171, -128, -181, -195, -129])

plt.plot(range(50), data, 'r')
[<matplotlib.lines.Line2D object at 0x11a3bb358>]
plt.ylabel('주식 가격')
Text(0, 0.5, '주식 가격')
plt.xlabel('시간(분)')
Text(0.5, 0, '시간(분)')
plt.show()

한글 깨짐

차트 제목과 축 이름을 한글로 설정해 출력하는 경우 다음 오류메시지와 함께 깨지는 경우가 발생할 수 있다.

...
.pyenv/versions/pandas/lib/python3.7/site-packages/matplotlib/backends/backend_agg.py:183: RuntimeWarning: Glyph 44221 missing from current font.
  font.set_text(s, 0, flags=flags)

우선 시스템에 설정된 폰트를 확인할 수 있다.

>>> mpl.get_configdir()
'/Users/jeongdaye/.matplotlib'
$ cd /Users/jeongdaye/.matplotlib
$ ls -al
total 232
drwxr-xr-x   4 jeongdaye  staff     128  4 28 17:25 .
drwxrwxr-x+ 83 jeongdaye  staff    2656  5  8 10:10 ..
-rw-r--r--   1 jeongdaye  staff  116875  4 28 17:25 fontlist-v310.json
drwxr-xr-x   2 jeongdaye  staff      64  4 28 17:25 tex.cache

fontlis-v310.json에 현재 사용할 수 있는 폰트들이 있는 것을 확인할 수 있다.

>>> font_list = fm.findSystemFonts(fontpaths=None, fontext='ttf')
>>> font_list = fm.fontManager.ttflist

fontmanager로 현재 시스템에 설정된 폰트들을 확인할 수 있다. 설정할 폰트명을 다음과 같이 가져올 수 있다.

>>> [(f.name, f.fname) for f in fm.fontManager.ttflist if 'D2Coding' in f.name]
[('D2Coding', '/Users/jeongdaye/Library/Fonts/D2Coding-Ver1.3.2-20180524-all.ttc')]

3가지 방법으로 폰트를 설정할 수 있다.

  1. FontProperties 사용하기 : 그래프의 폰트가 필요한 항목마다 지정
path = '/Library/Fonts/NanumSquareRoundR.ttf'
fontprop = fm.FontProperties(fname=path, size=18)
plt.plot(range(50), data, 'r')
plt.title('시간별 가격 추이', fontproperties=fontprop)
plt.ylabel('주식가격', fontproperties=fontprop)
plt.xlabel('시간(분)',fontproperties=fontprop)
  1. matplotlib.rcParams[]로 전역글꼴 설정 방법 - 그래프에 설정을 해주면 적용
plt.rc('font', family='D2Coding')
plt.rcParams['font.family'] = 'D2Coding'
plt.rcParams['font.size'] = 18
print(plt.rcParams['font.family'])
['D2Coding']
  1. 2번 방법을 mpl.matplotlib_fname()로 읽어지는 설정 파일에 직접 해주는 방법.
>>> mpl.matplotlib_fname()
/Users/jeongdaye/.pyenv/versions/pandas/lib/python3.7/site-packages/matplotlib/mpl-data/matplotlibrc

설정 파일에서 font.famliy를 cumstom 설정해주면 재 실행할 때마다 다시 설정하지 않아도 된다.

$ vim /Users/jeongdaye/.pyenv/versions/pandas/lib/python3.7/site-packages/matplotlib/mpl-data/matplotlibrc
##
## Note that font.size controls default text sizes.  To configure
## special text sizes tick labels, axes, labels, title, etc, see the rc
## settings for axes and ticks.  Special text sizes can be defined
## relative to font.size, using the following values: xx-small, x-small,
## small, medium, large, x-large, xx-large, larger, or smaller

font.family  : D2Coding
#font.style   : normal
#font.variant : normal
#font.weight  : normal
#font.stretch : normal
#font.size    : 10.0

image-20200508105230830

마이너스 폰트 출력 설정

그래프에서 마이너스 폰트가 깨지는 문제에 대해 대처할 수 있다.

mpl.rcParams['axes.unicode_minus'] = False

KOSIS의 시도별 전출입 인구수 데이터를 시각화해볼 것이다.

>>> import pandas as pd
>>> import matplotlib.pyplot as plt
>>> df = pd.read_excel('시도별 전출입 인구수.xlsx', fillna=0, header=0)
>>> df.head()
   전출지별   전입지별      1970      1971      1972      1973      1974      1975      1976  ...      2009      2010      2011      2012      2013      2014      2015      2016      2017
0  전출지별   전입지별  이동자수 ()  이동자수 ()  이동자수 ()  이동자수 ()  이동자수 ()  이동자수 ()  이동자수 ()  ...  이동자수 ()  이동자수 ()  이동자수 ()  이동자수 ()  이동자수 ()  이동자수 ()  이동자수 ()  이동자수 ()  이동자수 ()
1    전국     전국   4046536   4210164   3687938   4860418   5297969   9011440   6773250  ...   8487275   8226594   8127195   7506691   7411784   7629098   7755286   7378430   7154226
2   NaN  서울특별시   1742813   1671705   1349333   1831858   2050392   3396662   2756510  ...   1873188   1733015   1721748   1555281   1520090   1573594   1589431   1515602   1472937
3   NaN  부산광역시    448577    389797    362202    482061    680984    805979    724664  ...    519310    519334    508043    461042    478451    485710    507031    459015    439073
4   NaN  대구광역시         -         -         -         -         -         -         -  ...    398626    370817    370563    348642    351873    350213    351424    328228    321182

NaN 데이터가 들어 있는 것을 확인할 수 있다. 누락 데이터는 method=ffill 옵션을 사용하면 누락데이터가 들어있는 행의 바로 앞에 위치한 행의 데이터 값을 채울 수 있다.

>>> df = df.fillna(method='ffill')
>>> df.head()
   전출지별   전입지별      1970      1971      1972      1973      1974      1975      1976  ...      2009      2010      2011      2012      2013      2014      2015      2016      2017
0  전출지별   전입지별  이동자수 ()  이동자수 ()  이동자수 ()  이동자수 ()  이동자수 ()  이동자수 ()  이동자수 ()  ...  이동자수 ()  이동자수 ()  이동자수 ()  이동자수 ()  이동자수 ()  이동자수 ()  이동자수 ()  이동자수 ()  이동자수 ()
1    전국     전국   4046536   4210164   3687938   4860418   5297969   9011440   6773250  ...   8487275   8226594   8127195   7506691   7411784   7629098   7755286   7378430   7154226
2    전국  서울특별시   1742813   1671705   1349333   1831858   2050392   3396662   2756510  ...   1873188   1733015   1721748   1555281   1520090   1573594   1589431   1515602   1472937
3    전국  부산광역시    448577    389797    362202    482061    680984    805979    724664  ...    519310    519334    508043    461042    478451    485710    507031    459015    439073
4    전국  대구광역시         -         -         -         -         -         -         -  ...    398626    370817    370563    348642    351873    350213    351424    328228    321182

서울에서 다른 지역으로 이동한 데이터만 추출하여 데이터를 정리할 수 있다.

>>> mask = (df['전출지별'] == '서울특별시') & (df['전입지별'] != '서울특별시')
>>> mask
0      False
1      False
2      False
3      False
4      False
       ...
320    False
321    False
322    False
323    False
324    False
Length: 325, dtype: bool
>>> df_seoul = df[mask]
>>> df_seoul = df_seoul.drop(['전출지별'], axis=1)
>>> df_seoul.rename({'전입지별':'전입지'},axis=1,inplace=True)
>>> df_seoul.set_index('전입지', inplace=True)
>>> df_seoul.head()
          1970     1971     1972     1973     1974     1975     1976     1977     1978  ...     2009     2010     2011     2012     2013     2014     2015     2016     2017
전입지                                                                                     ...
전국     1448985  1419016  1210559  1647268  1819660  2937093  2495620  2678007  3028911  ...  1925452  1848038  1834806  1658928  1620640  1661425  1726687  1655859  1571423
부산광역시    11568    11130    11768    16307    22220    27515    23732    27213    29856  ...    17738    17418    18816    16135    16153    17320    17009    15062    14484
대구광역시        -        -        -        -        -        -        -        -        -  ...    10464    10277    10397    10135    10631    10062    10191     9623     8891
인천광역시        -        -        -        -        -        -        -        -        -  ...    45392    46082    51641    49640    47424    43212    44915    43745    40485
광주광역시        -        -        -        -        -        -        -        -        -  ...    11725    11095    10587    10154     9129     9759     9216     8354     7932

선 그래프

그 중 경기도로 이동한 데이터를 추출해 그래프로 그리면 다음과 같다.

>>> sr_one = df_seoul.loc['경기도']
>>> sr_one.head()
1970    130149
1971    150313
1972     93333
1973    143234
1974    149045

Name: 경기도, dtype: object
>>> plt.plot(sr_one.index, sr_one.values)
[<matplotlib.lines.Line2D object at 0x11a80f278>]
>>> plt.show()

image-20200506154933205

plt.plot(sr_one)

다음과 같이 객체를 전달해도 똑같은 결과를 얻을 수 있다.

차트 제목, 축 이름 추가

plt.title('차트제목')
plt.xlabel('x축이름')
plt.ylabel('y축이름')
>>> plt.plot(sr_one.index, sr_one.values)
[<matplotlib.lines.Line2D object at 0x11409fe80>]
>>> plt.ylabel('이동 인구수')
Text(0, 0.5, '이동 인구수')
>>> plt.xlabel('기간')
Text(0.5, 0, '기간')
>>> plt.title('서울 -> 경기 인구 이동')
Text(0.5, 1.0, '서울 -> 경기 인구 이동')
>>> plt.show()

그래프 꾸미기

  • 그래프 가로, 세로 사이즈 설정하기
plt.figure(figsize=(width, height))
  • x축/y축 범위 지정(최소/최대)
plt.xlim(min, max)
plt.ylim(min, max)
  • x축/y축 라벨 설정
plt.xticks(rotation='vertical') # 라벨 회전
plt.xticks(size=n) # 폰트 크기 설정

plt.yticks(rotation=n) # n도 만큼 회전
plt.yticks(size=n)# 폰트 크기 설정
  • 범례
plt.legend(labels=['라벨'],loc='위치')

loc는 범례를 어느 위치에 노출시킬 것인지 지정하는 옵션이다. loc='best'는 자동으로 최적의 위치를 계산하여 노출시킨다.

Location String Location Code
'best' 0
'upper right' 1
'upper left' 2
'lower left' 3
'lower right' 4
'right' 5
'center left' 6
'center right' 7
'lower center' 8
'upper center' 9
'center' 10
>>> plt.figure(figsize=(14,5))
<Figure size 1400x500 with 0 Axes>
>>> plt.xticks(rotation='vertical')
(array([0. , 0.2, 0.4, 0.6, 0.8, 1. ]), <a list of 6 Text major ticklabel objects>)
>>> plt.plot(sr_one.index, sr_one.values)
[<matplotlib.lines.Line2D object at 0x11c2222e8>]
>>> plt.xlabel('기간')
Text(0.5, 0, '기간')
>>> plt.ylabel('이동 인구수')
Text(0, 0.5, '이동 인구수')
>>> plt.title('서울->경기 인구 이동')
Text(0.5, 1.0, '서울->경기 인구 이동')
>>> plt.legend(labels=['서울->경기'],loc='best')
<matplotlib.legend.Legend object at 0x11c1f96d8>
>>> plt.show()

image-20200507115537210

스타일 서식 지정

색, 폰트 등 디자인 요소를 변경할 수 있는데, 이는 Matplotlib 실행 환경 설정을 변경하는 것이므로, 다른 파일을 실행할 때도 계속 적용되는 점에 유의한다.

  • 테마 설정하기
plt.style.use('테마명')

이때 어떤 종류가 있는지 확인 할 수 있다.

>>> print(plt.style.available)
['Solarize_Light2', '_classic_test_patch', 'bmh', 'classic', 'dark_background', 'fast', 'fivethirtyeight', 'ggplot', 'grayscale', 'seaborn', 'seaborn-bright', 'seaborn-colorblind', 'seaborn-dark', 'seaborn-dark-palette', 'seaborn-darkgrid', 'seaborn-deep', 'seaborn-muted', 'seaborn-notebook', 'seaborn-paper', 'seaborn-pastel', 'seaborn-poster', 'seaborn-talk', 'seaborn-ticks', 'seaborn-white', 'seaborn-whitegrid', 'tableau-colorblind10']

https://matplotlib.org/gallery/style_sheets/style_sheets_reference.html 에서 어떻게 적용되는지 확인할 수 있다.

  • 마커 설정
plt.plot(x축, 
         y축, 
         marker='O', 			# 마커 모양
         markersize=10, 	# 마커 크기
         markerfacecolor='color', # 마커 색
         linewidth=n, 			# 선 굵기
         color='color'		# 선색상
        ) 
옵션 설명
'o' 선 그래프가 아닌 점 그래프로 표현
marker='o' 마커 모양('o', '+', '*', '.')
markerfacecolor='color' 마커 배경색
markersize=n 마커 크기
color='color' 선 색상
linewidth=n 선 두께
label='text' 라벨 지정

사용할 수 있는 색의 종류는 다음 방법으로 확인할 수 있다.

>>> import matplotlib.colors as mat_colors
>>> colors = {}
>>> for name, hex in mat_colors.cnames.items():
...     colors[name]=hex
...
>>> print(colors)
{'aliceblue': '#F0F8FF', 'antiquewhite': '#FAEBD7', 'aqua': '#00FFFF', 'aquamarine': '#7FFFD4', 'azure': '#F0FFFF', 'beige': '#F5F5DC', 'bisque': '#FFE4C4', 'black': '#000000', 'blanchedalmond': '#FFEBCD', 'blue': '#0000FF', 'blueviolet': '#8A2BE2', 'brown': '#A52A2A', ...}
import pandas as pd
import matplotlib.pyplot as plt

plt.rc('font', family='D2Coding')

df = pd.read_excel('./시도별 전출입 인구수.xlsx', fillna=0, header=0)
df = df.fillna(method='ffill') # NaN이전 행값과 같은 값으로 채우기

mask = (df['전출지별'] == '서울특별시') & (df['전입지별'] != '서울특별시')

df_seoul = df[mask]


df_seoul = df_seoul.drop(['전출지별'], axis=1)
df_seoul.rename({'전입지별':'전입지'}, axis=1, inplace=True)
df_seoul.set_index('전입지', inplace=True)


sr_one = df_seoul.loc['경기도']

plt.style.use('ggplot') # ggplot 스타일 사용
plt.figure(figsize=(14,5))

plt.xticks(size=10, rotation=90)
plt.plot(sr_one.index, sr_one.values, marker='o', markersize=10)

plt.title('서울 -> 경기 인구 이동', size=10)
plt.xlabel('기간', size=10)
plt.ylabel('이동 인구수', size=10)

plt.legend(labels=['서울 -> 경기'], loc='best', fontsize=15)

plt.show()

image-20200507150626871

  • 그래프 주석
plt.annotate('', 
               xy=(x1,y1), # 화살표 머리 부분
               xytext=(x2,y2), # 화살표 꼬리 부분
               xycoords='data', # 좌표체계
               arrowprops=() # 화살표 서식
              )

plt.annotate('텍스트', # 텍스트 입력
              xy=(x1,y1), # 텍스트 위치 기준점
              rotation=n,		# 텍스트 회전 각도
              va='baseline',	# 텍스트 상하 정렬
              ha='center',		# 텍스트 좌우 정렬
              fontsize=n,		# 텍스트 크기
              )
plt.ylim(50000, 800000) # y축 범위 지정


# 화살표 그리기(주석)
plt.annotate('', 
	xy=(20, 620000), 
	xytext=(2,290000), 
	xycoords='data', 
	arrowprops=dict(arrowstyle='->', color='skyblue',lw=5),
) 

plt.annotate('', 
	xy=(47, 450000), 
	xytext=(30,580000), 
	xycoords='data', 
	arrowprops=dict(arrowstyle='->', color='olive',lw=5),
) 


# 텍스트 표시(주석)
plt.annotate('인구 이동 증가(1970-1995)', # 텍스트 입력
	xy=(10,450000), # 텍스트 위치 기준점
	rotation=25,		# 텍스트 회전 각도
	va='baseline',	# 텍스트 상하 정렬
	ha='center',		# 텍스트 좌우 정렬
	fontsize=15,		# 텍스트 크기
	)

plt.annotate('인구 이동 감소(1995-2017)', # 텍스트 입력
	xy=(40,560000), # 텍스트 위치 기준점
	rotation=-11,		# 텍스트 회전 각도
	va='baseline',	# 텍스트 상하 정렬
	ha='center',		# 텍스트 좌우 정렬
	fontsize=15,		# 텍스트 크기
	)

plt.show()

image-20200507154012423

화면을 분할해 그래프 여러 개 그리기

화면을 여러개로 분할하고 분할된 각 화면에 서로 다른 그래프를 그릴 수 있다. 한 화면에서 여러개의 그래프를 비교하거나 다양한 정보를 동시에 보여줄 때 사용하면 좋다.

figure() 함수를 사용해 그래프를 그리는 그림틀을 만들고, 그림틀 객체에 add_subplot() 메소드를 적용하여 그림틀을 여러개로 분할할 수 있다. 이때 나눠진 각 부분을 axe 객체라고 부른다.

fig = plt.figure(figsize=(w,h))
axe = fig.add_subplot(, , 순서)
fig = plt.figure(figsize=(10,10))
axe1 = fig.add_subplot(2, 1, 1)
axe2 = fig.add_subplot(2, 1, 2)

axe1.plot(sr_one, 'o', markersize=10)
axe2.plot(sr_one, marker='o', markerfacecolor='green', markersize=10, color='olive', linewidth=2, label='서울 -> 경기')
axe2.legend(loc='best')

axe1.set_ylim(50000,800000)
axe2.set_ylim(50000,800000)

axe1.set_xticklabels(sr_one.index, rotation=75)
axe2.set_xticklabels(sr_one.index, rotation=75)

plt.show()

image-20200507155806647

동일한 그래프에 여러 개의 그래프 그리기

같은 axe 객체에 plot()으로 그래프 여러 개를 동시에 그릴 수 있다.

col_years = list(map(str, range(1970, 2018)))
df_3 = df_seoul.loc[['충청남도','경상북도', '강원도'], col_years]

fig = plt.figure(figsize=(20,5))
ax = fig.add_subplot(1,1,1)

ax.plot(col_years, df_3.loc['충청남도',:], marker='o', markerfacecolor='green', markersize=10, color='olive', linewidth=2, label='서울->충남')
ax.plot(col_years, df_3.loc['경상북도',:], marker='o', markerfacecolor='blue', markersize=10, color='skyblue', linewidth=2, label='서울->경북')
ax.plot(col_years, df_3.loc['강원도',:], marker='o', markerfacecolor='red', markersize=10, color='magenta', linewidth=2, label='서울->강원')

ax.legend(loc='best')

ax.set_title('서울 -> 충남, 경북, 강원 인구 이동', size=20)
ax.set_xlabel('기간', size=12)
ax.set_ylabel('인구 이동수', size=12)

ax.set_xticklabels(col_years, rotation=90)

ax.tick_params(axis='x', labelsize=10)
ax.tick_params(axis='y', labelsize=10)

plt.show()

image-20200507162614674

면적 그래프(area plot)

면적 그래프는 각 열의 데이터를 선 그래프로 구현하며, 선 그래프와 x축 사이의 공간이 색으로 채워진다. 색의 투명도(alpha)는 기본값 0.5로 투과되어 보인다.

이때 그래프를 누적할지 여부를 stacked=True 옵션으로 설정할 수 있다. stacked=False 로 옵션을 지정하면 각 열의 선 그래프들은 누적되지 않고 서로 겹치도록 표신된다.

df.plot(kind='area', stacked=bool, alpha=n, figsize(w,h))
df_4 = df_4.T
df_4.index = df_4.index.map(int)

df_4.plot(kind='area', stacked=False, alpha=0.2, figsize=(20,10))
plt.title('서울 -> 타도시 인구 이동', size=10)
plt.xlabel('기간', size=10)
plt.ylabel('이동 인구수', size=10)

plt.legend(loc='best', fontsize=15)

plt.show()

stacked=False

stacked=True

참고