본문 바로가기
  • 투자는 내가 산 자산을 누군가 더 비싼 가격에 사줘야 이기는 게임이다.
빅데이터분석

[기초통계학] Chapter 3. 기술통계분석

by 현秀 2024. 1. 1.

1. 기술통계학과 추리통계학

(1) 기술통계학

기술통계학이란 자료 수집을 통해 얻은 자료를 이용하여, 어떠한 판단이나 예측과 같은 주관이 섞일 수 있는 과정을 배제한 채 정보를 단순히 요약하고 기술하는 것(ex. 평균, 분산, 비율, 최대값, 최소값, 상관계수 등)

 

(2) 추리(추론)통계학

추리통계학은 기술통계로 얻어진 데이터로부터 유용한 정보를 추출하는 것(ex. 통계적 추정, 가설검정, 예측 등)


2. 기술통계량을 이용한 자료 분석

(1) 집중화경향(중심경향성)의 측정

집중화경향이란 자료가 어디에 집중되어 있는가를 하나의 대표적인 값으로 요약하여 나타낸 통계량

 

1) 평균(mean)

평균은 자료의 값들을 모두 더하고 이를 자료의 개수로 나눈 값

[파이썬 코드]

import numpy as np           # numpy 모듈(라이브러리)을 불러온다.

a = [1,2,3,4,5,100]           # 데이터를 리스트 변수로 설정한다.

np.mean(a)

 

2) 중앙값(median)

중앙값은 자료의 값들을 순서대로 나열했을 때 중앙에 위치한 값

- 평균에서 극단적으로 벗어난 값이 포함되어 있는 경우 유용

- 관측값의 개수가 홀수인 경우(n+1)/2번째 값, 짝수인 경우 n/2번째 값과 n+2/2번째 값의 평균

 

[파이썬 코드]

import numpy as np

a = [1,2,3,4,5,100]

np.median(a)

 

3) 최빈치(mode)

최빈치는 자료에서 가장 빈도가 높은 값

 

[파이썬 코드]

import numpy as np           # numpy 모듈(라이이브러리)을 불러온다.

from scipy import stats           # scipy 모듈에서 stats를 불러온다.

b = [1,2,3,4,5,5,100]

m = stats.mode(b)

 

(2) 산포경향의 측정

산포경향이란 자료가 어느정도 흩어져 있는지를 나타낸 통계량

 

1) 분산(var)

- 평균을 중심으로 자료의 흩어진 정도를 측정하는 척도

- 관측값과 평균의 차이인 편차를 제곱한 것을 관측값의 총수로 나눈 것

[파이썬 코드]

import numpy as np

b = [1,2,3,4,5,5,100]

vp = np.var(b)

 

2) 표준편차(std)

- 분산에 양의 제곱근을 취한 것

 

[파이썬 코드]

import numpy as np

b = [1,2,3,4,5,5,100]

sd = np.std(b) # 리스트인 b의 표준편차를 sd라는 변수로 설정한다.

 

3) 4분위수(percentile)

- 측정한 값을 낮은 순에서 높은 순으로 정렬한 후 4등분 했을 때 각 등위에 해당하는 값

 

[파이썬 코드]

import numpy as np

b = [1,2,3,4,5,5,100]

퀀타일25 = np.percentile(b,25) # 1/4분위수

퀀타일75 = np.percentile(b,75) # 2/4분위수

 


 

KICPA ALLDEMY(https://kicpa-alldemy.com/)의 재무빅데이터분석사2급 강의자료를 학습하고 정리한 글임을 미리 알려둡니다.