2019. 4. 16. 19:48ㆍData Science/Statistics
<출처 plotly library box plot 그래프 예시>
Box Plot을 한번쯤 본사람은 있어도 해당 표식 하나하나가 어떠한 의미인지 알고 있는 사람들은 드물 것 같다.
* Box & whisker plot이라고도함
전공자나 해당없게 종사자는 당연히 알것 같고.. 불특정 다수가 블로그에 들어온다는 가정하에
여기에 몇가지 필자가 이해한 설명을 추가해서 남기려고 한다.
(출처 : OpenIntro Statistics, 3판 35p.)
first Quartile : 25 %의 data가 해당 표시 아래에 있다는 의미이다.
third quartile : 75%의 data가 해당 표시 아래에 있다는 의미..
median : 중간값.
Box안은 25~75% 비율 사이의 data가 위치한다는 이야기이다.
이 사이간격이 중요해서 IQR이라고 일컷는다. (intel quartile range)
lower wisker 0%~25% 까지의 data 영역.
upper wisker 75~100% 까지의 data 영역
단, Box로부터 upper기준 Q3으로부터 1.5 IQR이상으로 크거나
lower기준 Q1으로부터 1.5 IQR이상 작으면
Outlier라고 칭한다. (다른 Data와 뜬금포로 차이나는 놈들이다 무시하도록 하자.)
그래서 lower wisker나 upper wisker는 box로부터 1.5xIQR거리 이상 크거나 작을수 없다.