-
[혼공데분] 4주차 데이터 요약하기혼공공부단11기_혼공데분 2024. 1. 23. 00:23
벌써 4주차네요...4장은 기술통계량 구하는 내용이라 전반적으로 전 챕터보다 쉬운 느낌입니다.
4-1 기본적으로 데이터프레임의 컬별 데이터를 파악하기에 좋은 describe() 메서드 소개한다. percentile 매개변수로 기본적으로 제공되는 25% 50%, 75% 이외의 percentile을 확인 가능하다. 기본적으로는 수치형 열만 나오지만 include = '데이터타입' 으로 다른 데이터 타입의 기술통계도 볼 수 있다. 그 외 평균, 최대최소, 분산 등 값을 구하는 메서드도 설명한다.
4-2 시각화에 대한 부분이다. matplotlib 패키지를 사용한 산점도, 히스토그램, 상자그림 등을 그리는 방법을 다룬다.
*기본 미션(p279 Q5)
주어진 데이터에서 '발행년도'열의 히스토그램을 그리는 코드 작성하기
책 하단에 hint를 보고 작성했다ㅋㅋ
selected_rows = (ns_books7['발행년도']>=1980&ns_books['발행년도']<=2022)
plt.hist(ns_books7.loc[selected_rows , '발행년도'])
plt.show()
소감: 전 챕터보다 쉬워서 좋았고 기본적으로 EDA할 때 참고하기에 좋은 내용이 있어서 좋은 것 같다. 코딩 위주의 책인데도 분산 계산시의 자유도 개념을 다루고 있어서 신기했다
'혼공공부단11기_혼공데분' 카테고리의 다른 글
[혼공데분] 6주차 복잡한 데이터 표현하기 (0) 2024.02.07 [혼공데분] 5주차 데이터 시각화하기 (0) 2024.01.30 [혼공데분] 3주차 데이터 정제하기 (1) 2024.01.15 [혼공데분] 2주차 데이터 수집하기 (1) 2024.01.08 [혼공데분] 1주차 데이터 분석을 시작하며 (0) 2024.01.02