혼공공부단11기_혼공데분
-
[혼공데분] 11기 활동 회고혼공공부단11기_혼공데분 2024. 2. 12. 18:15
https://hongong.hanbit.co.kr/%ED%98%BC%EA%B3%B5-%EA%B2%8C%EC%8B%9C%ED%8C%90/?uid=150&mod=document&pageid=1 1월초에 시작한 혼공학습단 11기 활동이 이번주에 끝나서 회고를 쓰게되었습니다. 새해를 알차게 시작하고 싶어서 참여한 활동인데 벌써 끝났다는 점이 아쉽기도 하고 놀랍네요. 책 자체가 그리 두꺼운 편은 아니긴한데 남은 분량도 있어서 시간날때 마저 읽을 생각입니다. 일단 활동하면서 가장 좋았던 점은, 매주 분량과 미션이 정해져있고 글써서 올려야한다는 의무감이 든다는 점이었습니다. 같은 책을 택한 다른 참여자들도 있으니까 시간날때는 페북 링크를 타고 다른 사람들의 활동내용을 보기도 하면서 더 배울 수 있었네요. 저는 첫 ..
-
[혼공데분] 6주차 복잡한 데이터 표현하기혼공공부단11기_혼공데분 2024. 2. 7. 23:35
마지막 주이지만 뒤에 chapter7과 부록도 나중에 읽어볼 생각입니다 이번장도 그래프 그리는 내용이고 좀 더 복잡한 데이터와 그래프를 그리는 법을 다룬다고 합니다. 6-1 객체지향 API를 사용한 그래프 그리는 법을 다루고 있습니다. 객체지향 API라는 말이 어려울 수 있는데 plt로 바로 그래프 그리고 이것저것 설정하는 것이 아니라 fig, ax = plt.subplts()로 선언한 후에 fig, ax를 다루는 방식이라고 생각하면 될 것 같습니다. 폰트 설정하는 방법도 다룹니다. * font.family 속성을 이용하는 방법: plt.rcParams['font.family'] = '폰트명' * rc()함수를 이용하는 방법: plt.rc('font', family = '폰트명') 그 외 산점도의 마커 ..
-
[혼공데분] 5주차 데이터 시각화하기혼공공부단11기_혼공데분 2024. 1. 30. 21:01
5주차는 데이터 시각화 내용이고 다루는 라이브러리는 matplotlib 5-1 matplotlib으로 그래프 그리는 내용입니다. figure로 차트 사이즈 조절하는 부분 까지는 시각화 조금만 공부한 분들이라면 아시겠지만 DPI 고려해서 현실에서 원하는 크기로 출력하는 건 처음 봐서 신기했습니다. bbox_inches 옵션도 저는 처음 봤어요. 당장 쓸데는 없을 것 같긴한데 뭔가 알아두면 좋을 느낌? 세계가 넓어진 느낌? 입니다...rcParam과 서브플롯 내용도 다뤄요 * print(plt.rcParams['figure.figsize']): 기본 그래프 크기 출력 * print(plt.rcParams['figure.dpi']): 기본 DPI 출력 (교재에 기본 그래프라고 써있는데 오차일까요? 제가 잘못생..
-
[혼공데분] 4주차 데이터 요약하기혼공공부단11기_혼공데분 2024. 1. 23. 00:23
벌써 4주차네요...4장은 기술통계량 구하는 내용이라 전반적으로 전 챕터보다 쉬운 느낌입니다. 4-1 기본적으로 데이터프레임의 컬별 데이터를 파악하기에 좋은 describe() 메서드 소개한다. percentile 매개변수로 기본적으로 제공되는 25% 50%, 75% 이외의 percentile을 확인 가능하다. 기본적으로는 수치형 열만 나오지만 include = '데이터타입' 으로 다른 데이터 타입의 기술통계도 볼 수 있다. 그 외 평균, 최대최소, 분산 등 값을 구하는 메서드도 설명한다. 4-2 시각화에 대한 부분이다. matplotlib 패키지를 사용한 산점도, 히스토그램, 상자그림 등을 그리는 방법을 다룬다. *기본 미션(p279 Q5) 주어진 데이터에서 '발행년도'열의 히스토그램을 그리는 코드 작..
-
[혼공데분] 3주차 데이터 정제하기혼공공부단11기_혼공데분 2024. 1. 15. 23:51
이번 챕터는 데이터 전처리하는 방법에 대한 내용을 다루고 있고, 3-1은 불필요한 데이터 삭제하는 방법을 다룬다. loc 메서드 불리언 배열을 이용한 원소별 비교(이전 챕터 기본 미션 풀면서 말했던 T/F를 이용한 슬라이싱인데 그때는 어색해보였는데 열이름에 사용하는 예를 보니까 친숙하네...) drop() 메서드 결측값 na 삭제를 위해선 dropna() 메서드를 사용 [] 연산자 (loc 메서드와 달리 마지막 인덱스는 포함 안함) 삭제만 다루는 줄 알았는데 그건 아니고 뒤에 중복된 행 검사하는 duplicated() 메서드도 나오고 groupby() 메서드, copy() 메서드도 나온다. 갑자기 분량 많아져서 하루에 진도 다 빼기 힘들어졌음... 3-2는 잘못된 데이터(NaN)를 수정하는 방법을 다룬다..
-
[혼공데분] 2주차 데이터 수집하기혼공공부단11기_혼공데분 2024. 1. 8. 22:15
2-1 데이터를 API 형식으로 가져오는 방법에 관한 내용이다. 예전 내가 데분 처음 공부하던 시절...에는 API로 데이터 수집하는 상황에 대한 가정을 하는 것을 못봤는데 현업에서 일하다보면 API로 데이터 받아올때가 있기 때문에 유용한 내용이라 생각했다. JSON, XML 형식의 데이터를 읽는 방법부터 내용시작해서 API로 데이터 가져오는 부분 실습했다. 2-2는 웹 스크래핑(크롤링) 관련 파트이다. 크롤링 내용 자체도 유익했지만 데이터프레임의 전체 열이나 행에 함수 적용하는 방법에 대해서 for문->apply메서드->lambda함수순으로 장점을 알려주며 설명한 점이 좋았다. 그리고 크롤링쪽은 나는 잘 몰라서 남들은 다 아는 정보일수도 있는데, 웹페이지의 robots.txt파일에서 접근 허가/불허한 ..
-
[혼공데분] 1주차 데이터 분석을 시작하며혼공공부단11기_혼공데분 2024. 1. 2. 23:42
초반 1-1은 데이터 분석, 데이터 과학이란? 데이터 분석가는 무슨 일을 하는 사람이고 데이터 분석을 위해선 어떤 기술을 쓰는 지에 대한 내용이다. 1-2는 colab 관련 내용. 1-1과 마찬가지로 나에게 새로운 내용 없겠거니 하고 넘기다가... 코랩 툴바에 Latex 수식 작성 기능있다는 거 처음 알았다. 코랩 평소에 안쓰긴하지만 유용한 기능이 많네 * 코랩 노트북은 한번에 최대 5개까지 실행가능하고 한 노트북은 12시간 이상 실행가능하다고 한다.(그전에 런타임 안끊기게 하는게 더 어려울 것 같지만) 1-3은 공공데이터를 활용한 간단한 실습내용이다.(아직 데이터 분석 실습은 아니고 데이터 읽기 저장하기 내용밖에 없다) 실습 내용 자체는 간단한데 초반 파일 인코딩이나 한글 인식 관련한 내용은 기초 분석..
-
혼공학습단 11기 활동시작합니다혼공공부단11기_혼공데분 2024. 1. 1. 21:34
혼공학습단 11기 공지: https://hongong.hanbit.co.kr/%ed%98%bc%ea%b3%b5-%ea%b2%8c%ec%8b%9c%ed%8c%90/?uid=142&mod=document&pageid=1 [혼공학습단 11기] 스터디 활동과 도서별 커리큘럼 안내 안녕하세요, 한빛미디어 혼공학습단의 🧙♀️혼공족장🧙♀️입니다. 혼공학습단 활동과 도서별 커리큘럼 안내 드립니다. 11기 활동 기간 1주차: 1월 2일 ~ 1월 7일 2주차: 1월 8일 ~ 1월 14 hongong.hanbit.co.kr 어떻게 찾았는지 기억안나는데 새해 첫 공부시작하기에 좋아보여서 신청했고 합격(?)했습니다. 내일(1/2)부터 2/12까지 열심히 해야겠네요. 선택도서는 '데이터 분석 with 파이썬'입니다. 교보문고..