-
Notifications
You must be signed in to change notification settings - Fork 7
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
스터디 진행 History #1
Comments
1주차진행내용
과제:Introduction to Google Colab and PySpark 요 노트북 잘근잘근 물고 뜯어보고 오셔요! [심화 과제] 다음주 스터디 마스터: 승위 |
2주차Introduction to Google Colab and PySparkhttps://colab.research.google.com/drive/1G894WS7ltIUTusWWmsCnF_zQhQqZCDOc#scrollTo=1qV6Grv7qIa9 진행내용
준영현재까지 8. DataFrame Operations on Rows까지 코드 실행하고 여러가지 다른 코드도 실행 시켜보고 노션에 정리했습니다! 승빈저도 한 번 읽고 실습해보았습니다~ 준영안녕하세요! 나른한 주말 오후입니다 🥱 다름이 아니고, 어제 승빈 선배님께서 공유해주신 노션 페이지에서 궁금하신 부분이라고 작성한 부분을 읽어봤습니다. 개인적으로 ‘빅테이터를 지탱하는 기술’이라는 책을 읽고 있었는데, 마침 3번 궁금증에 관한 내용을 책에서 읽었던 것 같아 부족하지만 조금이라도 도움이 되고자 제 생각을 공유드립니다! 다음은 책의 일부 내용입니다.
또, 모든 분산 시스템이 Hadoop에 의존하는 것이 아니라, Hadoop의 일부만 사용하거나 혹은 전혀 이용하지 않는 구성도 있다고 합니다. HDFS는 일반 디스크(가정용 컴퓨터)에 들어가는 작은 파일을 저장할 때는 필요하지 않고, 파일의 크기가 너무 커서 단일 디스크에 저장하지 못하거나 혹은 저장할 수 있더라도 분산 처리의 속도와 안정성을 위해 클러스터 내 여러 컴퓨터에 나누어야 할 경우엔 HDFS가 필요한 것으로 알고 있습니다. 그래서 분산 시스템의 목적에 맞게 Hadoop의 구성 요소를 조합할 수 있고, 대용량 파일을 분산 저장해야 해서 파일 시스템에 HDFS가 필요한 경우가 있기 때문에 HDFS가 Hadoop의 구성 요소로써 필요하다고 생각합니다. 반대로 HDFS가 적합하지 않은 경우에, 분산 시스템의 이점을 기반으로 빠른 응답 시간을 원한다면 HBase가 대안이 될 수 있다고 합니다.! 2번 궁금증에 관한 내용은 구글링을 하다가 도움이 될 만한 문서를 찾았습니다. 아래 링크의 “사용 사례 비교: Hadoop과 Spark” 부분이 궁금증에 관해서 도움이 될 것 같아서 공유드립니다! https://aws.amazon.com/ko/compare/the-difference-between-hadoop-vs-spark/ 태용https://www.notion.so/invite/5dc19cc70d3ca5e64a04b001a3c8204d2b5f59f9 성온저도 개인사유로 스터디전에 공유합니다! https://s-on.notion.site/1-7b8f5f637b804c718f6b4a7055c9ecb8?pvs=25 과제https://colab.research.google.com/drive/1BKHk-63x0TvZ1b-YUV2vAnNKwfIYWRiW?usp=sharing |
3주차다뤄볼 코드movie_data_template.py: https://colab.research.google.com/drive/1BKHk-63x0TvZ1b-YUV2vAnNKwfIYWRiW?usp=sharing 진행내용
성온영화 장르에 중복 데이터가 있는 것 같은데 맞을까요? 🧐 ——————————————————————— Toy Story(movie_id : 1) 이면서 아래 mgenreId 와 genre 를 가짐
이것을 어떻게 봐야할까? 하나의 영화가 여러개의 장르를 가질 수는 있다. (가족, 코미디) 원본 데이터의 이슈로 보이는데 movie_genres > movie_id, genre 를 기준으로 중복 제거해야 할 것 같다. 현재 table 구조상 mgenre_id 는 다른 테이블과의 key 로 사용되지 않으므로 중복 제거 과정에서 유실되어도 이슈 없어보인다. 준영제가 봤을 때도 모든 영화가 같은 장르가 두번 반복되어 저장되어있네요! 말씀해주신 "원본 데이터의 이슈로 보이는데 movie_genres > movie_id, genre 를 기준으로 중복 제거해야 할 것 같다." 이 말씀에 같은 생각입니다. 지난 주에 학습했던 노트북의 "Best Practices - 3. Drop Duplicates early." 부분이 떠올랐습니다! 좋은 정보 감사합니다! 다들 월요일 화이팅하세요!! 태용성온님, 준영님 말씀대로 movie_genres > movie_id, genre를 기준으로 중복 제거를 하고 나니, 과제 2번의 답이 아래와 같이 바뀌었는데요, 각 genre의 highRatedCount는 정확히 절반 값으로 바뀌었고, lowRatedCount도 절반 가까이 줄었네요. 혹시 다들 이렇게 나오셨는지 여쭤봐도 괜찮을까요? 성온highRatedCount 는 동일한데 lowRated Count 는 차이가 있네요 성온https://github.com/so3500/2024-spark/blob/main/PySpark_study_playground_by_ON.ipynb 초반부에 세팅하고 마지막에 peek 정의하는 부분 참고하시면 좋을 것 같습니다! 태용과제과제는 토요일 자정까지 각자 구글 코랩에 과제 명세 작성해서 PR 생성하는 방식으로 올려보시죠! 3주차_과제_원본데이터.zip |
4주차각자의 문제 취합해서 풀어온 결과 서로 공유해보기
csv 파일 여러 개를 하나의 Dataframe으로 생성하는 법!
진행내용
|
4주차 과제 공지 |
6월 20일 스터디 대화방 개설
공지
스터디원들의 인사 한 마디
스터디 시간: 매주 수요일 저녁 9시 ~
The text was updated successfully, but these errors were encountered: