오늘은 구글 스프레드 시트를 이용해서 아주 간단한 빅데이터 분석을 해보려 합니다.
https://www.kaggle.com/c/titanic
우선 홈페이지에 들어가 join을 눌러 가입해주세요~
그 후 data를 누르고 쭈욱 스크롤을 내리다 보면, 파일이 있는 것을 볼 수 있어요.
세가지 다 다운 받아 주세요!
오늘은 train과 test 데이터만을 볼건데요.
train 데이터에는 survived에 대한 정보가 있고 test에는 없습니다.
이말인 즉슨, 우리는 여러 데이터 중 어떤 데이터가 survived에 영향을 주는지 확인해보는 것을 해볼 겁니다.
우선 데이터를 구글 스프레드 시트에 펼쳐주세요.
각각의 데이터가 어떤 것을 의미하는지는 홈페이지에 나와있습니다.
우선 하나의 가설을 세워주세요.
"여성일수록 생존율이 높을 것이다." 라는 가설을 세워볼께요.
그 후 1번줄을 클릭한 다음 파란색으로 체크되어있는 빈부분을 클릭하면 전체 부분이 선택됩니다.
그 후 상단에 있는 데이터 -> 피봇테이블을 클릭해주세요.
피봇테이블은 가설을 검증할 수 있는 툴입니다.
이때 대부분 행과 값을 이용할 거예요.
또 값은 두 개를 두는데 각각의 요약기준은 SUM과 COUNT로 고정됩니다.
이제 보고 싶은 데이터를 행에 추가하면 됩니다.
이제 가설이 맞는지 검증해보겠습니다.
여성이면 74.2%, 남성이면 18.89% 라니 우리의 가설이 맞다고 볼 수 있겠네요!
이제 예측을 해보면 되겠습니다.
test 파일에 가서, 복사를 눌러 사본을 만들어주세요.
그 다음에, Survived 컬럼을 넣어주세요.
이제 여성이면 1, 남성이면 0을 적어주면 되겠네요.
이때 IF(조건,참,거짓)에 대한 내용을 적어줘요.
제출하기 위해서 뒤에 칼럼들은 다 지워야 하는데,
바로 지우면 오류가 날 수 있습니다. 우리가 성별 컬럼을 가져왔기 때문이에요.
그래서 다시 Survived 컬럼을 복사하여 붙여넣기를 하면 함수가 사라지며 값만 남게됩니다.
그 상태로 저장해서 제출하면 됩니다.
번외)
1) 이번에는 '나이가 어릴수록 생존률이 높다'라는 가설을 세워보겠습니다.
1~55 등 연속적으로 존재할 수 있는 나이와 같은 컬럼은 구역을 나누어줘야합니다.
어른일 때가 어른아이일 때보다 생존률이 높으니, 가설이 실패했다고 볼 수 있습니다.
피봇테이블의 순서를 바꾸어 볼께요.
나이 컬럼 하나로만은 유의미한 결과를 얻을 수 없었지만,
다른 컬럼과 같이 봤을 때 유의미한 결과를 도출할 수 있습니다.
2) '가족은 같이 사망할 확률이 높다.'를 가정으로 잡은 후,
같은 성 + 가족구성원 수를 합쳐서 이름처럼 정한다음,
계산을 해볼 수도 있다.
'개발 > 빅데이터' 카테고리의 다른 글
머신러닝 decision tree 실습(feat. data 전처리) (0) | 2020.07.11 |
---|---|
[파이썬,머신러닝] graphviz 설치/실행 에러 해결 (7) | 2020.05.07 |
댓글