📊 DATA ANALYSIS 52

호텔 리뷰 상세 분석(1) 분석 배경, 목표 데이터 정의 및 수집 방법 구상

고객 피드백 분석을 통한 서비스 개선 전략알고 넘어가야 할 것[HTML와 CSS] 웹페이지 기초 지식, 만들어보고 배포까지웹페이지 동작 과정과 데이터 수집 방법(Python) 이해하기목차프로젝트 배경웹페이지 탐색목표데이터 정의프로젝트 배경제주 시내에 위치한 그랜드 하얏트 제주 호텔의 호텔 객실부 매니저 A씨의 리뷰 점수에 대한 지속적인 고민(성수기에 하락한 리뷰 점수)세부 story(객실부 매니저)성수기에 떨어지는 고객 리뷰 점수손님이 많아짐에 따라 리뷰도 많아지니 부정적리뷰도 많아지는게 당연한 것?action plan을 마련해야함호텔 내부의 실효적 문제까지 고려하여, 경험에 기반한 판단 대신 데이터를 근거로..분석목표고객 리뷰 데이터를 분석하여 문제점을 파악하고, 이를 바탕으로 서비스 개선(평점 향상)..

웹페이지 동작 과정과 데이터 수집 방법(Python) 이해하기

웹페이지 동작 과정* 서버는 일단 github라고 가정   HTTP 구성요소  브라우저의 역할 정리해보고,파이썬으로 웹페이지에서 데이터를 수집한다는 것의 의미를 알아보기  Python HTTP clients: RequestsPython에서 웹 서버와 HTTP/HTTPS 프로토콜을 사용하여 데이터 송수신== HTTP 요청을 만들어서 보내고 응답을 받는다용도: 웹 스크래핑, API 호출, 웹 서비스 통신 등종류:  Requests 라이브러리1) request 2) get  3) Response 속성   Requests 사용하기1. 설치pip install requests2. Importimport requests3. HTTP 요청 보내고 응답 받기url = 'https://[github-username].g..

[HTML와 CSS] 웹페이지 기초 지식, 만들어보고 배포까지

목표 : 간단한 웹페이지(모양) 만들기! (HTML , CSS)목차1. 웹페이지의 구성2. HTML 기초[실습] 이력서 제작(1) HTML 3. CSS 기초4. 개발자 도구[실습] 이력서 제작(2) CSS로 앞서 만든 이력서 꾸미기5. 선택자[실습] 이력서 제작(3) 라벨링 작업6. 웹페이지 배포하기 1. 웹페이지의 구성 무엇으로 이루어져 있는가 HTML - 구조+구성CSS - 크기, 색, 위치 등JS - 기능(동작)웹페이지=컨테이너 하우스컨테이너 하우스(구조)가 있다 != 도로명 주소지가 있다 2. HTML 기초HyperText Markup Language문서(웹페이지)의 구조를 나타내는 *마크업 언어*   HTML의 요소와 종류 전체 구조 및 구조별 설명  [실습] 이력서 제작(1) HTML VSCo..

서울시 주유소 유가 분석 및 시각화(3) 데이터 전처리 및 지도 시각화(folium)

1. 데이터 정리하기여러개의 엑셀파일 하나로 합치기glob : 특정 패턴과 일치하는 파일명을 리스트로 변환의미있는 데이터만 뽑아 사용하기가격 데이터 타입, 인덱스 재정렬2. 데이터 분석기본 그래프 사용 시각화boxplot가격에 대한 비교가격 분포에 대한 비교주유소 가격 지도 시각화전체 코드1. 데이터 정리하기여러개의 엑셀파일 하나로 합치기  의미있는 데이터만 뽑아 사용하기  가격 데이터 타입, 인덱스 재정렬가격 데이터가 없는 경우, '-' 로 데이터가 표기되어 있음 -> astype('float') 사용하면 오류 발생2. 데이터 분석기본 그래프 사용 시각화boxplot : pandas 버전과 seaborn버전가격에 대한 비교   주유소 가격 지도 시각화* skorea 서울시 위치 정보 경계선 좌표값이 담..

서울시 주유소 유가 분석 및 시각화(2) Selenium 크롤링 데이터 수집

데이터 수집 전체 코드코드 도출 과정(Selenium 크롤링) 데이터 수집 전체 코드  코드 도출 과정(Selenium 크롤링)1. 웹페이지 접속 2. 서울시 데이터 리스트 확보 (서울시 고정하기 위한 과정)- 선택자를 활용해 시/도 탭 위치 확인(ID 파악, 태그 이름 파악)- option 태그를 가진 value 이름의 속성값 데이터 추출** find_element와 find_elements는 차이가 있음을 주의 sido_list_raw sido_list for문을 통해 시/도 리스트 데이터 저장(빈 리스트 생성 후 append)완성된 sido_names 리스트를 확인해보니, 맨 앞 데이터가 비어있음sido_names[1:]로 맨 앞 데이터 지워주고, sido_names[0]가 서울인 것을 확인sido..

서울시 주유소 유가 분석 및 시각화(1) 데이터 수집 준비

분석하게된계기적절한 기름 가격오늘 따라 기름 가격 괜찮은데? 이런 판단을 하기 위함한국 석유 공사 데이터 활용     데이터 수집 단계에 집중 웹페이지 분석 후 필요한 데이터 가져오기 웹페이지 구성 알아보기오피넷 들어가보기(https://www.opinet.co.kr/user/main/mainView.do)싼 주유소 찾기에 지역별 들어가보기url왼쪽에는검색결과 총 몇개있는지, 휘발유, 경유 가격이 나타나는구나오른쪽에 마커와 함께 위치가 나타나있음 서울로 고정해서시군구 단위로 구분해서 선택 가능왼쪽에서 뭘 선택하는 url이 변경되지 않음을 확인** 엑셀 저장이 있음 절차 정리엑셀 저장하면 아래와 같은 이름으로 받아지는 것을 확인 엑셀 열어보면 아래와 같이 나타나있음작업할 절차를 알아본것 어떻게 작업하면 좋..

설문 데이터를 활용한 개발 언어 사용자 분석(2) 데이터 시각화

분석 목적 상기개발자들이 어떤 언어를 사용하는지 파악어떤 언어를 사용하는 사람이 돈을 많이 버는지 파악 데이터 시각화 import matplotlib.pyplot as pltimport koreanize_matplotlib 인기있는 언어현재 사용하는 언어 및 Top 10사용을 희망하는 언어 및 Top 10언어별 사용자수 vs 사용 희망자수현재 사용하는 언어 및 Top 10  사용을 희망하는 언어 및 Top 10   언어별 사용자수 vs 사용 희망자수앞서 만든 plot들을 subplot으로 겹쳐서 plot 찍어보기이미 사용하고 있는 사람들 수 대비 사용하고 싶어하는 사람 수 확인할 수 있음 데이터 직군 인기 언어Top 10 비교 상세 비교   언어별 주요 직군     언어별 연봉전체 연봉 분포 언어별 연봉..

설문 데이터를 활용한 개발 언어 사용자 분석(1) 탐색을 위한 전처리

분석 목적개발자들이 어떤 언어를 사용하는지 파악어떤 언어를 사용하는 사람이 돈을 많이 버는지 파악 데이터Stackoverflow 설문 데이터를 활용하여 분석 진행 ↓ 사용하게될 컬럼 이름 및 설명 *실제로는 점검하는 과정에서 해당 데이터를 전혀 쓸수없다는 절망적인 결과를 내릴 때도 있음.  탐색을 위한 데이터 전처리 첫번째 row데이터 없어보여서 삭제 df.drop(index=0, inplace = True).reset_index(drop=True)info()결측치가 있더라도 개발언어 분석하는데에는 무리가 없다고 판단결측치는 그대로 두고, 컬럼 하나하나 살펴보면서 결측치 어떻게 처리할지 고민해보자describe()pd.set_option('display.float_format','{:,.2f}'.form..

온라인 화장품 Funnel 분석(1) 행동 데이터 1차 탐색 및 분석 목표 설정

온라인 화장품 구매이력 데이터 활용 Funnel 분석 복습(1)[참고] AARRR 단계별 지표 for 고객 행동 분석(Funnel분석) [스터디노트] AARRR 단계별 지표 for 고객 행동 분석(Funnel분석)고객 행동 분석을 통한 서비스 헬스체크(데이터 출처 : Kaggle) 주제 선정 이유결제 이전에 무슨 일이 일어나는지? 고객 행동 지표구매나 정기 결제같이 중요한 행동까지 이어지는 과정을 차근차bo-deok.tistory.com 복습(2)대시보드 제작 링크 [Tableau] 고객 행동 분석 대시보드 제작[참고] AARRR 단계별 지표 for 고객 행동 분석(Funnel분석) 데이터셋 소개  [대시보드 제작 요청]우리 쇼핑몰에 몇명이 들어오는지 확인 → 활성 유저 숫자 확인우리에게 중요한 행동은 ..

유통 SCM 데이터 분석(2) 주요 지표 선정 및 Tableau 대시보드 제작

주요지표 선정 및 주요지표 시각화Vendor countPO countBrand countAVG Qty per PO : 총 수량 / PO count (PO 한개당 몇개의 상품을 평균적으로 가져오는지)AVG Amount per PO : 총 Amount / PO countAVG Freight per PO : 총 Freight / PO count 총 amount = dollarsdivide할때 0이면 어떻게할지 처리하는 함수를 썼어야했나?  TOP 3 Vendor사참고 블로그판매금액(dollars)이 많은 vendor순서대로. Amount로 별칭 편집매개변수 (Top N filter) 만들고, 정수형 조절변수필드 생성해당 인덱싱을 필터에 추가해주고, 참값만 가져오기  DATEDIFF를 활용한 새로운 컬럼 만들기..