목록Data Analysis (23)
YOGYUI
지난주 토요일(4/17) 빅데이터분석기사 필기시험을 치렀다 데이터분석전문가(ADP)를 딴지 얼마 안돼서 그런지 체감 난이도는 그저 그런 수준? (어차피 출제기관은 한국데이터산업진흥원으로 동일하다) 특이한건, 전체 80문제 중에 confusion matrix 관련 문제가 내 기억에 따르면 3문제나 나왔다는 점이다 (ROC 커브 포함) 아무래도 단순 계산 문제로도 내기 좋고 개념 문제로 내기도 좋다보니 출제 비중이 높은 것 같다 (특히 metric 개념은 공부 안해가면 찍는거 말곤 할 수 있는게 없다) 앞으로도 ADP나 분석기사 모두 필기시험에서는 최소 1문제 이상은 무조건 출제될 것 같으니 블로그에 한 번 정리해보자 혼동행렬(Confusion Matrix)는 (특히 이진 분류 문제) 데이터 분석 모델의 예..
회사에서 사원별 공수(Man Hour) 관리 프로그램을 하나 만들었는데, 공휴일에는 입력이 안되게 만드는 기능이 필요하게 됐다 파이썬 써드파티 라이브러리 종류도 몇 개 있어 찾아봤는데, 중국의 국경일을 기반으로 한국의 실정에 맞게 변환해야 하는 경우가 대부분이라 번거로울 뿐만 아니라 대통령 선거같은 이벤트나 임시공휴일은 유저가 따로 입력해야 하는 불편함이 있다 확실한 건 웹크롤링인데, (ex: 주식시장 개장일) 공공데이터포털에서도 API 몇 개가 공개되어 있어서 그 중 한개를 사용하도록 했다 1. 공공데이터포털 API 활용신청 데이터 타이틀은 "특일 정보", URL은 아래 링크 참고 www.data.go.kr/iim/api/selectAPIAcountView.do 한국천문연구원(?!)에서 제공하는 데이터..
1. Introduction 지난 2월 24일 빅데이터분석기사 필기시험 1회 응시 접수자를 대상으로 2회 시험 고사장 우선 변경 이벤트가 있었다 (1회 시험은 코로나19 확산때문에 취소됐었는데... 2회도 무사히 치러질지도 의문 ㅠ) www.dataq.or.kr/www/board/view.do?bbsKey=eyJiYnNhdHRyU2VxIjoxLCJiYnNTZXEiOjUwODA1MX0=&boardKind=notice 데이터자격시험 www.dataq.or.kr ※ 경기 지역 거주자들은 서울에서 치뤄야만 하는 슬픈 현실... 수원에서 제일 가까운 수험장을 찾아야하는데, 사이트가 제공하는 웹 UI는 한번에 하나의 고사장만, 그것도 아주 좁은 지역만 확대된 채로 보여줘서 (줌아웃도 안된다...뭔 API를 쓴거야...
몇달전에 Netflix에서 방영하는 오리지널 다큐멘터리 "커넥티드: 세상을 잇는 과학" (영문명 connected: The Hidden Science of Everything) 중 4화 '수의 법칙'을 보고 충격을 받은 적이 있어 그 내용을 정리해보고자 한다 ※ 6화 모두 엄청 재밌다, 강력 추천! 포스트 작성한다고 2번을 다시 돌려봤다 제목인 '수의 법칙' 답게 하나의 수학 공식(법칙?)에 대한 내용을 다루고 있는데, 법칙의 이름은 바로 '벤포드의 법칙' (Benford's Law) 내 나름대로는 수학이나 공학 지식이 풍부하다고 자부하는데 이 법칙은 완전히 처음 접해봤는데다가 실생활에서 광범위하게 활용된다고 하니 꽤 놀라웠다 내가 이해한대로 설명하면 장황해질 수 있으니 위키피디아의 정의를 그대로 옮겨적..
공공데이터포털에서 국내 코로나19 감염현황에 대한 데이터를 얻어보자 (OpenAPI 실습) 데이터 타이틀은 "보건복지부_코로나 19 감염_현황"이고 URL은 아래 링크를 참고 www.data.go.kr/data/15043376/openapi.do RESTful API로 호출하여 XML 포맷으로 데이터를 받아볼 수 있을 것 같다 1. 데이터 활용신청 로그인 후 페이지 내 "활용신청" 버튼을 클릭 후 개발계정 신청서를 작성하자 승인되면 다음과 같이 API가 활용가능한 것으로 디스플레이된다 (원래 사용하는 계정은 신청/활용건수가 너무 많아 포스팅을 위해 계정을 새로 하나 만들었다...) 개발계정 상세보기로 가면 실제 API에서 사용해야 할 Key (일반 인증키)를 얻을 수 있다 Key값 (일반인증키)는 API..
[ Web Crawling (Python) ] 지난 포스트에서 동행복권 로또6/45 당첨번호를 웹크롤링해봤다 yogyui.tistory.com/entry/PythonBeautifulSoup-%EB%A1%9C%EB%98%90-645-%EB%8B%B9%EC%B2%A8%EB%B2%88%ED%98%B8-%ED%81%AC%EB%A1%A4%EB%A7%81 Python::BeautifulSoup - 동행복권 로또 6/45 당첨번호 크롤링 [ Web Crawling (Python) ] 동행복권 사이트에서 로또 6/45 역대 당첨번호들을 크롤링한 뒤 DB에 저장해보자 동행복권 메인 사이트 동행복권 당첨번호 3 4 15 22 28 40 보너스번호 10 1등 총 당첨금 263억원(8명 yogyui.tistory.com 메인..
[ Web Crawling (Python) ] 동행복권 사이트에서 로또 6/45 역대 당첨번호들을 크롤링한 뒤 DB에 저장해보자 동행복권 메인 사이트 동행복권 당첨번호 3 4 15 22 28 40 보너스번호 10 1등 총 당첨금 263억원(8명 / 33억) 이전 회차 당첨정보 보기 다음 회차 당첨정보 보기 dhlottery.co.kr 1. 최신 회차 크롤링 동행복권 메인 페이지에 접속하면 좌측 상단에 최신 회차 및 당첨번호를 확인할 수 있다 고민할 것 없이 바로 requests 사용해서 GET method로 HTTP 요청을 넣은 후 html 코드를 읽어보자 import requests url = "https://dhlottery.co.kr/common.do?method=main" html = reques..
[ Web Crawling (Python) ] 기상청 날씨누리 사이트의 '도시별 현재날씨' 정보를 pandas DataFrame 객체로 저장해보자 www.weather.go.kr/weather/observation/currentweather.jsp 도시별 현재날씨 > 지상관측자료 > 관측자료 > 날씨 > 기상청 홈 > 관측자료 > 지상관측자료 > 도시별 현재날씨 |날씨|관측자료|지상관측자료|도시별 현재날씨 기상실황표2021.02.07.16:00 기상실황표 강릉 6.6 7.1 1.9 4.7 70 북서 1018.9 강진군 4.0 12 www.weather.go.kr 1. HTML GET requests 라이브러리를 사용해 해당 url의 html을 가져온다 import requests from bs4 impo..