YOGYUI

빅데이터분석기사 실기 예시문제 유형 분석 본문

Study/자격증

빅데이터분석기사 실기 예시문제 유형 분석

요겨 2021. 5. 12. 16:06
반응형

K-Data 홈페이지에 빅데이터분석기사 실기와 관련된 공지사항이 있어서 한번 훑어봤다

링크: www.dataq.or.kr/www/board/view.do?bbsKey=eyJiYnNhdHRyU2VxIjoxLCJiYnNTZXEiOjUwOTM0M30=&boardKind=notice

 

데이터자격시험

 

www.dataq.or.kr

문제 유형

 

1. 단답형

ADP 실기시험에는 없던 단답형 주관식 유형이 추가되었다

덕분에(?) 오픈북이 아니다...

실기시험 유의사항

 

응시환경 체험하기 링크에서 단답형 유형을 확인해보자

단답형 유형 예시

말그대로 주관식 단답형 문제가 출제된다

(아마 정답은 DBMS 혹은 Database Management System, 데이터베이스 관리 시스템일 것 같다)

 

핵심용어의 정의에 대한 답을 적어야하는 문제가 다수 출제될 것으로 예상되기 때문에 오픈북 불가로 방침을 결정한 것 같다

※ 필기시험 출제 경향상 만약 필기구 반입이 허용된다면 혼동행렬(Confusion Matrix)에서 정밀도나 민감도 등 메트릭 계산 문제도 출제될 것으로 생각된다 (혹은 연관관계 분석의 신뢰도나 향상도 같은...)

 

합격기준

 

총 100점중에 단답식이 30점이라 비중이 상당히 높다

어떤 식으로 공부해야할지 감이 오진 않는데, ADP 수험서를 한번쯤은 훑어보고 주요 개념은 정리를 해가야 할 것 같다 (도서관 또 가야긋네...)

 

 

2. 제 1유형

총 3문항이 출제되는 제1유형은 체험 링크에서 보니 다음과 같다

제1유형 예시

원문: "mtcars 데이터셋(data/mtcars.csv)의 qsec 컬럼을 최소최대 척도(Min-Max Scale)로 변환한 후 0.5보다 큰 값을 가지는 레코드 수를 구하시오."

 

문제를 보니 아마 제1유형은 기초적인 데이터 전처리 및 EDA에 관련된 문제가 출제될 것 같다

(난이도가 높지 않아 3문제가 출제되는 듯?)

단순히 전처리에 그치지 않고 통계분석까지 출제될 가능성이 높다 

3번째 문제까지 가면 통계분석을 통한 가설검정까지 출제될 수 있다

 

한번 작두를 타보자

- 1번 문제: 단순 데이터 전처리 (EDA)

- 2번 문제: 아웃라이어 제거 등 전처리 후 데이터 통계 분석 및 plot
               (데이터 필터링 >> 평균, 표준편차 등 통계량 계산 + boxplot, scatter plot 등 시각화)
- 3번 문제: 가설 검정 (t-test, chi-square test 등)

 

한 문제당 10점씩 총 30점이 배정되어 있다

정답이 명확히 정해져있을 것으로 예상되며, 부분점수는 거의 없다고 봐도 될 듯하다

 

이건 외운다기보다는 함수들이 손에 체득되어 있으면 문제 하나당 5분도 안걸릴 문제들이니 얼마나 수험자가 자주 데이터분석을 해보았는가를 묻는 걸로 보인다

(가설검정도 신뢰구간 99%로 설정같은 함정 문제들은 안나올 것 같다,그냥 p-value 0.05만 바라보게 될듯?)

 

답안은 스크립트 형태로 제출하게 되며, 정답은 print문으로 출력해야 한다

스트립트 답안 입력 예시

R-Studio나 Anaconda Spyer, PyCharm 등의 IDE에 익숙해져있는 사람들은 인-메모리 디버깅이 불가능한 클라우드 코딩 플랫폼이 굉장히 불편할 수 있으니, 미리미리 단일 쉘 스크립트로 코딩 - 디버깅하는 연습을 해둘 필요가 있다

 

위 예시문제는 다음과 같이 풀면 될 것 같다

# 출력을 원하실 경우 print() 활용
# 예) print(변수)

# 답안 제출 예시
# print(레코드 수)

df <- read.csv('data/mtcars.csv')
qsec_scale <- (df$qsec - min(df$qsec)) / (max(df$qsec) - min(df$qsec))
count <- sum(qsec_scale > 0.5)
print(count)

 

 

3. 제 2유형

딱 1문제 출제되며, 40점으로 배점 비중이 가장 높다

제2유형 예시

제2유형은 데이터 분석 모델 구축에 대한 내용을 다룰 것 같다

데이터는 학습용(Train) - 평가용(Test)으로 홀드아웃된 데이터셋이 제공될 것으로 예상되는데, 시험 탈락자를 대거 발생시키고자 한다면 원데이터만 주고 홀드아웃 데이터셋을 직접 구현하라고 할 수도 있으니 대비하도록 하자

(그럴 가능성은 굉장히 적은게, 아마도 모델 성능 지표를 가지고 채점한다고 하면 테스트 데이터셋은 고정되어있어야 한다)

 

유의사항을 읽어보자

제2유형 유의사항

'앙상블'을 명시하고 있다

따라서 지도학습 기반의 분류/예측 모델에 사용할 수 있는 다중회귀, 로지스틱 회귀, 의사결정나무, 랜덤 포레스트, SVM 등의 다양한 종류의 모델링 관련 코드는 완전히 외워가야한다

본인이 외워간 모델링을 여러개 구축한 다음에 그 중에 성능이 제일 높은 모델을 정답으로 제출해야 고득점을 받을 수 있을 것 같다

(예시에서는 친절하게도 테스트 데이터셋까지 주어졌는데, 실제 시험은 그렇지 않을 가능성도 높다)

 

또한, 성능 강화를 위해 아웃라이어 처리, 정규화표준화 등의 데이터 전처리 기법도 충분히 숙달되어야 한다

 

좀 더 악랄하게 합격률을 10% 미만으로 떨어뜨리고자 마음만 먹는다면 여러 모델을 구축한 뒤 각 모델의 ROC 커브 시각화 및 AUC 메트릭을 직접 제출하라고 할수도 있는데, 기사 시험 특성상 그렇게까지 수험자들의 멘탈을 무너뜨릴 것 같지는 않다 (첫시험이니만큼 합격률 40% 내외를 목표로 출제할 것 같다)

 

※ 텍스트 마이닝이나 군집 분석 등의 비지도 학습 유형의 문제는 출제되지 않을 가능성이 높다

오픈북 테스트인 ADP 실기에서도 텍스트 마이닝은 수험자들의 원성이 자자했던 걸로 기억한다 ㅋㅋ

 

위 예시문제는 다른 포스팅에서 다뤄봐야겠다

(실기 대비해서 정리도 할 겸 글을 여러개 써봐야겠다...)

4. 정리

예시문제만 놓고 보면 코딩 문제 자체의 난이도는 꽤 낮다고 할 수 있다

하지만!!!

  1. 오픈북이 아니다
  2. R-Studio, PyCharm 등 사용자 친화적인 IDE를 사용하지 못한다
    (coding assistant tool이 없다)

그러니 R/Python의 기본적인 스크립트 작성 방식은 익숙해질 때까지 계속 반복 연습해봐야 한다

실기 대비 수험서같은게 있다면, 책을 보지 않고 스크립트를 작성할 수 있을 때까지 반복해서 암기하는 것도 나쁘지 않은 방법같다

 

코딩 + 데이터분석 + 분류/예측 모델링 모두 완벽해서 70점 만점을 받을 자신이 충만하지 않은 이상, 단답형도 절반 이상은 맞춰야 합격 안정권에 들어갈 수 있다

ADP 관련 개념정리 해놓은 블로거들이 많으니 여기저기 구글링하면서 준비하도록 하자

 

반응형
Comments