인터뷰 — “2018 Data Science Competition” 2차 대회 수상자

데이터 사이언스 경진대회는 지퍼가 올해 업계 최초로 열고 있는 빅데이터 알고리즘 경쟁대회로, 국내 업종별 비(非)금융 데이터에 대한 심층분석을 통한 새로운 P2P대출 채권 심사기법을 국내외 데이터 분석 전문가들과 함께 만들자는 취지로 마련되었습니다.

본 경진대회는 지퍼 얼라이언스(펀다, 모우다, 투게더펀딩) 뿐 아니라 국내 최대 온라인 부동산 플랫폼 ‘직방’, 부동산 법원 경매 플랫폼 ‘인포케어’ 또한 대회 출제위원으로 참여 중이며, 운영과 심사는 데이터 수집 및 분석·평가 전문 업체인 데이콘(대표 김국진)과 서울대학교 데이터-인공지능 연구실(SNUDSAIL)에서 진행하고 있습니다.

“2018 Data Science Competition” 1차 대회 수상에 이어, 2차 대회 수상 및 수상자 인터뷰가 진행되었습니다. 😃


질문 목차

① 수상을 진심으로 축하합니다. 수상 소감 부탁드립니다.

② 데이터 분석에 관심을 가지게 된 계기나 데이터 분석 일을 하게 된 이유가 있다면 무엇인가요?

③ 데이콘 경진대회에 참여한 동기가 있나요?

④ 학업이나 현업 그리고 일상생활과 관련해서 대회 중 느낀 점이 있다면 무엇입니까?

⑤ 대회에 참여하면서 어려웠던 점이 있다면 무엇일까요? (일정 관리, 분석 방법론 등)

⑥ 데이콘에 더 바라는 점, 기대 사항이 있다면 무엇입니까? (1. 대회 문제의 종류, 2. 데이터셋 종류, 3. 상금의 정도가 얼마면 도전 할만 한지-상금과 기간, 4. 포인트 제도, 5. 토론 활성화 방안 등 복수의 구체적인 주제를 자유롭게 선정해서 대답하시면 더욱 좋습니다.)

1위 MooSub 팀

수상을 진심으로 축하합니다. 수상 소감 부탁드립니다.

감사합니다. 공부를 목적으로 시작했지만 우승까지 해서 기분이 좋습니다.

데이터 분석에 관심을 가지게 된 계기나 데이터 분석 일을 하게 된 이유가 있다면 무엇인가요?

앞으로 데이터분석으로 미래에 대한 예측과 그 예측을 활용하는 것이 핵심적일 것이라고 생각합니다. 또 더 나아가서 인공지능이 그 것을 조금 더 정확하게 발전시킬 수 있다고 생각합니다. 그래서 흥미를 갖기 시작했고 공부하기 시작했습니다.

데이콘 경진대회에 참여한 동기가 있나요?

참여한 동기는 실력 향상입니다. 실제로 머신러닝과 딥러닝을 공부하면서 병행했습니다.

학업이나 현업 그리고 일상생활과 관련해서 대회 중 느낀 점이 있다면 무엇입니까?

분석했던 것은 병원데이터 였지만 이거와 연결하여 기업에 대한 예측, 음식가게에 대한 예측 등 일상생활에서 활용 할 가능성이 충분하다고 생각합니다. 또 4번 대회와 같은 집값 예측 역시 분석에 성공한다면 일상생활과 연결 할 수 있을 것 같습니다.

대회에 참여하면서 어려웠던 점이 있다면 무엇일까요?

데이터 수가 적어서 모델 학습이 힘들었고 추석 기간이 껴있어서 일정 관리도 어느정도 해야했습니다.

데이콘에 더 바라는 점, 기대 사항이 있다면 무엇입니까?

2번대회 test 데이터를 보면 같은 값을 가진 데이터가 3개(총 6개)가 있습니다. 그 중에서 23번 24번 같은 경우에는 병원 종류를 제외한 모든 값이 똑같은데 하난 open이고 나머진 close 였습니다. 이것이 만약 train 데이터였다면 이상치로 제거하면 상관없지만 예측해야 할 데이터에 이상치가 있다는 것은 좀 의아했습니다.

또 2번대회 데이터 OC 부분이 ‘open’과 ‘ close’ 인것처럼 공백이 들어가 있다는 것과 3번 Auction_rent데이터의 key이름이 ‘Auctiuon_key’로 u하나가 추가된 것과 같이 디테일한 부분이 좀 아쉬웠습니다.

대회 제출기간이 끝나고부터의 진행사항을 알 수 있었으면 더 좋을 것 같습니다. 2주가 연기된 시점부터 어떤 진행과정이 있는지 알 수 없어서 조금 불편했습니다.

2위 Bellagio

Congratulations to the winner prizes. Please award speech.

Thank you so much Dacon team for hosting such a great competition. I enjoyed my time working on this problem statement and feel so proud that I was able to end up in the 2nd place and little bit of impact, value it might add to the business. I would like to continue participating in more and more of these great competitions that Dacon is planning to host and hopefully let’s see if I can end up in the top :)

What are some of the reasons you are interested in data science?

I work as a data scientist and my day job includes playing with data most of the time. Other than my work time, I enjoy competing in Machine Learning competitions online. I have participated in more than 100 competitions in the past few years

Do you have any motivation for participating in the DACON competition?

I have been participating in Machine learning competitions for more than 2 years and I enjoy doing them. Dacon is a great platform hosting great problem statements. I’m definitely motivated to participate in more and more competitions that Dacon has to offer.

How did you feel about the study, business, and everyday life regarding data science during the competition?

The use cases sounded real and the problem statement were promising to have a positive impact on the life of people and business. Be it forecasting the sales of the shops will help the company to plan their inventory in advance.

What if you have difficulty participating in the competition?

Managing time is my greatest difficulty in participating in machine learning challenges as I also have a day job to do. In Dacon sometimes I feel it is difficult to decode the Korean language, but I see great efforts have been taken care by the team to provide the information in English.

What do you want more in DACON, what are your expectations?

I would like to Dacon to continue with the great work they do.

Few things I would expect is that

- Please provide datasets with data points not less than 5000. More the data is better and it will give us opportunities to try out neural networks and other complex algorithms.

- Dataset to be standardized and given in a proper format.

- Provide varied problems like multiclass classification problem and also choose the right evaluation metrics for the problem.

- No prize money to be less than USD 1000$. Even for the person who ends up in 3rd position, I expect he/she should get at least USD 1000$ provided the amount of time he/she has invests.

- Added to prize money, it would be great if the sponsors could offer travel opportunities for the winners to visit the location and give a presentation of the solution. It will also motivate someone like me to spend more time on building a better model and finish in the top.

- Place increase the number of submission per day from 3 to 5 or 10. I would like to see unlimited submissions per day but, I understand the load impact it may have on Dacon’s servers. Having a few 100 users should not be a problem I suppose, but still you guys know better.

- After the competition is over it would be great if Dacon could publish the winning solutions. It will be a learning for us from the top winners or even publish an article that will explain the approach of the winners.

3위 ChoiNCho 팀

수상을 진심으로 축하합니다. 수상 소감 부탁드립니다.

Choi: 감사합니다.

Cho: 기대하지 않고 있었는데, 기쁩니다.

데이터 분석에 관심을 가지게 된 계기나 데이터 분석 일을 하게 된 이유가 있다면 무엇인가요?

Choi: 해당업무가 데이터 관리 업무였고 자연히 빅데이터로 관심이 옮겨갔습니다.

Cho: 학사 및 석사 과정 전공한 심리학이 과학으로서의 기반이 통계였기에 데이터 분석을 공부해왔습니다.

데이콘 경진대회에 참여한 동기가 있나요?

Choi: 배우고 있는 선생님의 권유로 참여했습니다.

Cho: 데이터 분석 공부 및 취업 준비를 위해 참여했습니다.

데이콘에 더 바라는 점, 기대 사항이 있다면 무엇입니까

Cho: 대회에 참여하면서 할 수 있다는 성취감과 자존감, 그리고 앞으로도 열심히 해야겠다는 생각을 했습니다. 다만 어려웠던 점은 제공해준 데이터를 전부 믿고 하기에는 컬럼명이 잘못된 부분이 있거나 중복 데이터 등이 있어 어디까지 신뢰하고, 어디까지 가공해야 하는지 지점을 찾는 것이 다소 어려웠습니다. 현업에서 사용하는 데이터는 깔끔한 경우가 많지 않으므로 현장에서의 실제 데이터라 생각하고 작업하기는 했으나, 처음에는 대회이므로 위와 같은 문제는 없을 거라 생각하며 작업했기 때문입니다.

Choi: 데이콘 데이터의 정합성이 높아졌으면 합니다. 예를들어 2회때 중복되는 데이터, 의미없는 데이터(병원id를 제외하고 모두 null), 4회때 rent 파일의 Auction_key의 잘못된 컬럼명이 있습니다.

Cho : 아직 네 종류의 대회만 오픈된 상태여서 앞으로 어떤 종류의 데이터가 공개될지 아직 모르나, 더 다양한 주제의 데이터 분석대회가 되었으면 좋겠습니다. 또한 우승자 확정 후 우승자라는 증명을 할 수 있는 내용을 받으면 취업 준비를 하거나 학생 참여자에게 도움이 될 것 같습니다.