DL & Abuser
저에게는 DL(딥러닝)이 알파고 전/후로 기억이 나뉩니다.

알파고 전
어뷰징과 어뷰저에 대한 분류과 분석을 고민하던때 어느 컨퍼런스에서 인공지능 기술이 해당 부분에도 기여를 할 수 있다는 가능성을 전해 들었습니다. 그리고 나서 바로 사내에서 관련 기술을 연구중인 분이 있는지 무척 찾았습니다. ‘인지컴퓨팅G’라는 알수 없는 부서를 접하고 무턱대고 메일을 보냈습니다.
“저는 보안에서 어뷰징 관련 분석과 인메모리 기술을 다루고 있습니다. 어떤 컨퍼런스에서 딥러닝이라는 기술이 어뷰징에도 가능성이 있을것 같고, 저는 그 관련 분야에 지식이 전혀 없습니다. 도와 주실 수 있을까요?”
A연구원 : “네. 재미 있을것 같습니다.!!!”
“그럼 한번 뵙죠… 제가 찾아 가겠습니다. 무턱대고 연락해서 급하게 요청 드려 죄송합니다만 도와 주십시오!!!”
이렇게 딥러닝을 처음 마주했고, 뵙기 전에 그래도 머라도 봐야지 하며, 딥러닝에 대해서, 힌튼 교수의 일화에 대해서 하나씩 알아 갔습니다. 아무리 봐도 수학 공식은 어려웠고, 현상이나 방법들에 대해서 구글의 모든 링크가 보라빛으로 변할때까지 찾고 또 고민하고 연구했습니다. 물론, 지금도 딥러닝을 직접 개발할 생각은 없습니다. 일종의 포기라고 하죠. ^^
그래도 어느정도 되는것과 해야 할것을 스케치 해서 이래저래 설명을 드리고, 들은 첫 대답은 이렇습니다.
A연구원 : “가능합니다. 저흰 엔드라이X의 이미지 분류에 도입을 했습니다만, 유저를 어뷰저로 판단하고 서비스 앞단에서 밴을 위한 용도로 사용함은 부담스럽고 어렵습니다.”
사실 처음에는 이런 대답이 ‘왜’일까에 대한 이해를 내 자신에게 구하기까지 꽤 시간이 걸렸습니다. 24시간 정도 고민했었던것 같습니다. 스케치를 조정 했습니다. 해석 불가능한 의미는 사람이 찾을수 있도록 보안 장치를 더 넣었고, 부담을 줄이기 위해서 태깅이라는 운영 단계를 두어, 태깅과 정확도를 70프로 이상 달성하고 이것을 통해서 구해진 일부 데이터만을 운영에 사용하도록 했습니다.
효과적이었습니다.! 부담에서 가능성으로 이해관계가 빠르게 발전을 했고, 제가 고민한 것들이 그분들에게도 좋은 작용을 하는것으로 보였습니다.
그로부터 8개월간 테스트와 검증 의 무한루프를 돌렸습니다. 그 와중에 CPU머신에서도 돌아가게끔 포팅도 했고(그당시는 서버용 GPU는 사내환경에서 어디에서도 쉽게 구할수 없었습니다.), 테스트 데이터도 충분히 준비를 했고, cpu에서의 sort의 문제도 해결이 되었고, 많은 준비를 하게 되었습니다.
가장 멋진 기억은 30회가 넘어가는 검증 과정부터 점차 어뷰징을 꽤 높은 정확도로 찾았던 것이었습니다. 태깅을 했고, 태깅된 데이터는 정확히 걸러냈습니다. 아주 멋진 일이죠… 사실 서비스 앞단에 베타 딱지를 떼지 못하긴 했습니다만, 그 경험은 지금까지도 모든 가능성을 열어준 것이라고 자부합니다.
그리고 그때의 그분들도 지금은 정말 멋진 작업들을 하고 계시는걸로 보이고, 항상 응원 드립니다.!!!
알파고 후
최근엔 저도 텐서플로 커뮤니티를 자주 보기도하고, 여러가지 접목된 딥러닝의 결과물들을 아주 자연스럽게 접하게 됩니다. 매스컴에서도 정말 자주 볼 수 있죠.
딥러닝은 이제 누구나가 연구하는 자연스러운 주제가 된듯 합니다. 8개월간 시행착오를 거치며 남은 제 기억속의 결과물도 누군가 다시 살려주면 하는 바람도 있습니다만, 또다른 생태계에서 저도 여러가지 새로운 시도들을 하기 시작 했습니다.
아마존 스파크, 디스코, 레이지 등등 새로운 관심사를 기반이 생겼고…
한편으로는 제가 잘 할 수 있는 인메모리 데이터 파이프 라인 영역의 기술도 일보 진보된 형태를 만들어서 앞으로 가지게될 DL/ML의 영역에 도입하기 위한 연구를 매진할 것입니다.
그림도 없는 긴 글 읽어주셔서 감사드리고, 쓰기가 정말 느려지고 있지만 좋은 주제로 또 쓰기를 할 기회를 엿보고 있겠습니다.
