데이터 기록의 역사 톺아보기

Kang Taehoon
Hibike! Quantum’s blog
5 min readNov 9, 2019

최초의 기록은 행정적 수요에 의해 태어났다. 국가가 누구에게 세금을 거두었는지를 기록하기 위해서 말이다. 기록의 미디어는 동물 가죽, 토기부터 시작해 종이, 진공관, 마침내 메모리와 디스크로 진보했다. 그리고 기록을 하는 주체는 사람 대신 전자적 프로토콜이 되었다. 전자적 프로토콜을 관리하는 DB는 데이터 역사의 최근 산물이지만 데이터 기록은 역사가 길다.

지금 핵심적인 개념이 된 컴퓨터 기술을 견인한건 국가간의 군사적 대립이었다. 냉전이 치열하던 시절은 지금처럼 컴퓨터의 하드웨어가 우수하지 못했다. 보조 메모리가 절대적으로 부족한 시절의 기술을 메꾸기 위해 가상 메모리와 페이징이 개발되었고 메인프레임 시절 유휴자원을 활용하기 위해 멀티프로그래밍이 만들어졌다.

60년대 초 GE에서 Buffer¹을 도입한 IDS(integrated Data Store)를 만들었다. (IDS는 최초의 상용 DBMS 다) 요즘에는 In memory DB라 하여 보조기억장치 대신 모든 걸 메인기억장치로 처리하는 DB도 나왔지만 언제나 메모리는 보조기억장치보다 용량이 월등히 작았고 효과적 Buffer 관리를 위한 교체알고리즘도 이 때문에 발전했다. 이렇게 하드웨어의 절대적 한계를 극복하기 위해 여러 가지 시도를 하던 시절에 최초의 인덱스 기능(ISAM: Indexed Sequential Access Method)을 제공한 IBM의 메인프레임이 출시되었다.

¹ : 데이터를 캐쉬해 LRU 알고리즘 으로 관리

이후 IBM에서 시스템R이 출시되었는데 R은 Relation 을 뜻한다. SQL, 트랜잭션, 코스트기반 비용측정 등 현대 RDMB의 초석이 되는 개념들이 이때 만들어졌다. 이 R을 학술적으로 연구한 잉그레스 프로젝트는 오픈소스로 공개되어 SQL-Server, Postgre 등 RDBMS의 모태가 된다.

70년대엔 Oracle이 탄생했고 첫 오라클은 밥 마이너가 혼자서 개발한 작품이었기에 다른 RDBMS와는 조금은 상이한 구조를 가지고 있다.

80년대엔 잉그레스 기반의 Sybase가 탄생하여 오라클의 경쟁자가 되었고 SQL-Sever의 모태가 되었다.

90년대엔 mySQL 이 태어났고 비슷한 시기에 ACID³ 트랙잭션을 지원하는 스토리지 엔진(디비엔진²)인 InnoDB가 태어났다. 그리고 2001년에 두 회사의 협력작품인 Mysql 4.0이 시장에 나오게 된다.

² 삽입, 추출, 업데이트 및 삭제하는 데 사용하는 기본 소프트웨어 컴포넌트
³ 원자성, 일관성, 고립성, 지속성으로 명칭되는 트랜잭션 4요소

이후 InnoDB, MySQL가 오라클에 합병되면서 InnoDB가 MySQL의 MyISAM 엔진을 대체하게 된다. 참고로 오라클은 스토리지엔진이 한세트다. 때문에 디비엔진을 선택하여 사용할 수가 없다.

이렇게 RDBMS 천하를 흩트려 놓은 새로운 조류가 NOSQL이다. NOSQL은 말 그대로 SQL을 쓰지 않았고(관계에 얽매이지 않고) 도큐먼트, 와이트 컬럼 스토어형, 그래프 스타일, 키 밸류(Key-Value) 형등 다양한 데이터 저장 방식을 지원하는 제품들이 쏟아졌고 개발자들은 각자의 비즈니스 폼에 맞는 솔루션을 선택하는 시대를 열였다. (데이터구조 뿐만 아니라 분산된 데이터를 처리나 반응속도에도 강점이 있어 스케일아웃의 측면에서도 RDBMS보다 친화적이다.)

이렇게 NOSQL 분산형 데이터가 데이터 기록의 역사를 뒤집고 있을 동안 새로운 변화가 찾아온다. 바로 분산형분산 원장 DBMS 블록체인이다. 블록체인은 중앙형 컴퓨터에서 데이터를 지배하지 않고 생태계에 참여하는 사람들끼리 상호 데이터를 검증하는 방식을 가지고 있다.

블록체인이라는 데이터 관리양식은 지금껏 관청의 기록실, 서버실에 숨겨져 있던 데이터가 외부로 쏟아져 나오는 흐름의 물꼬를 틀었다. 그렇게 데이터의 주도권은 중앙집단에서 시작해 민간기업으로 지금은 다시 데이터의 생산자로 향하고 있다. 가장 피부에 와닿는 예는 개인정보일 것이다. 지금까지 회사가 양심 없이 가로채가 이후 약관을 변경해가며 정보를 끌어모으는 방식으로 데이터가 활용됐지만, 지금은 개인정보를 블록체인 기업에 위탁하고 위탁된 정보를 기업이 사서 활용하는 생태계가 시도되고 있다.

언제나 지난 몇 년 동안 디지털화는 끝없는 이슈였다. 지금껏 데이터로 남기지 않았던 것을 데이터로 남기고 그 데이터로 유의미한 혁신의 지점을 찾기 위해서 말이다. 블록체인은 데이터를 생산하는 사람, 관리하는 사람, 기록하는 사람, 사용하는 사람의 경계를 희미하게 만들 것이고 이는 많은 변화와 비즈니스 기회를 창출해낼 것이라 나는 믿는다.

참고자료

--

--

Kang Taehoon
Hibike! Quantum’s blog

HibikeQuantum. 백엔드 개발자였다가 지금은 데브옵스. 장인의 삶을 희망. 엔지니어링이든 사업이든 사물의 가치를 알아보는 멋진 사람이 되고 싶어요.