VARCHAR vs TEXT
개요
MySQL 서버를 포함한 RDBMS를 사용하다 보면, No-SQL DBMS 서버에 비해서 많은 데이터 타입들을 가지고 있다는 것을 알고 있을거에요. 하지만 RDBMS를 사용하면서 이런 다양한 데이터 타입에 대해서 정확한 용도와 특성을 모르면 RDBMS 서버가 어렵게 구현하고 있는 장점을 놓쳐 버릴 가능성이 높아요.
오늘은 많은 개발자와 DBA들이 잘 모르고 있는 MySQL 서버의 VARCHAR
와 TEXT
타입의 특성과 작동 방식에 대해서 좀 살펴보려고 해요.
VARCHAR 타입 궁금증
MySQL 서버를 사용해 본 개발자라면 누구나 한번쯤은 이런 궁금증을 가져 본 적이 있을거에요.
- 만약 10 글자 이하로만 저장된다면 컬럼의 타입을
VARCHAR(10)
으로 하거나VARCHAR(1000)
으로 해도 아무런 차이가 없는 것 아닐까? 오히려VARCHAR(1000)
으로 만들어 두면 나중에 더 큰 값을 저장해야 할 때 더 유연하게 대응할 수 있지 않을까 ?
아래와 같이 모든 컬럼을 VARCHAR(1000)
타입으로 또는 모든 컬럼을 TEXT
타입으로 생성한 테이블은 어떻게 생각하나요 ? 이런 모델링이 잘못되었다고 생각한다면 그 근거는 무엇인가요 ?
CREATE TABLE user (
id BIGINT NOT NULL,
name VARCHAR(1000),
phone_no VARCHAR(1000),
address VARCHAR(1000),
email VARCHAR(1000),
PRIMARY KEY(id)
);
그냥 지금까지 습관적으로 해오던 데이터 모델링 방법과는 다르기 때문에 잘못된 것일까요 ? MySQL 서버가 내부적으로 어떻게 작동하는지를 모르면, 이 질문에 명확한 답변을 하기는 어려울 수 있어요.
테이블의 컬럼이 많은 경우, 이 질문에 대해서 명확한 답변이 될만한 근거가 한가지 있어요. 간단한 테스트를 위해서 길이가 매우 긴 VARCHAR 컬럼을 가진 테이블을 한번 만들어 볼까요 ?
mysql> CREATE TABLE tb_long_varchar (id INT PRIMARY KEY, fd1 VARCHAR(1000000));
ERROR 1074 (42000): Column length too big for column 'fd1' (max = 16383); use BLOB or TEXT instead
mysql> CREATE TABLE tb_long_varchar (id INT PRIMARY KEY, fd1 VARCHAR(16383));
ERROR 1118 (42000): Row size too large. The maximum row size for the used table type, not counting BLOBs, is 65535. This includes storage overhead, check the manual. You have to change some columns to TEXT or BLOBs
mysql> CREATE TABLE tb_long_varchar (id INT PRIMARY KEY, fd VARCHAR(16382));
Query OK, 0 rows affected (0.19 sec)
mysql> ALTER TABLE tb_long_varchar ADD fd2 VARCHAR(10);
ERROR 1118 (42000): Row size too large. The maximum row size for the used table type, not counting BLOBs, is 65535. This includes storage overhead, check the manual. You have to change some columns to TEXT or BLOBs
tb_long_varchar
테이블은 하나의 VARCHAR
컬럼이 있는데, VARCHAR
타입의 최대 저장 가능 길이를 어느 정도로 하느냐에 따라서 테이블을 생성하지 못하게 되는 것을 확인할 수 있어요. 그리고 네번째 ALTER TABLE
문장의 실행 예제를 보면, 새로운 컬럼 추가가 실패한 것을 알 수 있어요. 이는 (에러 메시지에서도 잘 설명하고 있듯이) 이미 tb_long_varchar
테이블은 하나의 레코드가 저장할 수 있는 최대 길이가 65,535 바이트를 초과했기 때문에 더이상 새로운 컬럼을 추가할 수 없게 된 거에요.
이 예제를 통해서 MySQL 서버에서는 하나의 VARCHAR
컬럼이 너무 큰 길이를 사용하면, 다른 컬럼들이 사용할 수 있는 최대 공간의 크기가 영향을 받게 된다는 것을 확인했어요. 그래서 MySQL 서버에서는 레코드 사이즈 한계로 인해서, VARCHAR
타입의 최대 저장 길이 설정시에 공간을 아껴서 설정해야 해요.
이는 MySQL 서버 메뉴얼에서 이미 자세히 설명하고 있어요. 참고로 TEXT
나 BLOB
와 같은 LOB
컬럼은 이 제한 사항에 거의 영향을 미치지 않아요. 그래서 많은 컬럼을 가진 테이블에서는 VARCHAR
타입 대신 TEXT
타입을 사용해야 할 수도 있어요.
그런데 VARCHAR
타입의 길이 설정에 주의해야 하는 이유가 이거 하나 뿐일까요 ? 예를 들어서 추가로 새로운 컬럼이 필요치 않아서 아래와 같이 테이블을 모델링했다면, 이건 아무 문제가 없는 걸까요 ?
CREATE TABLE user (
id BIGINT NOT NULL,
name VARCHAR(4000),
phone_no VARCHAR(4000),
address VARCHAR(4000),
email VARCHAR(4000),
PRIMARY KEY(id)
);
TEXT 타입 궁금증
VARCHAR
타입은 저장 길이 설정에 대한 주의가 필요하다는 것을 간단히 한번 살펴보았어요. 그런데 VARCHAR
대신 TEXT
타입을 사용하면 길이 제한 문제가 싹 사라진다는 것을 쉽게 확인할 수 있어요. 그래서 아래와 같이 테이블을 만들면 VARCHAR
타입의 길이 설정에 대한 제약뿐만 아니라 저장하는 값의 길이 제한도 훨씬 크고 유연하게 테이블을 만들 수 있어요.
CREATE TABLE user (
id BIGINT NOT NULL,
name TEXT,
phone_no TEXT,
address TEXT,
email TEXT,
PRIMARY KEY(id)
);
여기에서 또 하나의 궁금증이 생기기 시작할거에요.
- 문자열 저장용 컬럼을 생성할 때,
VARCHAR
와TEXT
중에서 굳이VARCHAR
를 선택할 이유가 있을까 ?TEXT
타입은 저장 가능 길이도 훨씬 크고 테이블 생성할 때 굳이 길이 제한을 결정하지 않아도 되니 더 좋은 것 아닐까 ? 근데 왜 우리가 모델링하는 테이블에서 대부분 문자열 저장용 컬럼은TEXT
컬럼이 아니라VARCHAR
컬럼이 사용될까 ?
VARCHAR vs TEXT
일반적인 RDBMS에서, TEXT
(또는 CLOB
)나 BLOB
와 같은 대용량 데이터를 저장하는 컬럼 타입을 LOB
(Large Object) 타입이라고 해요. 그리고 RDBMS 서는 LOB
데이터를 Off-Page
라고 하는 외부 공간에 저장해요. 일반적인 RDBMS에서와 같이, MySQL 서버도 레코드의 컬럼 데이터는 B-Tree (Clustering Index)
에 저장(이를 Inline 저장
이라고 함)하지만, 용량이 큰 LOB
데이터는 B-Tree 외부의 Off-Page
페이지(MySQL 서버 메뉴얼에서는 External off-page storage
라고 해요)로 저장해요.
하지만 MySQL 서버는 LOB
타입의 컬럼을 항상 Off-Page
로 저장하지는 않고, 길이가 길어서 저장 공간이 많이 필요한 경우에만 Off-Page
로 저장해요.
예를 들어서 아래와 같이 2개의 레코드가 있을 때, 1번 레코드(id=1
)의 fd
컬럼에 8,100 글자(8,100바이트)를 저장하면 Off-Page
가 아닌 B-Tree(Clustering Index)
에 Inline
으로 저장해요. 하지만 2번 레코드(id=2
)의 fd
컬럼에 8,101글자(8,101바이트)를 저장하면, MySQL 서버는 fd
컬럼을 Off-Page
로 저장해요. 이는 MySQL 서버의 레코드 포맷에 따라서 조금씩 다르게 작동하는데, 이 예제는 innodb_default_row_format=DYNAMIC
설정을 기준으로 테스트해본 결과에요.
CREATE TABLE tb_lob (
id INT PRIMARY KEY,
fd TEXT
);
INSERT INTO tb_lob VALUES (1, REPEAT('A',8100)); -- // Inline 저장소
INSERT INTO tb_lob VALUES (2, REPEAT('A',8101)); -- // Off-Page 저장소
MySQL 서버의 레코드 크기 제한은 65,535 바이트이지만, InnoDB 스토리지 엔진의 레코드 크기 제한은 페이지(블록)의 크기에 따라서 달라지는데, 대부분 페이지 크기의 절반이 InnoDB 스토리지 엔진의 최대 레코드 크기 제한으로 작동해요.
InnoDB 스토리지 엔진은 레코드의 전체 크기가 이 제한 사항(16KB 페이지에서는 8,117 바이트)을 초과하면 길이가 긴 컬럼을 선택해서 Off-Page
로 저장하게 되는데, 이 예제의 두번째 레코드(id=2)
의 fd
컬럼 값이 커서 이 컬럼을 Off-Page
로 저장한 것이에요.
MySQL 서버의 InnoDB row_format
에 따른 Off-Page
저장 방식 차이는 MySQL 서버 메뉴얼을 참고해주세요. 페이지 크기가 64KB인 경우 InnoDB 최대 레코드 크기의 제한 사항이 예외적으로 조금 다르므로, MySQL 서버와 InnoDB 스토리지 엔진의 레코드 크기 제한에 대한 자세한 설명은 MySQL 서버 메뉴얼을 참고해주세요.
그런데 동일한 테스트를 아래와 같이 VARCHAR
타입 컬럼으로 해보면, VARCHAR
컬럼에 저장된 값이 큰 경우에도 Off-Page
로 저장된다는 것이에요.
CREATE TABLE tb_varchar (
id INT PRIMARY KEY,
fd VARCHAR
);
INSERT INTO tb_varchar VALUES (1, REPEAT('A',8100)); -- // Inline 저장소
INSERT INTO tb_varchar VALUES (2, REPEAT('A',8101)); -- // Off-Page 저장소
VARCHAR
타입은 인덱스를 생성할 수 있는 반면 LOB
타입은 인덱스 생성을 할 수 없다는 이야기를 하는 사람도 있지만, 사실은 둘다 최대 크기 길이 제한만 충족시켜 주면 인덱스를 생성 할 수 있어요.
-- // 컬럼 그대로 사용시, 인덱스 생성 불가
mysql> ALTER TABLE tb_varchar ADD INDEX ix_fd (fd);
ERROR 1071 (42000): Specified key was too long; max key length is 3072 bytes
mysql> ALTER TABLE tb_lob ADD INDEX ix_fd (fd);
ERROR 1170 (42000): BLOB/TEXT column 'fd' used in key specification without a key length
-- // 컬럼 값의 길이(프리픽스)를 지정하면, 인덱스 생성 가능
mysql> ALTER TABLE tb_varchar ADD INDEX ix_fd ( fd(50) );
mysql> ALTER TABLE tb_lob ADD INDEX ix_fd ( fd(50) );
B-Tree 인덱스뿐만 아니라 전문 검색 인덱스도 TEXT
타입과 VARCHAR
타입 컬럼 모두 동일하게 생성할 수 있어요. 보면 볼수록 TEXT
와 VARCHAR
의 차이가 명확해지기 보다는 오히려 모호해지고 있다는 느낌일 거에요. 도대체 TEXT
컬럼과 VARCHAR
컬럼의 차이는 무엇이며, 어떤 경우에 TEXT
타입을 사용하고 어떤 경우에 VARCHAR
타입을 사용해야 할까요 ?
VARCHAR와 TEXT의 메모리 활용
MySQL 서버는 스토리지 엔진과 Handler API를 이용해서 데이터를 주고 받는데, 이때 MySQL 엔진과 InnoDB 스토리지 엔진은 uchar* records[2]
메모리 포인터를 이용해서 레코드 데이터를 주고 받아요. 이때 records[2]
메모리 객체는 실제 레코드의 데이터 크기에 관계 없이 최대 크기로 메모리를 할당해둬요. VARCHAR
타입은 최대 크기가 설정되기 때문에 메모리 공간을 records[2]
버퍼에 미리 할당받아둘 수 있지만, TEXT
나 BLOB
와 같은 LOB
컬럼 데이터의 경우 실제 최대 크기만큼 메모리를 할당해 두면 메모리 낭비가 너무 심해지는 문제가 있어요. 그래서 records[2]
포인터가 가리키는 메모리 공간은 VARCHAR
는 포함하지만 TEXT
컬럼을 위한 공간은 포함하지 않아요.
uchar* records[2]
메모리 공간은 TABLE
구조체(struct
) 내에 정의되어 있으며 TABLE
구조체는 MySQL 서버 내부에 캐싱되어서 여러 컨넥션에서 공유해서 사용될 수 있도록 구현되어 있어요. 즉, records[2]
메모리 버퍼는 처음 한번 할당되면 많은 컨넥션들에 의해서 재사용될 수 있도록 설계된 것이에요.
하지만 TEXT
나 BLOB
과 같은 LOB
컬럼을 위한 메모리 공간은 records[2]
에 미리 할됭되어 있지 않기 때문에 매번 레코드를 읽고 쓸 때마다 필요한 만큼 메모리가 할당되어야 해요.
예를 들어서 아래와 같은 테이블을 생성했다면,
CREATE TABLE tb_lob (
id INT PRIMARY KEY,
fd TEXT
);
CREATE TABLE tb_varchar1 (
id INT PRIMARY KEY,
fd VARCHAR(100)
);
CREATE TABLE tb_varchar2 (
id INT PRIMARY KEY,
fd VARCHAR(10000)
);
tb_lob
테이블을 위한 records[2]
버퍼 공간은 16 * 2 바이트만큼 할당되고, tb_varchar1
테이블의 records[2]
버퍼 공간으로는 408 * 2 바이트를 할당해요. 그리고 마지막 tb_varchar2
테이블을 위해서는 40008 * 2 바이트를 할당해요.
tb_lob
테이블은INT
타입의 컬럼(id)을 위한 4 바이트와TEXT
값을 위한 포인터 공간 8바이트 그리고 헤더 공간 4바이트tb_varchar1
테이블은INT
타입의 컬럼(id)을 위한 4 바이트와VARCHAR(100)
타입 컬럼을 위한 공간 400바이트 그리고 헤더 공간 4바이트tb_varchar2
테이블은INT
타입의 컬럼(id)을 위한 4 바이트와VARCHAR(10000)
타입 컬럼을 위한 공간 40000바이트 그리고 헤더 공간 4바이트
그래서 VARCHAR
타입의 컬럼을 읽을 때는 새롭게 메모리를 할당받는 것이 아니라 TABLE
구조체의 records[2]
버퍼를 이용해요. 하지만 TEXT
나 BLOB
와 같은 LOB
타입의 컬럼을 읽을 때는 (미리 할당해 둔 메모리 공간이 없기 때문에) 매번 필요한 크기만큼 메모리를 할당해서 사용후 해제해야 해요. LOB 컬럼의 값을 읽기 위해서 할당 및 해제하는 메모리 공간은 Performance_schema
에 의해서 측정되지 않아요 (MySQL 8.0.33 기준). 그래서 LOB
용 메모리 할당 해제가 실행되는지 알 수 없어서 성능 영향도를 파악하기가 어려운 상황이에요. 한가지 더 주의해야 할 것은 VARCHAR
타입에 저장된 값의 길이가 길어서 Off-Page
로 저장된 경우, MySQL 서버는 TABLE
객체의 records[2]
버퍼를 사용하지 못하고 새롭게 메모리 공간을 할당해서 사용해요. 그래서 VARCHAR
타입에 매우 큰 값이 빈번하게 저장되는 경우는 주의가 필요해요.
컬럼 타입 선정 규칙
MySQL 서버의 내부적인 작동에서, VARCHAR
와 TEXT
타입의 큰 차이점을 살펴보았어요. 지금까지 살펴본 내용을 토대로 VARCHAR
나 TEXT
타입을 선택하는 규칙을 다음과 같이 정리해 볼 수 있어요.
VARCHAR
- 최대 길이가 (상대적으로) 크지 않은 경우
- 테이블 데이터를 읽을 때 항상 해당 컬럼이 필요한 경우
- DBMS 서버의 메모리가 (상대적으로) 충분한 경우
TEXT
- 최대 길이가 (상대적으로) 큰 경우
- 테이블에 길이가 긴 문자열 타입 컬럼이 많이 필요한 경우
- 테이블 데이터를 읽을 때 해당 컬럼이 자주 필요치 않은 경우
상대적이라는 단어가 많이 사용된 것은 DBMS 서버의 스펙이나 데이터 모델 그리고 유입되는 트래픽에 따라서 미치는 영향도가 다르기 때문이에요. 뿐만 아니라 DBMS 서버의 튜닝은 생산성(속도)과 효율성 사이에서 최적점(sweet-spot)을 찾는 과정이기 때문에 숫자 값 하나를 모든 판단의 기준으로 정하는 것은 불가능해요.