부서를 기준으로 먼저 정렬이 되어 있고, 그 다음 같은 부서 내에서 이름을 기준으로 정렬되어 있다. 이런 구조로 되어 있기 때문에 부서 컬럼만 놓고 봤을 때는 부서 인덱스와 동일한 정렬 상태를 갖고 있다. 따라서 위의 멀티 컬럼 인덱스의 구조를 활용하면 부서의 인덱스를 활용하듯이 쓸 수도 있다.
SELECT * FROM users
WHERE 부서 = '운영';
위 SQL문을 봤을 때 부서 컬럼으로 인덱스를 생성할 경우 성능이 향상되리라 짐작할 수 있다. 하지만 부서, 이름 순으로 구성된 멀티 컬럼 인덱스를 이미 만들어 뒀기 때문에, 부서 컬럼의 인덱스를 따로 또 만들 필요는 없다.
✅ 멀티 컬럼 인덱스를 일반 인덱스처럼 활용하지 못하는 경우도 있다.
위에서 부서, 이름 순으로 멀티 컬럼 인덱스를 만들어뒀기 때문에, 부서 컬럼의 인덱스를 만든 것과 같은 역할도 같이 수행한다고 했다. 하지만 이 멀티 컬럼 인덱스로는 이름 컬럼의 인덱스처럼 활용할 수는 없다.
왜인지 아래 인덱스 표를 다시 한 번 확인해보자.
정렬을 자세히 잘 살펴보면 이름 기준으로 정렬이 되어 있지는 않다. 왜냐면 같은 부서를 가진 데이터끼리만 정렬을 시켰기 때문이다. 실제로 아래 SQL문을 실행시킬 때 인덱스를 활용하지 못한다.
SELECT * FROM users
WHERE 이름 = '이재현';
따라서 멀티 컬럼 인덱스에서 일반 인덱스처럼 활용할 수 있는 건 처음에 배치된 컬럼들뿐이다.
✅ 멀티 컬럼 인덱스를 구성할 때 ‘소분류 → 중분류 → 대분류’ 컬럼순으로 구성하기
멀티 컬럼 인덱스를 만들 때는 순서에 주의해야 한다. 왜냐하면 순서를 어떻게 정해서 인덱스를 만드느냐에 따라서 성능 차이가 나기 때문이다.
먼저 직관적으로 이해해보자. 대기업에서 회계 부서의 박미나를 찾아야 한다고 가정하자. 회계 부서의 모든 인원을 만나본 뒤에 박미나를 찾는게 빠를까? 아니면 박미나라는 이름을 가진 동명이인 사람들한테 직접 찾아가서 회계 부서인지를 물어보는 게 빠를까?
일반적으로 회계 부서의 인원보다 박미나라는 이름을 가진 인원이 훨씬 적기 때문에, 박미나를 먼저 찾은 뒤에 회계 부서인지를 물어보는게 빠를 것이다. 이를 일반화해서 표현하자면 ‘소분류를 먼저 탐색한 뒤, 대분류를 탐색하는 게 빠르다.’라고 할 수 있다. 컴퓨터도 이 특성이 동일하게 적용된다.
멀티 컬럼 인덱스에서도 배치한 컬럼의 순서대로 데이터를 탐색한다. (이름, 부서)의 순서대로 멀티 컬럼 인덱스를 구성했다면 먼저 일치하는 이름을 찾은 뒤, 일치하는 이름에서 부서를 찾는 식으로 처리한다.
따라서 멀티 컬럼 인덱스를 구성할 때는 데이터 중복도가 낮은(≒ 카디널리티가 높은) 컬럼이 앞쪽으로 오는 게 좋은 경우가 많다.
(항상 그런 건 아니니 실행 계획과 SQL문 실행 속도를 측정해서 판단하도록 하자.)
⭐
[이것만은 꼭 기억해두자!]
- 멀티 컬럼 인덱스 컬럼의 순서는 매우 중요하다.
- 멀티 컬럼 인덱스에서 처음에 배치된 컬럼들은 일반 인덱스처럼 활용할 수 있다.
- 멀티 컬럼 인덱스를 구성할 때 데이터 중복도가 낮은 컬럼이 앞쪽으로 오는 게 좋다.