JSCODE Logo
프로그래밍 과외블로그후기멘토진
회사명 : JSCODE대표 : 박재성사업자 등록번호 : 244-22-01557통신판매업 : 제 2023-인천미추홀-0381 호
학원 명칭 : 제이에스코드(JSCODE)원격학원학원설립ㆍ운영 등록번호 : 제6063호

서울특별시 구로구 경인로 20가길 11(오류동, 아델리아)

Copyright ⓒ 2025 JSCODE - 최상위 현업 개발자들의 프로그래밍 교육 All rights reserved.

이용약관개인정보처리방침
← 블로그 목록으로 돌아가기

역인덱스(Inverted Index)란?

JSCODE 박재성
JSCODE 박재성
2025-12-06
author
JSCODE 박재성
category
Elasticsearch
createdAt
Dec 6, 2025
series
실전에서 바로 써먹는 Elasticsearch 입문 (검색 최적화편)
slug
what-is-inverted-index
type
post
updatedAt
Dec 6, 2025 04:48 AM

✅ 역인덱스(Inverted Index)란?

역인덱스(Inverted Index)는 필드 값을 단어마다 쪼개서 찾기 쉽게 정리해놓은 목록이다. 글로 이해하려면 어렵다. 예시를 바로 살펴보자.
POST /products/_create/1 { "name": "Apple 2025 맥북 에어 13 M4 10코어" } POST /products/_create/2 { "name": "Apple 2024 에어팟 4세대" } POST /products/_create/3 { "name": "Apple 2024 아이패드 mini A17 Pro" }
위와 같은 3개의 도큐먼트를 Elasticsearch에 저장한다고 가정하자. 그러면 Elasticsearch는 내부적으로 아래와 같이 데이터를 저장해둔다.
 
  1. 단어 단위로 자르기
    1. "name": "Apple 2025 맥북 에어 13 M4 10코어"
      → [Apple, 2025, 맥북, 에어, 13, M4, 10코어]
       
      "name": "Apple 2024 에어팟 4세대"
      → [Apple, 2024, 에어팟, 4세대]
       
      "name": "Apple 2024 아이패드 mini A17 Pro"
      → [Apple, 2024, 아이패드, mini, A17, Pro]
       
  1. 역인덱스로 저장
    1. products의 name 필드에 대한 역인덱스
      토큰(token)
      도큐먼트 id
      Apple
      [1, 2, 3]
      2025
      [1]
      맥북
      [1]
      에어
      [1]
      13
      [1]
      M4
      [1]
      10코어
      [1]
      2024
      [2, 3]
      에어팟
      [2]
      4세대
      [2]
      아이패드
      [3]
      mini
      [3]
      A17
      [3]
      Pro
      [3]
      • 필드값에서 추출돼 역인덱스에 저장된 단어를 보고 토큰(token)이라고 부른다.
      • 생성된 역인덱스를 직접 눈으로 확인할 수는 없다. 시스템 내부적으로 생성될 뿐이다.
       
  1. 검색을 할 경우 역인덱스를 활용
    1. Apple 2024 아이패드라고 검색하면 역인덱스를 활용해 일치하는 단어가 많은 도큐먼트를 우선적으로 조회한다.
      토큰(token)
      도큐먼트 id
      Apple
      [1, 2, 3]
      2025
      [1]
      맥북
      [1]
      에어
      [1]
      13
      [1]
      M4
      [1]
      10코어
      [1]
      2024
      [2, 3]
      에어팟
      [2]
      4세대
      [2]
      아이패드
      [3]
      mini
      [3]
      A17
      [3]
      Pro
      [3]
      • id가 1인 도큐먼트 : 단어 1개 일치
      • id가 2인 도큐먼트 : 단어 2개 일치
      • id가 3인 도큐먼트 : 단어 3개 일치
       
      이와 같은 Elasticsearch의 자체적인 로직으로 score(점수)를 매겨 score가 높은 순(id=3 → id=2 → id=1)으로 도큐먼트를 조회한다. 일반적으로 검색어와 관련성이 높으면 높을수록 score(점수)가 높게 측정된다.
       
      참고) 대략적인 score 계산 로직
      1. Term Frequency (TF)
        1. 문서 내에서 검색어가 얼마나 자주 등장하냐
          → 많이 등장할수록 점수↑
      1. Inverse Document Frequency (IDF)
        1. 검색어가 전체 문서 중 얼마나 희귀하냐
          → 희귀할수록 점수↑ (흔한 단어일수록 점수↓)
      1. Field Length Normalization
        1. 문서(필드)가 짧을수록 점수↑
          → 검색어가 짧은 문서에서 등장하면 더 관련성 높다고 판단
 
Elasticsearch가 역인덱스(Inverted Index)의 기능을 가지고 있기 때문에, 단어의 순서랑 상관없이 도큐먼트를 조회해올 수 있는 것이다. 참고) 이런 작동 구조는 데이터 타입의 text 타입에 한해서만 적용된다.
 
👨🏻‍🏫
다음 강의에서는 방금 설명한 역인덱스를 활용해 데이터를 직접 조회해보자.
 
author
JSCODE 박재성
category
Elasticsearch
createdAt
Dec 6, 2025
series
실전에서 바로 써먹는 Elasticsearch 입문 (검색 최적화편)
slug
type
series-footer
updatedAt
Dec 6, 2025 05:12 AM
📎
이 글은 실전에서 바로 써먹는 Elasticsearch 입문 (검색 최적화편) 강의의 수업 자료 중 일부입니다.