[실습] 대소문자 구분 없이 검색 / 단어 순서 상관없이 검색 / HTML 태그 섞이지 않게 검색

← 블로그 목록으로 돌아가기

author

JSCODE 박재성

✅ 요구사항 반영하기

대소문자 구분없이 검색할 수 있어야 한다.

단어의 순서에 상관없이 검색할 수 있어야 한다.

ex) 삼성 노트북이라는 상품을 노트북 삼성이라고 검색해도 조회가 되야 한다.

상품 설명에 HTML 태그가 섞여서 저장되어 있는데, 검색할 때는 HTML 태그로 검색되지 않아야 한다.

대소문자 구분없이 검색할 수 있게 만들기

대소문자를 구분없이 검색하려면 Analyzer의 구성요소인 token filter로 lowercase가 적용돼야 한다. 하지만 인덱스를 만들 때 Analyzer 또는 token filter에 대해 아무 설정도 하지 않았다.

이전 강의(

📖

Elasticsearch에 기본값으로 설정되어 있는 애널라이저(Analyzer))에서 잠깐 설명했었는데, 아무런 설정을 하지 않으면 standard analyzer가 설정된다고 했다. standard analyzer는 다음과 같은 구성으로 이루어져있다.


"char_filter": [], 
"tokenizer": "standard", 
"filter": ["lowercase"]

즉, 아무런 설정을 하지 않아도 lowercase가 적용되어 있다. 정말 그런 지 테스트해보자.

[Analyze API를 통해 디버깅하기]


GET /products/_analyze
{
  "field": "name",
  "text": "Samsung TV"
}

응답값


{
  "tokens": [
    {
      "token": "samsung",
      "start_offset": 0,
      "end_offset": 7,
      "type": "<ALPHANUM>",
      "position": 0
    },
    {
      "token": "tv",
      "start_offset": 8,
      "end_offset": 10,
      "type": "<ALPHANUM>",
      "position": 1
    }
  ]
}

Analyzer가 나눈 토큰을 살펴보면 lowercase가 잘 적용됐음을 알 수 있다. (정말 검색이 잘 되는 지는 맨 마지막에 한꺼번에 테스트 할 예정이다.)

단어의 순서에 상관없이 검색 잘 되게 만들기

데이터 유형을 text로 설정하면 Analyer가 값을 토큰으로 나눠서 역인덱스에 저장하기 때문에 단어의 순서에 상관없이 검색이 잘 된다. 반면, keyword 타입은 필드 값을 토큰으로 나누지 않고 통째로 역인덱스에 저장한다. 따라서 단어의 순서가 바뀌면 다른 값으로 인식해 검색되지 않는다.

[기존 매핑 정의]


PUT /products
{
  "mappings": {
    "properties": {
      "id": {
        "type": "long"
      },
      "name": {
        "type": "text" // 유연한 검색 필요
      },
      "description": {
        "type": "text" // 유연한 검색 필요
      },
      "price": {
        "type": "integer" // 10억 이하의 정수
      },
      "rating": {
        "type": "double" // 실수(소수점을 가진 숫자 포함)
      },
      "category": {
        "type": "text" // 유연한 검색 필요 
      }
    }
  }
}

기존에 정의한 매핑에서 type을 text로 이미 설정해뒀기 때문에 단어의 순서가 바뀌더라도 검색이 잘 될 것이다. (정말 검색이 잘 되는 지는 맨 마지막에 한꺼번에 테스트 할 예정이다.)

HTML 태그로 검색되지 않게 만들기

HTML 태그로 검색되지 않게 만드려면 역인덱스에 토큰을 저장할 때 HTML 태그는 제거하고 토큰을 저장해야 한다. 그러려면 character filter로 html_strip을 활용해야 한다.

기존 인덱스에 설정되어 있는 Analyzer의 구성 요소를 수정하려면 인덱스를 재생성해야 한다. 삭제하고 다시 만들자.


DELETE /products

PUT /products
{
  "settings": {
    "analysis": {
      // 커스텀 애널라이저 정의
      "analyzer": {
        "products_description_analyzer": {
          "char_filter": ["html_strip"],
          "tokenizer": "standard",
          "filter": ["lowercase"]
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "id": {
        "type": "long"
      },
      "name": {
        "type": "text" // 유연한 검색 필요
      },
      "description": {
        "type": "text", // 유연한 검색 필요
        "analyzer": "products_description_analyzer"
      },
      "price": {
        "type": "integer" // 10억 이하의 정수
      },
      "rating": {
        "type": "double" // 실수(소수점을 가진 숫자 포함)
      },
      "category": {
        "type": "text" // 유연한 검색 필요 
      }
    }
  }
}

GET /products

description 필드에 데이터를 넣으면 정말 HTML 태그를 제거하고 토큰으로 저장하는 지 Analyze API를 활용해 체크해보자.


GET /products/_analyze
{
  "field": "description",
  "text": "<h1>상품 설명</h1>"
}

[응답값]


{
  "tokens": [
    {
      "token": "상품",
      "start_offset": 4,
      "end_offset": 6,
      "type": "<HANGUL>",
      "position": 0
    },
    {
      "token": "설명",
      "start_offset": 7,
      "end_offset": 9,
      "type": "<HANGUL>",
      "position": 1
    }
  ]
}

응답값을 살펴보면 HTML 태그를 제거하고 토큰으로 잘 저장하고 있는 걸 확인할 수 있다.

시험 삼아 다른 필드에서도 테스트해보자.


GET /products/_analyze
{
  "field": "name",
  "text": "<h1>상품 설명</h1>"
}

[응답값]


{
  "tokens": [
    {
      "token": "h1",
      "start_offset": 1,
      "end_offset": 3,
      "type": "<ALPHANUM>",
      "position": 0
    },
    {
      "token": "상품",
      "start_offset": 4,
      "end_offset": 6,
      "type": "<HANGUL>",
      "position": 1
    },
    {
      "token": "설명",
      "start_offset": 7,
      "end_offset": 9,
      "type": "<HANGUL>",
      "position": 2
    },
    {
      "token": "h1",
      "start_offset": 11,
      "end_offset": 13,
      "type": "<ALPHANUM>",
      "position": 3
    }
  ]
}

html_strip 필터가 적용되지 않아서 HTML 태그도 같이 토큰으로 저장됐다.

요구사항을 잘 반영했는 지 테스트해보기

3가지 요구사항을 전부 만족시킨 채로 셋팅했다. 데이터를 넣고 검색을 했을 때도 잘 작동하는 지 체크해보자.

[데이터 삽입하기]


POST /products/_doc
{
  "id": 1,
  "name": "Samsung TV",
  "description": "<strong>The Best TV</strong>",
  "price": 10000,
  "rating": 5.0,
  "category": "Home"
}

[검색해보기]


// 대소문자 섞어서 검색해보기 + 단어의 순서에 상관없이 검색해보기
GET /products/_search
{
  "query": {
    "multi_match": {
      "query": "tv SAMSUNG",
      "fields": [
        "name^3",
        "description^1",
        "category^2"
      ]
    }
  }
}

// HTML 태그로 검색해보기
GET /products/_search
{
  "query": {
    "multi_match": {
      "query": "strong",
      "fields": [
        "name^3",
        "description^1",
        "category^2"
      ]
    }
  }
}

대소문자와 상관없이 검색이 잘 되는 걸 확인할 수 있다.

단어의 순서와 상관없이 검색이 잘 되는 걸 확인할 수 있다.

HTML 태그로 검색했을 때 검색이 되지 않는 걸 확인할 수 있다.

author

JSCODE 박재성

category

Elasticsearch

createdAt

Dec 6, 2025 03:54 AM

isPublic

series

실전에서 바로 써먹는 Elasticsearch 입문 (검색 최적화편)

slug

type

series-footer

updatedAt

📎

이 글은 실전에서 바로 써먹는 Elasticsearch 입문 (검색 최적화편) 강의의 수업 자료 중 일부입니다.

{ "tokens": [ { "token": "samsung", "start_offset": 0, "end_offset": 7, "type": "<ALPHANUM>", "position": 0 }, { "token": "tv", "start_offset": 8, "end_offset": 10, "type": "<ALPHANUM>", "position": 1 } ] }

PUT /products { "mappings": { "properties": { "id": { "type": "long" }, "name": { "type": "text" // 유연한 검색 필요 }, "description": { "type": "text" // 유연한 검색 필요 }, "price": { "type": "integer" // 10억 이하의 정수 }, "rating": { "type": "double" // 실수(소수점을 가진 숫자 포함) }, "category": { "type": "text" // 유연한 검색 필요 } } } }

DELETE /products PUT /products { "settings": { "analysis": { // 커스텀 애널라이저 정의 "analyzer": { "products_description_analyzer": { "char_filter": ["html_strip"], "tokenizer": "standard", "filter": ["lowercase"] } } } }, "mappings": { "properties": { "id": { "type": "long" }, "name": { "type": "text" // 유연한 검색 필요 }, "description": { "type": "text", // 유연한 검색 필요 "analyzer": "products_description_analyzer" }, "price": { "type": "integer" // 10억 이하의 정수 }, "rating": { "type": "double" // 실수(소수점을 가진 숫자 포함) }, "category": { "type": "text" // 유연한 검색 필요 } } } } GET /products

{ "tokens": [ { "token": "상품", "start_offset": 4, "end_offset": 6, "type": "<HANGUL>", "position": 0 }, { "token": "설명", "start_offset": 7, "end_offset": 9, "type": "<HANGUL>", "position": 1 } ] }

{ "tokens": [ { "token": "h1", "start_offset": 1, "end_offset": 3, "type": "<ALPHANUM>", "position": 0 }, { "token": "상품", "start_offset": 4, "end_offset": 6, "type": "<HANGUL>", "position": 1 }, { "token": "설명", "start_offset": 7, "end_offset": 9, "type": "<HANGUL>", "position": 2 }, { "token": "h1", "start_offset": 11, "end_offset": 13, "type": "<ALPHANUM>", "position": 3 } ] }

// 대소문자 섞어서 검색해보기 + 단어의 순서에 상관없이 검색해보기 GET /products/_search { "query": { "multi_match": { "query": "tv SAMSUNG", "fields": [ "name^3", "description^1", "category^2" ] } } } // HTML 태그로 검색해보기 GET /products/_search { "query": { "multi_match": { "query": "strong", "fields": [ "name^3", "description^1", "category^2" ] } } }