JSCODE Logo
프로그래밍 과외블로그후기멘토진
회사명 : JSCODE대표 : 박재성사업자 등록번호 : 244-22-01557통신판매업 : 제 2023-인천미추홀-0381 호
학원 명칭 : 제이에스코드(JSCODE)원격학원학원설립ㆍ운영 등록번호 : 제6063호

서울특별시 구로구 경인로 20가길 11(오류동, 아델리아)

Copyright ⓒ 2025 JSCODE - 최상위 현업 개발자들의 프로그래밍 교육 All rights reserved.

이용약관개인정보처리방침
← 블로그 목록으로 돌아가기

[실습] 대소문자 구분 없이 검색 / 단어 순서 상관없이 검색 / HTML 태그 섞이지 않게 검색

JSCODE 박재성
JSCODE 박재성
2025-12-06
author
JSCODE 박재성
category
Elasticsearch
createdAt
Dec 6, 2025
series
실전에서 바로 써먹는 Elasticsearch 입문 (검색 최적화편)
slug
exercise-case-insensitive-order-independent-html-strip
type
post
updatedAt
Dec 6, 2025 04:48 AM

✅ 요구사항 반영하기

대소문자 구분없이 검색할 수 있어야 한다.
단어의 순서에 상관없이 검색할 수 있어야 한다.
  • ex) 삼성 노트북이라는 상품을 노트북 삼성이라고 검색해도 조회가 되야 한다.
상품 설명에 HTML 태그가 섞여서 저장되어 있는데, 검색할 때는 HTML 태그로 검색되지 않아야 한다.
 
  1. 대소문자 구분없이 검색할 수 있게 만들기
    1. 대소문자를 구분없이 검색하려면 Analyzer의 구성요소인 token filter로 lowercase가 적용돼야 한다. 하지만 인덱스를 만들 때 Analyzer 또는 token filter에 대해 아무 설정도 하지 않았다.
      이전 강의(
      📖
      Elasticsearch에 기본값으로 설정되어 있는 애널라이저(Analyzer)
      )에서 잠깐 설명했었는데, 아무런 설정을 하지 않으면 standard analyzer가 설정된다고 했다. standard analyzer는 다음과 같은 구성으로 이루어져있다.
      "char_filter": [], "tokenizer": "standard", "filter": ["lowercase"]
      즉, 아무런 설정을 하지 않아도 lowercase가 적용되어 있다. 정말 그런 지 테스트해보자.
       
      [Analyze API를 통해 디버깅하기]
      GET /products/_analyze { "field": "name", "text": "Samsung TV" }
       
      응답값
      { "tokens": [ { "token": "samsung", "start_offset": 0, "end_offset": 7, "type": "<ALPHANUM>", "position": 0 }, { "token": "tv", "start_offset": 8, "end_offset": 10, "type": "<ALPHANUM>", "position": 1 } ] }
      Analyzer가 나눈 토큰을 살펴보면 lowercase가 잘 적용됐음을 알 수 있다. (정말 검색이 잘 되는 지는 맨 마지막에 한꺼번에 테스트 할 예정이다.)
       
  1. 단어의 순서에 상관없이 검색 잘 되게 만들기
    1. 데이터 유형을 text로 설정하면 Analyer가 값을 토큰으로 나눠서 역인덱스에 저장하기 때문에 단어의 순서에 상관없이 검색이 잘 된다. 반면, keyword 타입은 필드 값을 토큰으로 나누지 않고 통째로 역인덱스에 저장한다. 따라서 단어의 순서가 바뀌면 다른 값으로 인식해 검색되지 않는다.
       
      [기존 매핑 정의]
      PUT /products { "mappings": { "properties": { "id": { "type": "long" }, "name": { "type": "text" // 유연한 검색 필요 }, "description": { "type": "text" // 유연한 검색 필요 }, "price": { "type": "integer" // 10억 이하의 정수 }, "rating": { "type": "double" // 실수(소수점을 가진 숫자 포함) }, "category": { "type": "text" // 유연한 검색 필요 } } } }
      기존에 정의한 매핑에서 type을 text로 이미 설정해뒀기 때문에 단어의 순서가 바뀌더라도 검색이 잘 될 것이다. (정말 검색이 잘 되는 지는 맨 마지막에 한꺼번에 테스트 할 예정이다.)
       
  1. HTML 태그로 검색되지 않게 만들기
    1. HTML 태그로 검색되지 않게 만드려면 역인덱스에 토큰을 저장할 때 HTML 태그는 제거하고 토큰을 저장해야 한다. 그러려면 character filter로 html_strip을 활용해야 한다.
       
      기존 인덱스에 설정되어 있는 Analyzer의 구성 요소를 수정하려면 인덱스를 재생성해야 한다. 삭제하고 다시 만들자.
      DELETE /products PUT /products { "settings": { "analysis": { // 커스텀 애널라이저 정의 "analyzer": { "products_description_analyzer": { "char_filter": ["html_strip"], "tokenizer": "standard", "filter": ["lowercase"] } } } }, "mappings": { "properties": { "id": { "type": "long" }, "name": { "type": "text" // 유연한 검색 필요 }, "description": { "type": "text", // 유연한 검색 필요 "analyzer": "products_description_analyzer" }, "price": { "type": "integer" // 10억 이하의 정수 }, "rating": { "type": "double" // 실수(소수점을 가진 숫자 포함) }, "category": { "type": "text" // 유연한 검색 필요 } } } } GET /products
       
      description 필드에 데이터를 넣으면 정말 HTML 태그를 제거하고 토큰으로 저장하는 지 Analyze API를 활용해 체크해보자.
      GET /products/_analyze { "field": "description", "text": "<h1>상품 설명</h1>" }
       
      [응답값]
      { "tokens": [ { "token": "상품", "start_offset": 4, "end_offset": 6, "type": "<HANGUL>", "position": 0 }, { "token": "설명", "start_offset": 7, "end_offset": 9, "type": "<HANGUL>", "position": 1 } ] }
      응답값을 살펴보면 HTML 태그를 제거하고 토큰으로 잘 저장하고 있는 걸 확인할 수 있다.
       
      시험 삼아 다른 필드에서도 테스트해보자.
      GET /products/_analyze { "field": "name", "text": "<h1>상품 설명</h1>" }
       
      [응답값]
      { "tokens": [ { "token": "h1", "start_offset": 1, "end_offset": 3, "type": "<ALPHANUM>", "position": 0 }, { "token": "상품", "start_offset": 4, "end_offset": 6, "type": "<HANGUL>", "position": 1 }, { "token": "설명", "start_offset": 7, "end_offset": 9, "type": "<HANGUL>", "position": 2 }, { "token": "h1", "start_offset": 11, "end_offset": 13, "type": "<ALPHANUM>", "position": 3 } ] }
      html_strip 필터가 적용되지 않아서 HTML 태그도 같이 토큰으로 저장됐다.
       
  1. 요구사항을 잘 반영했는 지 테스트해보기
    1. 3가지 요구사항을 전부 만족시킨 채로 셋팅했다. 데이터를 넣고 검색을 했을 때도 잘 작동하는 지 체크해보자.
       
      [데이터 삽입하기]
      POST /products/_doc { "id": 1, "name": "Samsung TV", "description": "<strong>The Best TV</strong>", "price": 10000, "rating": 5.0, "category": "Home" }
       
      [검색해보기]
      // 대소문자 섞어서 검색해보기 + 단어의 순서에 상관없이 검색해보기 GET /products/_search { "query": { "multi_match": { "query": "tv SAMSUNG", "fields": [ "name^3", "description^1", "category^2" ] } } } // HTML 태그로 검색해보기 GET /products/_search { "query": { "multi_match": { "query": "strong", "fields": [ "name^3", "description^1", "category^2" ] } } }
      • 대소문자와 상관없이 검색이 잘 되는 걸 확인할 수 있다.
      • 단어의 순서와 상관없이 검색이 잘 되는 걸 확인할 수 있다.
      • HTML 태그로 검색했을 때 검색이 되지 않는 걸 확인할 수 있다.
       
author
JSCODE 박재성
category
Elasticsearch
createdAt
Dec 6, 2025
series
실전에서 바로 써먹는 Elasticsearch 입문 (검색 최적화편)
slug
type
series-footer
updatedAt
Dec 6, 2025 05:12 AM
📎
이 글은 실전에서 바로 써먹는 Elasticsearch 입문 (검색 최적화편) 강의의 수업 자료 중 일부입니다.