JSCODE Logo
프로그래밍 과외블로그후기멘토진
회사명 : JSCODE대표 : 박재성사업자 등록번호 : 244-22-01557통신판매업 : 제 2023-인천미추홀-0381 호
학원 명칭 : 제이에스코드(JSCODE)원격학원학원설립ㆍ운영 등록번호 : 제6063호

서울특별시 구로구 경인로 20가길 11(오류동, 아델리아)

Copyright ⓒ 2025 JSCODE - 최상위 현업 개발자들의 프로그래밍 교육 All rights reserved.

이용약관개인정보처리방침
← 블로그 목록으로 돌아가기

[실습] 단어의 형태(-ed, -ing, -s 등)에 상관없이 검색하는 방법 (stemmer)

JSCODE 박재성
JSCODE 박재성
2025-12-06
author
JSCODE 박재성
category
Elasticsearch
createdAt
Dec 6, 2025
series
실전에서 바로 써먹는 Elasticsearch 입문 (검색 최적화편)
slug
exercise-stemmer
type
post
updatedAt
Dec 6, 2025 04:48 AM

✅ 단어의 형태(-ed, -ing, -s, -er 등)에 상관없이 검색하는 방법

영어 단어를 보면 play, playing, played, player 등 다양한 형태로 사용된다. 검색을 할 때 단어의 형태에 상관없이 검색이 가능하다면 훨씬 편하게 원하는 데이터를 조회할 수 있을 것이다. 지금부터 단어의 형태에 상관없이 검색하는 방법에 대해 알아보자.
 
  1. Custom Analyzer를 활용해 인덱스 생성하기
    1. // 기존 인덱스 삭제 DELETE /boards // 인덱스 생성 + 매핑 정의 + Custom Analyzer 적용 PUT /boards { "settings": { "analysis": { "analyzer": { "boards_content_analyzer": { "char_filter": [], "tokenizer": "standard", "filter": ["lowercase"] } } } }, "mappings": { "properties": { "content": { "type": "text", "analyzer": "boards_content_analyzer" } } } } // 잘 생성됐는 지 확인 GET /boards
      이번 Analyzer에는 standard tokenizer(공백 또는 ,, ., !, ?와 같은 문장 부호를 기준으로 문자열을 자름)와 lowercase token filter(소문자로 변환)만 설정했다.
 
  1. 데이터 삽입하기
    1. POST /boards/_doc { "content": "Running cats, jumping!" }
       
  1. 검색해보기
    1. GET /boards/_search { "query": { "match": { "content": "run" } } } GET /boards/_search { "query": { "match": { "content": "cat" } } } GET /boards/_search { "query": { "match": { "content": "jumped" } } }
      위 쿼리로 검색해보면 데이터가 조회되지 않는다. 왜 데이터가 조회되지 않는 지 Analyze API로 분석해보자.
 
  1. Analyze API 사용하기
    1. GET /boards/_analyze { "field": "content" "text": "Running cats, jumping!" }
       
      응답값
      { "tokens": [ { "token": "running", "start_offset": 0, "end_offset": 7, "type": "<ALPHANUM>", "position": 0 }, { "token": "cats", "start_offset": 8, "end_offset": 12, "type": "<ALPHANUM>", "position": 1 }, { "token": "jumping", "start_offset": 14, "end_offset": 21, "type": "<ALPHANUM>", "position": 2 } ] }
      분리된 토큰을 살펴보면 검색할 때 영어 단어의 형태까지 일치시켜서 정확하게 입력해야만 검색이 된다는 걸 알 수 있다. 하지만 실제 검색을 하다보면 정확한 단어 형태가 떠오르지 않아서 비슷한 단어를 입력해서 검색을 하는 경우가 대부분이다. 이 불편함을 해결해보자.
       
  1. Custom Analyzer를 활용해 인덱스 다시 생성하기
    1. 이번에는 token filter에 stemmer을 추가해서 인덱스를 생성해보자. stemmer은 영단어를 기본형으로 변환한 후에 토큰으로 저장한다.
      // 기존 인덱스 삭제 DELETE /boards // 인덱스 생성 + 매핑 정의 + Custom Analyzer 적용 PUT /boards { "settings": { "analysis": { "analyzer": { "boards_content_analyzer": { "char_filter": [], "tokenizer": "standard", "filter": ["lowercase", "stemmer"] } } } }, "mappings": { "properties": { "content": { "type": "text", "analyzer": "boards_content_analyzer" } } } } // 잘 생성됐는 지 확인 GET /boards
       
  1. 데이터 삽입하기
    1. GET /boards/_doc { "content": "Running cats, jumping!" }
       
  1. 검색해보기
    1. GET /boards/_search { "query": { "match": { "content": "run" } } } GET /boards/_search { "query": { "match": { "content": "cat" } } } GET /boards/_search { "query": { "match": { "content": "jumped" } } }
      token filter로 stemmer를 추가한 이후로 변형된 단어로도 검색이 잘 된다. 왜 그런지 Analyze API로 확인해보자.
 
  1. Analyze API 사용하기
    1. GET /boards/_analyze { "field": "content", "text": "Running cats, jumping!" }
       
      응답값
      { "tokens": [ { "token": "run", "start_offset": 0, "end_offset": 7, "type": "<ALPHANUM>", "position": 0 }, { "token": "cat", "start_offset": 8, "end_offset": 12, "type": "<ALPHANUM>", "position": 1 }, { "token": "jump", "start_offset": 14, "end_offset": 21, "type": "<ALPHANUM>", "position": 2 } ] }
      응답값을 보면 영단어의 기본 형태로 저장되어 있는 걸 확인할 수 있다. 여기서 jumped라고 검색했는데도 데이터가 잘 조회된 이유를 다시 한 번 짚어보자.
      notion image
      도큐먼트를 생성할 때 Analyzer가 문자열을 토큰으로 변환해 역인덱스를 생성한다. 그런데 검색을 할 때도 Analyzer가 검색어로 입력한 문자열을 토큰으로 변환해 검색한다.
      이 때문에 jumped이라고 검색어를 입력하더라도 stemmer에 의해 jump로 바뀐 채로 검색을 하게 된다. 그래서 jumped라고 검색했는데도 불구하고 도큐먼트가 조회된 것이다.
       

✅ 정리

play, playing, played, player와 같이 영단어의 형태에 상관없이 검색을 할 수 있게 만들고 싶다면 token filter로 stemmer 적용을 고려해보자.
 
👨🏻‍🏫
다음 강의에서는 Analyzer의 또 다른 기능에 대해 배워보도록 하자.
 
author
JSCODE 박재성
category
Elasticsearch
createdAt
Dec 6, 2025
series
실전에서 바로 써먹는 Elasticsearch 입문 (검색 최적화편)
slug
type
series-footer
updatedAt
Dec 6, 2025 05:12 AM
📎
이 글은 실전에서 바로 써먹는 Elasticsearch 입문 (검색 최적화편) 강의의 수업 자료 중 일부입니다.