Elasticsearch에 기본값으로 설정되어 있는 애널라이저(Analyzer)

author

JSCODE 박재성

✅ 기본값으로 설정되어 있는 애널라이저(Analyzer)

Elasticsearch에서 제공하는 애널라이저로는 standard, simple, whitespace 등 다양한 종류가 있다. 그 중 기본값으로 설정되어 있는 애널라이저는 standard analyzer이다.

이전 강의에서 애널라이저는 3가지(character filter, tokenizer, token filter)로 이루어져있다고 설명했다. standard analyzer는 charcater filter는 설정되어 있지 않고, tokenizer는 standard로 설정되어 있고, token filter는 lowercase인 애널라이저를 뜻한다.

tokenizer(standard) : 공백 또는 ,, ., !, ?와 같은 문장 부호를 기준으로 문자열을 자름

token filter(lowercase) : 소문자로 변환

✅ standard analyzer 표현 방식

Elasitcsearch에서 standard analyzer를 표현하는 방식은 크게 2가지가 있다. 1번의 방식으로 표현하든 2번의 방식으로 표현하든 똑같이 작동한다. 다음 실습에서 쓰일 문법이니 봐두자.


// 방법 1
"analyzer": "standard"

// 방법 2
"char_filter": [], 
"tokenizer": "standard", 
"filter": ["lowercase"]

✅ 이전 실습 다시 되짚어보기

이전 실습에서는 아래와 같이 토큰이 나뉜다고 설명했다. 얼추 비슷하긴 하지만 틀린 부분이 존재한다.


POST /products/_create/1
{
  "name": "Apple 2025 맥북 에어 13 M4 10코어"
}

POST /products/_create/2
{
  "name": "Apple 2024 에어팟 4세대"
}

POST /products/_create/3
{
  "name": "Apple 2024 아이패드 mini A17 Pro"
}

토큰(token)	도큐먼트 id
Apple	[1, 2, 3]
2025	[1]
맥북	[1]
에어	[1]
13	[1]
M4	[1]
10코어	[1]
2024	[2, 3]
에어팟	[2]
4세대	[2]
아이패드	[3]
mini	[3]
A17	[3]
Pro	[3]

[제대로 된 토큰 형태]

기본값으로 설정되어 있는 standard analyzer는 lowercase라는 character filter가 있기 때문에 소문자로 변환해서 토큰을 저장한다. 따라서 아래와 같이 역인덱스가 생성됐다고 설명하는 게 정확한 설명이다.

토큰(token)	도큐먼트 id
apple	[1, 2, 3]
2025	[1]
맥북	[1]
에어	[1]
13	[1]
m4	[1]
10코어	[1]
2024	[2, 3]
에어팟	[2]
4세대	[2]
아이패드	[3]
mini	[3]
a17	[3]
pro	[3]

👨🏻‍🏫

애널라이저(Analyzer)가 문자열을 어떻게 토큰으로 나누는 지 이론적으로 알아봤다. 개발 공부를 할 때는 배운대로 작동하는 지 눈으로 확인하는 과정이 굉장히 중요하다. 그리고 제대로 작동하는 지 확인하는 방법을 알아야만 디버깅을 훨씬 쉽게 할 수 있다. 따라서 다음 강의에서는 애널라이저(Analyer)가 문자열을 어떤 형태의 토큰으로 잘랐는지 확인하는 방법을 알아보자.

author

JSCODE 박재성