standard, simple, whitespace 등 다양한 종류가 있다. 그 중 기본값으로 설정되어 있는 애널라이저는 standard analyzer이다. standard로 설정되어 있고, token filter는 lowercase인 애널라이저를 뜻한다. 
tokenizer(standard) : 공백 또는 ,, ., !, ?와 같은 문장 부호를 기준으로 문자열을 자름token filter(lowercase) : 소문자로 변환// 방법 1 "analyzer": "standard" // 방법 2 "char_filter": [], "tokenizer": "standard", "filter": ["lowercase"]
POST /products/_create/1 { "name": "Apple 2025 맥북 에어 13 M4 10코어" } POST /products/_create/2 { "name": "Apple 2024 에어팟 4세대" } POST /products/_create/3 { "name": "Apple 2024 아이패드 mini A17 Pro" }
토큰(token) | 도큐먼트 id |
Apple | [1, 2, 3] |
2025 | [1] |
맥북 | [1] |
에어 | [1] |
13 | [1] |
M4 | [1] |
10코어 | [1] |
2024 | [2, 3] |
에어팟 | [2] |
4세대 | [2] |
아이패드 | [3] |
mini | [3] |
A17 | [3] |
Pro | [3] |
lowercase라는 character filter가 있기 때문에 소문자로 변환해서 토큰을 저장한다. 따라서 아래와 같이 역인덱스가 생성됐다고 설명하는 게 정확한 설명이다. 토큰(token) | 도큐먼트 id |
apple | [1, 2, 3] |
2025 | [1] |
맥북 | [1] |
에어 | [1] |
13 | [1] |
m4 | [1] |
10코어 | [1] |
2024 | [2, 3] |
에어팟 | [2] |
4세대 | [2] |
아이패드 | [3] |
mini | [3] |
a17 | [3] |
pro | [3] |