JSCODE Logo
블로그후기멘토진
회사명 : JSCODE대표 : 박재성사업자 등록번호 : 244-22-01557통신판매업 : 제 2023-인천미추홀-0381 호
학원 명칭 : 제이에스코드(JSCODE)원격학원학원설립ㆍ운영 등록번호 : 제6063호

서울특별시 구로구 경인로 20가길 11(오류동, 아델리아)

Copyright ⓒ 2025 JSCODE - 최상위 현업 개발자들의 프로그래밍 교육 All rights reserved.

이용약관개인정보처리방침
← 블로그 목록으로 돌아가기

[실습] RAG ETL 파이프라인 구현

JSCODE 시니
JSCODE 시니
2026. 06. 13.
author
JSCODE 시니
category
Spring AI
createdAt
Jun 13, 2026 09:53 AM
isPublic
isPublic
series
실무에 바로 적용하는 Spring AI: Spring 서비스에 챗봇·RAG·MCP 도입하기
slug
practice-implementing-rag-etl-pipeline
type
post
updatedAt

✅ 1. Extract 구현

application.yaml
app: rag: documents-location-pattern: classpath:spring-ai-llm.pdf
RagConfig.java
package com.jscode.chat.rag; @Configuration public class RagConfig { @Bean public List<DocumentReader> documentReaders(@Value("${app.rag.documents-location-pattern}") String documentsLocationPattern) throws IOException { // 1. 설정한 경로 패턴에 맞는 파일 찾기 PathMatchingResourcePatternResolver resolver = new PathMatchingResourcePatternResolver(); Resource[] resources = resolver.getResources(documentsLocationPattern); // 2. 찾아온 파일들을 담을 빈 리스트 생성 List<DocumentReader> readers = new ArrayList<>(); // 3. 파일의 개수만큼 for문을 돌면서 tika로 예쁘게 포장해서 리스트에 넣기 for(Resource resource : resources){ readers.add(new TikaDocumentReader(resource)); } // 4. 리스트 반환 return readers; } }
 
 
 

✅ 2. Transform 구현

  • 영어 ‘Apple’은 1토큰이지만, 한글 ‘사과’는 모델에 따라 2~3토큰으로 쪼개 지기도함
  • 이것을 방지하기 위해 글자수 그대로 자르는 로직을 구현해보자
notion image
LengthTextSplitter.java
package com.jscode.chat.rag; import org.springframework.ai.transformer.splitter.TextSplitter; import org.springframework.util.StringUtils; import java.util.ArrayList; import java.util.List; /* 글자수 기반 슬라이딩 윈도우 텍스트 분할기 긴 문서를 지정된 글자수(chunkSize)만큼 자르되, 문맥이 끊기지 않도록 이전 조각과 일정 부분을 겹치게(chunkOverlap) 자르는 클래스 */ public class LengthTextSplitter extends TextSplitter { private final int chunkSize; // 한 조각(Chunk)의 최대 글자 수 (예: 1000자) private final int chunkOverlap; // 다음 조각과 겹치게 할 글자 수 (예: 200자) /* 객체를 생성할 때 자를 크기와, 겹칠 크기를 필수적으로 받기! */ public LengthTextSplitter(int chunkSize, int chunkOverlap) { this.chunkSize = chunkSize; this.chunkOverlap = chunkOverlap; } @Override protected List<String> splitText(String text) { // "안녕하세요반갑습니다"(10글자), chunk:5, over:2 // 1. 잘라낼 조각들을 담을 빈 리스트 생성 List<String> chunks = new ArrayList<>(); // 2. 만약 넘어온 텍스트가 비어있거나, 공백뿐이라면 자를게 없으므로 그대로 리턴 if(!StringUtils.hasText(text)){ return chunks; } int textLength = text.length(); // 10글자 // 3. 자르기 시작할 '시작점(인덱스)'를 0으로 세팅 int chunkStart = 0; // 4. 끝까지 반복해서 자르기 while (chunkStart < textLength) { // [끝점 계산] 자를 조각의 끝점 계산 // (시작점 + 자를 크기)를 하되, 만약 남은 글자가 부족해서 전체 길이를 넘어가 버리면 전체 길이에서 딱 멈추기 int chunkEnd = Math.min(chunkStart + chunkSize, textLength); // 5,10중에 작은값 5 / 8,10 중에 작은값 8 // [자르기] String slicedText = text.substring(chunkStart, chunkEnd); // "안녕하세요", "세요반갑습" chunks.add(slicedText); // [다음 시작점 계산] // 방금 자른 조각의 '끝점'에서 '겹칠 크기(Overlap)'만큼 뒤로 되돌아간 곳이 다음 번 시작점이 됨 // 이렇게 해야 다음 조각을 자를 때 이전 조각의 뒷부분이 자연스럽게 포함됨. int nextStart = chunkEnd - chunkOverlap; // 3 // 남은 텍스트가 너무 짧거나 설정 오류로 인해 다음 시작점이 제자리에 머물거나 뒤로 밀리면 무한루프에 빠짐. // 이를 방지하기 위해 강제로 반복문을 탈출 if (nextStart <= chunkStart) { break; } // [위치 이동] 시작점을 방금 계산한 다음 시작점으로 이동시키고 다시 루프를 돌기 chunkStart = nextStart; // 3 } // 5. 리스트 반환 return chunks; } }
RagConfig.java
@Bean public DocumentTransformer textSplitter(){ return new LengthTextSplitter(200,100); } @Bean public DocumentTransformer keywordMetadataEnricher(ChatModel chatModel){ return new KeywordMetadataEnricher(chatModel, 4); }
 
 
 

✅ 3-1. Load 구현

  • 원본 문서가 텍스트 분할기에 의해 어떻게 쪼개졌는지 확인해보기
  • VectorStore에 담기는 데이터를 저장하기 전 확인!
RagConfig.java
@Bean public DocumentWriter jsonConsoleDocumentWriter(ObjectMapper objectMapper){ // 앞 단계에서 가공되어 넘어온 문서 조각 리스트(documents)를 받아서 로직실행 return documents -> { // 1. 현재 들어온 총 문서 조각(Chunk)의 개수가 몇 개인지 콘솔에 명확하게 표기 System.out.println("======= 저장할 문서 조각(Chunk) 개수: " + documents.size() + " ========"); try { // 들여쓰기와 줄바꿈 적용된 예쁜 JSON 문자열로 출력 String jsonString = objectMapper.writerWithDefaultPrettyPrinter().writeValueAsString(documents); System.out.println(jsonString); } catch (Exception e) { System.out.println("JSON 변환 중 에러가 발생했습니다: " + e.getMessage()); } System.out.println("======================================================"); }; }
 
 
 

✅ 3-2 Load 구현

build.gradle
implementation 'org.springframework.ai:spring-ai-starter-model-ollama' // implementation 'org.springframework.ai:spring-ai-starter-model-openai'
  • 임베딩 모델은 ollama의 모델로 사용하기 위해 해당 부분 변경
#[2] Ollama 설정 ollama: init: pull-model-strategy: when_missing chat: model: hf.co/Qwen/Qwen2.5-1.5B-Instruct-GGUF embedding: options: model: bge-m3
 
 
 

✅ 4. ETL 파이프라인 구성하기

application.yaml
app: rag: documents-location-pattern: classpath:spring-ai-llm.pdf etl: pipeline: init: true
RagConfig.java
@ConditionalOnProperty(prefix = "app.etl.pipeline", name = "init", havingValue = "true") @Order(1) // 다른 실행 코드들보다 가장 먼저 파이프라인을 가동하라 @Bean public ApplicationRunner initEtlPipeline( List<DocumentReader> documentReaders, // 1. Extract DocumentTransformer textSplitter, // 2. Transform DocumentTransformer keywordMetadataEnricher, List<DocumentWriter> documentWriters) { // 3. Load(콘솔 출력기, VectorDB 등) return args -> { System.out.println("[System] ETL 파이프라인 가동 시작"); // 1. 등록된 모든 파일 리더기(Reader)들을 하나씩 꺼내서 실행 for (DocumentReader reader : documentReaders) { // 1. Extract 원본 파일에서 거대한 텍스트 덩어리를 읽어오기 List<Document> rawDocuments = reader.get(); System.out.println("[Extract] 파일 읽기 완료"); // 2. Transform 읽어온 문서를 AI가 소화하기 좋게 조각조각(Chunk) 자르기 List<Document> chunkedDocuments = textSplitter.apply(rawDocuments); System.out.println("[Transform] 문서 분할 완료"); // 키워드 추출기 이어서 적용 chunkedDocuments = keywordMetadataEnricher.apply(chunkedDocuments); // 3. Load 가공된 문서 조각들을 준비된 모든 저장소에 집어넣음 for (DocumentWriter writer : documentWriters) { writer.accept(chunkedDocuments); } System.out.println("[Load] 저장소 적재 완료"); } System.out.println("[System] ETL 파이프라인 적재 종료"); }; }