전체 글(101)
-
[DB 비서 Project]
보호되어 있는 글입니다.
2026.04.07 -
[DB 비서 Project] 데이터 전처리 Prefix 적용 전 vs 후
RAG(Retrieval-Augmented Generation) 시스템의 성능을 결정짓는 것은 결국 데이터의 품질과 임베딩 전략이다. 2026년 4월 6일, PDF 전처리 파이프라인을 고도화하고 메타데이터 Prefix가 검색 품질에 미치는 영향을 심층 분석하였다. 여러 데이터가 뒤섞여있는 모습을 볼 수 있다. 이 상태에서 다시 실험 시작!!1. 실험 환경 및 데이터셋실험은 MacBook Air M2(MPS 가속) 환경에서 진행되었으며, jhgan/ko-sroberta-multitask 모델을 사용했다. 대상 데이터는 IT 인사이트 리포트, ESG 보고서, 고고학 자료 등 다양한 도메인이 섞인 PDF 25개로, 총 12,917개의 청크를 베이스라인으로 설정했다.항목상세 내용임베딩 모델ko-sroberta..
2026.04.06 -
[DB 비서 Project] 실전 데이터 임베딩 및 3D 시각화 분석
본 포스팅에서는 DB비서 파이프라인을 활용하여 25건의 실전 PDF 데이터를 처리하고, 이를 3차원 공간에 시각화하여 분석한 실험 결과를 정리해보려고 한다. 단순한 텍스트 검색을 넘어 데이터의 의미적 구조를 파악하고 검색 효율을 극대화하는 과정을 담았다.1. 실험 개요 및 환경이번 실험의 목적은 AI, SW 정책, ESG, 고고학 등 서로 이질적인 도메인의 한국어 PDF 25건을 대상으로 '추출 - 시맨틱 청킹 - 임베딩 - 하이브리드 검색'으로 이어지는 파이프라인의 실무 적용 가능성을 검증하는 것.항목내용컴퓨팅 자원MacBook Air M2 (MPS 가속)임베딩 모델jhgan/ko-sroberta-multitask (768 dim)벡터 저장소FAISS (L2 Normalization 적용)데이터 구성A..
2026.04.05 -
[DB비서 Project] 나만의 AI DB 비서, 그 첫 번째 기록 (feat. RAG & 하이브리드 검색)
KDT 과정의 마무리인 파이널프로젝트 주제가 확정 되었다. 나만의 DB 비서.우리 팀은 파편화된 개인 데이터를 통합 학습하여, 사용자가 원하는 정답과 그 근거를 즉시 제시하는 '지능형 DB 비서' 구축을 목표로 삼았다.1. 프로젝트의 목표: "개인 비정형 데이터의 자산화"현대인은 매일 방대한 양의 PDF, 엑셀, 메모 등을 생성한다. 그러나 정작 중요한 정보를 찾기 위해서는 폴더를 뒤지거나 기억에 의존해야 하는 비효율이 발생한다. 우리는 사용자가 업로드한 모든 비정형 데이터를 AI가 이해하고, 자연어 질의에 대해 정확한 출처와 함께 답변하는 폐쇄형 개인 DB 시스템을 지향한다.2. 핵심 기술: 하이브리드 검색(Hybrid Search) 엔진일단 내가 맡은 부분은 텍스트 파일의 검색 기능이다. 사용자가 음..
2026.04.02 -
Multi-Agent
여러 개의 AI 에이전트가 하나의 팀처럼 협력하여 복잡한 문제를 해결하는 Multi-Agent 시스템에 대해 정리한다. 각 분야의 전문가 AI를 만들고, 이들을 지휘하는 팀장을 세우는 것이 핵심이다.1. Multi-Agent 시스템이란?혼자서 모든 일을 다 잘하는 AI를 만들기보다는, 특정 분야에 특화된 에이전트들을 모아 협력하게 만드는 것이 더 효율적이다. 이를 위해 대화 내용을 공유하는 State(상태)와 다음 순서를 결정하는 Supervisor(팀장)의 역할이 중요하다.2. 코드 한 줄 리뷰 및 주요 문법 해설2.1 팀의 공동 대화방 설정 (AgentState)에이전트들이 정보를 공유할 수 있는 데이터 구조를 정의한다.class AgentState(TypedDict): # 공동 대화창인 mes..
2026.04.02 -
Text-to-SQL RAG
이번 포스팅에서는 인공지능이 사람의 말을 듣고 직접 데이터베이스 언어인 SQL로 번역해 정답을 찾아내는 Text-to-SQL RAG 시스템에 대해 정리한다. 단순히 정보를 찾는 수준을 넘어, 스스로 판단하고 행동하는 Agent를 구축하는 과정이다.1. 기본 개념 정리SQLite: 서버 없이 파일 하나에 모든 데이터를 담는 가벼운 Relational Database다. 실습에서는 음악 데이터가 담긴 'Chinook.db'를 사용한다.RAG (Retrieval-Augmented Generation): AI가 모르는 내용을 외부 도서관(DB)에서 찾아보고 대답하는 기술이다.Agent: 주어진 도구(Tools)를 사용해 스스로 계획을 세우고 실행하는 지능형 시스템이다.LangGraph: AI의 사고 흐름을 지도..
2026.03.31