Project(19)
-
[DB 비서 Project]
보호되어 있는 글입니다.
2026.04.07 -
[DB 비서 Project] 데이터 전처리 Prefix 적용 전 vs 후
RAG(Retrieval-Augmented Generation) 시스템의 성능을 결정짓는 것은 결국 데이터의 품질과 임베딩 전략이다. 2026년 4월 6일, PDF 전처리 파이프라인을 고도화하고 메타데이터 Prefix가 검색 품질에 미치는 영향을 심층 분석하였다. 여러 데이터가 뒤섞여있는 모습을 볼 수 있다. 이 상태에서 다시 실험 시작!!1. 실험 환경 및 데이터셋실험은 MacBook Air M2(MPS 가속) 환경에서 진행되었으며, jhgan/ko-sroberta-multitask 모델을 사용했다. 대상 데이터는 IT 인사이트 리포트, ESG 보고서, 고고학 자료 등 다양한 도메인이 섞인 PDF 25개로, 총 12,917개의 청크를 베이스라인으로 설정했다.항목상세 내용임베딩 모델ko-sroberta..
2026.04.06 -
[DB 비서 Project] 실전 데이터 임베딩 및 3D 시각화 분석
본 포스팅에서는 DB비서 파이프라인을 활용하여 25건의 실전 PDF 데이터를 처리하고, 이를 3차원 공간에 시각화하여 분석한 실험 결과를 정리해보려고 한다. 단순한 텍스트 검색을 넘어 데이터의 의미적 구조를 파악하고 검색 효율을 극대화하는 과정을 담았다.1. 실험 개요 및 환경이번 실험의 목적은 AI, SW 정책, ESG, 고고학 등 서로 이질적인 도메인의 한국어 PDF 25건을 대상으로 '추출 - 시맨틱 청킹 - 임베딩 - 하이브리드 검색'으로 이어지는 파이프라인의 실무 적용 가능성을 검증하는 것.항목내용컴퓨팅 자원MacBook Air M2 (MPS 가속)임베딩 모델jhgan/ko-sroberta-multitask (768 dim)벡터 저장소FAISS (L2 Normalization 적용)데이터 구성A..
2026.04.05 -
[DB비서 Project] 나만의 AI DB 비서, 그 첫 번째 기록 (feat. RAG & 하이브리드 검색)
KDT 과정의 마무리인 파이널프로젝트 주제가 확정 되었다. 나만의 DB 비서.우리 팀은 파편화된 개인 데이터를 통합 학습하여, 사용자가 원하는 정답과 그 근거를 즉시 제시하는 '지능형 DB 비서' 구축을 목표로 삼았다.1. 프로젝트의 목표: "개인 비정형 데이터의 자산화"현대인은 매일 방대한 양의 PDF, 엑셀, 메모 등을 생성한다. 그러나 정작 중요한 정보를 찾기 위해서는 폴더를 뒤지거나 기억에 의존해야 하는 비효율이 발생한다. 우리는 사용자가 업로드한 모든 비정형 데이터를 AI가 이해하고, 자연어 질의에 대해 정확한 출처와 함께 답변하는 폐쇄형 개인 DB 시스템을 지향한다.2. 핵심 기술: 하이브리드 검색(Hybrid Search) 엔진일단 내가 맡은 부분은 텍스트 파일의 검색 기능이다. 사용자가 음..
2026.04.02 -
[Meat-A-Eye 배포] 마지막 트러블 슈팅
로컬 PC라는 온실 속에서는 완벽하게 돌아가던 기능들이 우벤투 서버라는 환경에 놓이는 순간 하나둘씩 삐걱거리기 시작했다. 특히 페이지 새로고침 시 발생하는 403 Forbidden 에러와 환경 의존성 문제로 인한 OCR 인식 불능 현상은 배포 단계에서 반드시 해결해야 할 마지막 혈투였다.1. 새로고침 403 Forbidden: SPA와 서버 라우팅의 불협화음배포 후 가장 당혹스러운 현상은 특정 페이지(예: /mypage)에서 새로고침을 누르는 순간 브라우저에 '403 Forbidden' 혹은 '404 Not Found'가 뜨는 것이다. 이는 React와 같은 SPA(Single Page Application)의 라우팅 방식과 웹 서버의 동작 방식이 다르기 때문에 발생한다.원인: 사용자가 새로고침을 누르면..
2026.03.30 -
[Meat-A-Eye 배포] API -> SSL 인증 오류
개발 과정에서 가장 당혹스러운 순간은 로컬 환경에서는 완벽하게 작동하던 기능이 배포 후 서버에서 침묵할 때다..나도 알고싶지 않았다.. 특히 KAMIS(농수산유통정보)와 공공데이터 포털의 영양정보 API를 연동하며 겪은 '외부 API와의 혈투'는 네트워크 보안과 데이터 규격의 중요성을 뼈저리게 느끼게 해주었다. 그 트러블슈팅 기록을 정리한다.1. SSL 핸드셰이크 실패: 보안 프로토콜의 세대 차이가장 먼저 맞닥뜨린 난관은 SSL(Secure Sockets Layer) 인증 오류였다. 최신 우분투(Ubuntu)(이제부터 내 인스턴스는 지우고 팀원 서버에서 같이 스터디하며 배포했다.) 서버는 강화된 보안 가이드라인에 따라 최신 TLS 프로토콜을 요구하지만, 일부 오래된 공공기관 API 서버는 여전히 낮은 버..
2026.03.29