Milvus 데이터 전처리 및 삽입

데이터 전처리란?

Milvus 에 데이터를 삽입하기 전에, 원시 데이터를 벡터화하고 필요한 필드를 정리하는 과정을 데이터 전처리 라고 함. 전처리는 데이터의 질과 검색 성능에 큰 영향을 미치며, Milvus 에서 벡터 검색을 활용하기 위한 필수 단계임.


전처리 과정

전처리 과정은 아래의 단계로 이루어짐.

1. 데이터 수집

  • 데이터는 일반적으로 텍스트, 이미지, 오디오, 비디오 등 비정형 데이터로 구성됨.

  • 예 : Markdown 파일에서 텍스트 추출

2. 데이터 정제

  • 불필요한 HTML 태그, Markdown 형식 등을 제거하여 데이터를 클린업.

  • 텍스트 정규화(공백 제거, 소문자 변환 등) 수행

3. 데이터 분할

  • 텍스트를 일정한 크기의 Chunk 로 나눔.

  • 예 : 1000 ~ 1500자 단위로 텍스트 분리

4. 벡터화(Embedding)

  • 텍스트를 벡터로 변환하여 고차원 공간에서 표현

  • 일반적으로 BERT, Sentence-BERT 또는 OpenAI Embedding 모델을 사용.

5.데이터 삽입

  • Milvus 컬렉션에 벡터 및 메타데이터를 삽입.


데이터 전처리 구현

1. 데이터 정제

HTML 태그와 Markdown 형식을 제거하여 깨끗한 텍스트를 생성함.

2. 텍스트 분리

텍스트를 청크로 나눠 처리할 준비를 함.

3. 벡터화

텍스트 청크를 벡터로 변환함.


데이터 삽입

Milvus 컬렉션 생성

Milvus 에 데이터를 삽입하기 위해 컬렉션을 생성함.

데이터 삽입

텍스트 청크, 벡터, 태그를 Milvus 에 삽입함.


Milvus 에서 삽입된 데이터 확인

데이터 카운트

Milvus 에 삽입된 데이터 개수를 확인함.

데이터 확인

컬렉션에서 삽입된 데이터를 조회함.

Last updated