Skip to content

epic: Fashion Decode 데이터 파이프라인 (4개 파이프라인 통합 트래킹) #263

@cocoyoon

Description

@cocoyoon

Summary

Pinterest/Instagram 등에서 수집한 fashion-decode 포맷 이미지(좌: 인물 / 우: 아이템 그리드)를 seed 데이터로 전환하는 전체 워크플로우를 4개 파이프라인으로 나누어 관리한다.

[1. 이미지 적재]  플랫폼 어댑터 → R2 → source_media
         ↓
[2. 파싱]         Vision AI → seed_posts/spots/solutions
         ↓               ↓
[3. 원본 이미지]   좌측 인물 역검색 → 고화질 원본 R2
[4. 엔티티 매칭]   브랜드/아티스트/그룹 resolve → brands/identities/groups

Pipeline 1 — 이미지 적재 @cocoyoon

플랫폼 독립적인 수집 인프라 + 플랫폼별 어댑터.

Pipeline 2 — 파싱 @cocoyoon

R2 이미지 → Gemini Flash Vision → 구조화 데이터 → seed_*.

Pipeline 3 — 원본 이미지 @CIOI

좌측 인물 크롭 → 역이미지 검색 → 고화질 원본 R2 아카이빙.

Pipeline 4 — 디테일 enrichment @CIOI

파싱 결과 문자열을 DB 엔티티에 매칭·보강.


의존성 그래프

#258 (P1 infra)
  ├─→ #214 (Pinterest)
  ├─→ #259 (Instagram)
  └─→ #260 (P2 Parsing)
        ├─→ #261 (P3 원본)
        └─→ #262 (P4 Enrichment)

구현 순서: #258 → {#214, #259, #260} → {#261, #262}


통합 검증 (전체 파이프라인 E2E)

  • Pinterest/Instagram 소스 1개씩 등록 → 수집 5분 내 source_media 적재
  • 파싱 잡이 자동으로 seed_posts/spots/solutions 생성
  • 역검색으로 좌측 인물의 고화질 원본 1건 이상 아카이빙
  • 엔티티 매칭으로 알려진 브랜드/아티스트는 FK 연결, 미지는 entity_candidates 에 적재
  • Admin 대시보드에서 전체 소스별 통계 (수집/파싱/원본/매칭 비율) 표시

비기능 요구

  • 관측성: 각 파이프라인별 잡 성공/실패/지연 메트릭 (Prometheus or Supabase 로그)
  • Rate-limit: 플랫폼별/Vision API/역검색 API 별 쿼터 관리
  • 비용: Vision API + SerpAPI 월 호출 상한 가드
  • 검수: 자동 parse_status='parsed' → Admin 검수 → seed_posts.status='published'

관련 기존 시스템

🤖 Generated with Claude Code

Metadata

Metadata

Assignees

Labels

Type

No type
No fields configured for issues without a type.

Projects

Status
Done

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions