라우팅 파이프라인
BSGateway는 모든 API 요청을 4단계 파이프라인으로 처리합니다. 각 단계에서 매칭되면 해당 모델로 라우팅되고, 매칭되지 않으면 다음 단계로 넘어갑니다.
요청 수신 → ① Passthrough → ② Alias → ③ Pattern → ④ Auto → 모델 호출① Passthrough
요청의 model 파라미터가 등록된 모델 ID와 정확히 일치하면 해당 모델로 직접 전달합니다.
{ "model": "claude-sonnet", "messages": [...] }
// → 등록된 claude-sonnet 모델로 직접 전달② Alias
짧은 별명을 통해 모델을 참조합니다. 대시보드 Rules 페이지에서 설정합니다.
| Alias | Target Model | 용도 |
|---|---|---|
fast | gpt-4o-mini | 간단한 질문, 빠른 응답 |
smart | claude-sonnet | 복잡한 추론, 코드 생성 |
cheap | local-llama | 비용 최소화 |
③ Pattern
요청의 메타데이터나 내용에 따라 glob 패턴으로 모델을 선택합니다. Rules 페이지에서 패턴과 우선순위를 설정합니다.
예시:
code/*패턴 → claude-sonnet (코드 생성은 고성능 모델)translate/*패턴 → gpt-4o-mini (번역은 저렴한 모델)
우선순위가 높은 규칙이 먼저 평가됩니다.
④ Auto
위 3단계에서 매칭되지 않은 요청은 **분류기(Classifier)**가 복잡도를 분석해 최적 모델을 자동 선택합니다. model="auto"로 요청하면 이 단계가 실행됩니다.
분류기 (Classifier)
분류기는 요청의 복잡도를 simple, moderate, complex 중 하나로 판단합니다.
| 복잡도 | 예시 | 권장 모델 |
|---|---|---|
| Simple | ”오늘 날씨 어때?”, 간단한 번역 | gpt-4o-mini (저렴) |
| Moderate | 코드 리뷰, 요약, 분석 | claude-sonnet (균형) |
| Complex | 아키텍처 설계, 수학 증명, 장문 생성 | claude-opus (고성능) |
분류 전략
대시보드 Rules → Auto Routing 섹션에서 분류 전략을 선택합니다:
| 전략 | 동작 | 속도 | 정확도 |
|---|---|---|---|
| Static | 키워드와 패턴 기반 휴리스틱 | 0ms | 보통 |
| LLM | LLM이 복잡도 판단 | ~200ms | 높음 |
| ML | 학습된 분류 모델 | ~10ms | 높음 |
Static이 기본값이며, 정확도가 중요한 경우 LLM 또는 ML 전략을 사용합니다.
API 키 보안
- AES-256-GCM 암호화: 등록된 Provider API 키는 서버에서도 원문을 볼 수 없음
- 멀티테넌트: API 키별로 독립적인 사용량 추적 및 Rate Limiting
- 키 생성 시 1회 표시: 발급 후 재조회 불가 — 분실 시 새로 발급
비용 추적
모든 API 요청의 토큰 사용량과 비용이 자동으로 기록됩니다:
- 모델별 비용 집계: 어떤 모델이 가장 많이/적게 사용되는지
- 시간대별 패턴: 피크 시간, 사용량 추이
- 라우팅 효과 분석: Auto 라우팅으로 절감된 비용 추정
Analytics 페이지에서 기간별 필터(Today / Last 7 days / Last 30 days)로 확인할 수 있습니다.

Last updated on