Back to all jobs
Toss logo

ML Engineer (Platform)

Toss
Seoul2d ago

About the role

<p><strong>합류하게 될 팀에 대해 알려드려요</strong></p> <ul> <li data-pm-slice="1 1 []">토스증권 ML Engineer(Platform)는 Product Division 내 ML Platform Team에 속해 있어요.</li> <li data-pm-slice="1 1 []">ML Platform Team의 목표는 토스증권의 다양한 AI/ML 서비스들을 효율적이고 안정적으로 개발하고 운영할 수 있는 최적의 머신러닝 플랫폼을 만드는 거예요.</li> </ul> <p>&nbsp;</p> <p><strong>합류하면 함께 할 업무에요</strong></p> <p><strong>☑️ ML서비스의 관문인 Gateway 시스템을 개발하고 고도화해요.</strong></p> <ul> <li>전사 LLM API 요청을 처리하는 Gateway 시스템을 FastAPI 기반으로 개발·운영해요.</li> <li>FastAPI로 구현된 Gateway 애플리케이션에서 인증, 라우팅, 트래픽 제어, 장애 격리(Circuit Breaker, Fallback), 대규모 TPS 처리 및 부하 분산 전략을 애플리케이션,인프라 관점에서 설계·구현해요.<br><br></li> </ul> <p data-pm-slice="1 1 []"><strong>☑️ ML 서비스 운영과 서빙을 책임져요.</strong></p> <ul> <li>Kubernetes 환경에서 머신러닝 모델 서빙 시스템을 직접 운영해요.</li> <li>대규모 트래픽 상황에서도 안정적으로 동작할 수 있도록 LLM 서빙 아키텍처를 설계·개선해요.</li> <li>서비스 중인 모델의 latency, 에러율, 리소스 사용량 등을 모니터링하고, 운영 이슈를 직접 분석·해결해요.</li> <li>장애 발생 시 근본 원인을 규명하고, 운영 정책이나 아키텍처를 포함한 구조적인 개선까지 수행해요.</li> </ul> <p data-pm-slice="1 1 []"><strong><br>☑️ 전사 공통 ML 플랫폼을 개발하고 운영해요.</strong></p> <ul> <li>Kubeflow 기반으로 사내 ML/LLM 모델의 학습 및 서빙을 효율적으로 운영할 수 있는 공통 플랫폼을 개발·운영해요.</li> <li>플랫폼에서 실행되는 워크로드의 성능과 리소스를 지속적으로 모니터링하고 최적화해요.<br><br></li> </ul> <p data-pm-slice="1 1 []"><strong>☑️ LLM 기반 서비스를 위한 인프라 환경을 구축해요.</strong></p> <ul> <li data-pm-slice="1 1 []">vLLM, SGLang, Triton 등 다양한 서빙 프레임워크를 활용해 LLM 서비스를 운영해요.</li> <li data-pm-slice="1 1 []">H100/B300&nbsp; 등 고성능 GPU 클러스터에서 학습·서빙 워크로드가 안정적으로 동작하도록 환경을 관리해요.</li> <li data-pm-slice="1 1 []">금융 도메인 특화 LLM을 위한 대규모 데이터 학습 환경을 구축·운영해요.</li> </ul> <p>&nbsp;</p> <p><strong>이런 분과 함께하고 싶어요</strong></p> <ul> <li>Python, Go, Java, Kotlin 중 하나 이상의 언어에 능숙하며, 프로덕션 환경의 API 서버를 설계·개발해 본 경험이 필요해요.</li> <li>API Gateway(Nginx, Kong 등) 또는 LLM Router(LiteLLM, Envoy AI Gateway 등)를 개발하거나 운영하며, 대용량 트래픽 처리 및 장애 대응 경험이 필요해요.</li> <li>Kafka, Elasticsearch, Kibana 등과 연동해 서빙 로그 및 이벤트 파이프라인을 운영해 본 경험이 필요해요.</li> <li>Prometheus, Grafana 등을 활용해 모델 서빙 모니터링 지표를 정의하고 대시보드를 구성·운영해 본 경험이 필요해요.</li> <li>KServe, BentoML, vLLM, SGLang 등을 활용해 ML/LLM 모델 서빙을 운영해 본 경험이 필요해요.</li> <li>Kubernetes 환경에서 MLOps 컴포넌트(Kubeflow, KServe, Airflow, Argo CD, MLflow 등)를 직접 운영하며 장애를 디버깅하고 해결해 본 경험이 필요해요.</li> <li>서비스 운영 중 발생한 이슈에 대해 단기적인 대응을 넘어, 근본 원인 분석을 통해 장기적인 개선 방안을 설계·적용해 본 경험이 필요해요.</li> </ul> <p>&nbsp;</p> <p><strong>이런 경험이 있다면 더 좋아요&nbsp;</strong></p> <ul> <li data-pm-slice="1 1 []">MSA(Microservices Architecture) 환경에서 REST, gRPC API를 활용한 서비스 간 통신 및 트랜잭션 처리에 능숙하면 좋아요.</li> <li data-pm-slice="1 1 []">다양한 분산 시스템 설계 전략을 활용해 대규모 트래픽 환경을 안정적으로 운영해 본 경험이 있다면 좋아요.</li> <li data-pm-slice="1 1 []">Azure AI Foundry, Azure AI Studio, AWS Bedrock, AWS SageMaker 등 Public Cloud 환경에서 MLOps 또는 LLMOps 컴포넌트를 운영해 본 경험이 있다면 더 좋아요.</li> <li data-pm-slice="1 1 []">vLLM, SGLang 등을 활용해 LLM 서빙 병목을 분석하고 성능을 최적화해 본 경험(또는 관련 오픈소스 기여 경험)이 있다면 더 좋아요.</li> <li data-pm-slice="1 1 []">disaggregated serving, prefix-aware routing, context caching 등 LLM 기반 시스템을 설계하고 최적화해 본 경험이 있다면 더 좋아요.</li> <li data-pm-slice="1 1 []">Kubernetes Operator 또는 Scheduler 등 Kubernetes 확장 컴포넌트를 설계·개발해 본 경험이 있다면 더 좋아요.</li> <li data-pm-slice="1 1 []">데이터 전처리부터 학습, 배포, 품질 관리, 재학습까지 머신러닝 파이프라인을 실제 서비스 환경에서 운영해 본 경험이 있다면 더 좋아요.</li> </ul> <p>&nbsp;</p> <p><strong>이력서는 이렇게 작성하시는 걸 추천해요</strong></p> <ul> <li data-pm-slice="1 1 []">임팩트 있었던 업무/프로젝트와 그 결과에 대해 구체적으로 적어주세요.</li> <li data-pm-slice="1 1 []">기술적으로 외부 공개가 민감한 사항일 경우, 해당 부분은 제외해 주세요.</li> <li data-pm-slice="1 1 []">해결한 문제들에 대해 어떤 방법론들을 어떤 이유로 적용했는지 자세히 적어주세요.</li> </ul> <p>&nbsp;</p> <p><strong>토스증권에서 사용하는 기술</strong></p> <ul> <li data-pm-slice="1 1 []">Workflow &amp; Platform: Kubernetes, Kubeflow, Argo CD, Argo Workflows, Airflow</li> <li>Model Serving &amp; Optimization: vLLM, SGLang, KServe, BentoML</li> <li>Monitoring &amp; Logging: Prometheus, Grafana, Kafka, Elasticsearch, Kibana</li> <li>Cloud &amp; Infra: GPU Cluster (A40/A100/H100/H200/B300), Kubernetes 기반 ML 인프라</li> </ul> <p>&nbsp;</p> <p><strong>토스증권으로의 합류여정</strong></p> <ul> <li>서류접수 &gt; 프리 인터뷰 &gt; 직무 인터뷰 &gt; 문화적합성 인터뷰 &gt; 레퍼런스 체크 &gt; 처우협의 &gt; 최종합격 및 입사</li> </ul> <p>&nbsp;</p> <p><strong>꼭 확인해 주세요</strong></p> <ul> <li>이력서 및 제출 서류에 허위 사실이 발견되거나 근무 이력 중 징계사항이 확인될 경우, 채용이 취소될 수 있어요.</li> <li>토스증권 내규에 따라 채용 금지자 또는 결격사유 해당자는 채용이 취소될 수 있어요.</li> <li>장애인 및 국가보훈대상자는 지원 시 관련법에 따라 우대하고 있어요.</li> </ul> <p>&nbsp;</p> <p><strong>함께 할 동료를 위한 한마디</strong></p> <blockquote> <p>"AI/ML플랫폼을 대규모로 구축, 확장 해 나가면서 함께 성장할 동료를 기다리고 있어요!"</p> </blockquote> <ul> <li data-pm-slice="1 1 []">토스증권은 H100을 시작으로 B300 등 고성능 GPU 인프라를 확장하고 있어요. 이러한 인프라를 바탕으로 다양한 ML서비스를 안정적으로 운영할 ML플랫폼을 함께 만들어 갈 분을 찾고 있어요.</li> <li data-pm-slice="1 1 []">지금까지는 플랫폼의 토대를 다져왔고, 앞으로는 더 많은 서비스와 트래픽을 효율적으로 감당하기 위한 스케줄링·리소스 최적화·운영성 개선을 본격적으로 진행하려고 해요.&nbsp;대규모 GPU 클러스터 기반 ML 플랫폼의 초기 설계 단계부터, 확장되어 가는 전 과정에 함께하며 성장하고 싶은 분을 기다리고 있어요!</li> </ul> <p>&nbsp;</p>

747,000+ hidden jobs like this

Toss and thousands of companies post here first — often days before LinkedIn or Indeed. Your first 5 applications are free; go Pro to apply without limits.

Everything Pro unlocks:

  • Unlimited applications — free stops at 5
  • Track every application in one place
  • Apply straight to the source, one click
  • Save & organize roles you love
  • Roles pulled from company boards before the big sites

Weekly

$9.99
$4.99/week

For an active search. Cancel anytime.

Most popular

Monthly

$24.99
$12.99/month

The smart pick. Save 35% vs weekly.

Lifetime

$99
$49.99once

Pay once. Every future feature, forever.