株式会社サイバーエージェント

株式会社サイバーエージェント

ソフトウェアエンジニア / 機械学習基盤の開発〜運用

勤務地

東京都

職務内容

機械学習基盤である ML Platformの開発から運用を行い、社内のAI技術者やプロダクトの開発効率化、パフォーマンス向上、コスト削減を支援しています。
当社は技術選定が自由なため、プライベートクラウドのML Platformを選択してもらうため、UXや機能を高いレベルで提供することがミッションとなります。

業務内容
当社の機械学習基盤「ML Platform」の開発・運用を担当していただきます。社内のAI技術者やプロダクトチームが効率的かつ迅速に機械学習モデルの開発・デプロイを行えるよう、プラットフォームの機能強化や最適化を行います。

具体的な業務としては、
・物理GPUノードのセットアップ(OSインストールやパラメータチューニング)
・Kubernetesクラスタの構築・運用
・定期的なKubernetesクラスタのバージョンアップデート
・最新のKubernetesバージョンへのキャッチアップなど
・NVIDIA H100 / H200 やRoCEv2/RDMA、NCCLなどの技術検証・導入
・GPUインスタンスの提供
・機械学習ジョブの管理
・モデルのデプロイ機能の開発・運用を
などを行い、ユーザーのニーズに応じた新機能の追加やUXの改善にも取り組んでいただきます。
サービスは主にKubernetes上で構築されているため、機械学習の知識に加え、Kubernetesカスタムコントローラー(Go言語)の開発など、kubernetesへの深い理解に基づいた学習サービスの開発・運用を担当します。
加えて、Kubeflowなどの機械学習エコシステムの検証・導入・コントリビュートを通じて、基盤の強化と機能拡充を図ります。

ポジションの魅力
このポジションでは、最先端の技術に挑戦する機会が豊富にあります。最新のGPUハードウェアや機械学習フレームワーク、Kubernetesの新機能など、常に技術の最前線で活躍できます。
ソフトウェア開発からインフラ構築、機械学習の応用まで、多岐にわたる技術領域に携わることで、幅広いスキルを習得・活用することが可能です。

部署について
社内のAI開発を支える機械学習基盤「ML Platform」の開発・運用を専門とするチームです。メンバーは各自が高い専門性と幅広い技術知識を持ち、協力しながらプラットフォームの強化と機能拡充を進めています。
ユーザーであるプロダクトチームやAI技術者との密なコミュニケーションを重視し、ニーズに即したサービス提供を心がけています。
技術スタックと開発環境
■プログラミング言語
・Go言語
・Python

■プラットフォーム・オーケストレーション
・Kubernetes
・Docker

■機械学習フレームワーク
・TensorFlow

■分散処理技術
・MPI
・NCCL
・RoCEv2/RDMA

■機械学習エコシステム
・Kubeflow
・Kueue
・MPI Operator

■ハードウェア
・NVIDIA GPU(H100など最新モデル)
・高性能ネットワークインフラ

■開発手法
・アジャイル開発
・CI/CDの実践

■コミュニケーションツール
・Slack
・Confluence
・JIRAなど

■その他の技術要素
・パブリッククラウド(GCP、AWS)の知識活用
・OSSコミュニティとの連携

企業名

株式会社サイバーエージェント

本社所在地

東京都渋谷区宇田川町40番1号Abema Towers

雇用形態

正社員

各種保険

健康保険 雇用保険 厚生年金 労災保険

休日休暇

完全週休2日制(土曜・日曜),祝日,夏期休暇(3日間),年末年始休暇(12月29日~1月3日),年次有給休暇(初年度10日間),慶弔休暇,産前産後休暇,育児休暇,リフレッシュ休暇(勤続2年間で5日間) など。 ※業務委託契約の場合、休日休暇はこの限りではありません。

情報更新日

2026/03/16