ソフトウェアエンジニア / 機械学習基盤の開発?運用
- 年収
-
504万円〜800万円
- 勤務地
-
東京都
- 職務内容
-
当社の機械学習基盤「ML Platform」の開発・運用を担当していただきます。社内のAI技術者やプロダクトチームが効率的かつ迅速に機械学習モデルの開発・デプロイを行えるよう、プラットフォームの機能強化や最適化を行います。
具体的な業務としては、物理GPUノードのセットアップ(OSインストールやパラメータチューニング)、Kubernetesクラスタの構築・運用、定期的なKubernetesクラスタのバージョンアップデート、最新のKubernetesバージョンへのキャッチアップ、NVIDIA H100 / H200 やRoCEv2/RDMA、NCCLなどの技術検証・導入、GPUインスタンスの提供、機械学習ジョブの管理、モデルのデプロイ機能の開発・運用などを行い、ユーザーのニーズに応じた新機能の追加やUXの改善にも取り組んでいただきます。
サービスは主にKubernetes上で構築されているため、機械学習の知識に加え、Kubernetesカスタムコントローラー(Go言語)の開発など、kubernetesへの深い理解に基づいた学習サービスの開発・運用を担当します。加えて、Kubeflowなどの機械学習エコシステムの検証・導入・コントリビュートを通じて、基盤の強化と機能拡充を図ります。
- 企業名
-
株式会社サイバーエージェント
- 本社所在地
-
東京都渋谷区宇田川町40番1号Abema Towers
- 雇用形態
-
正社員
- 各種保険
- 休日休暇
-
完全週休2日制(土曜・日曜)、祝日、夏期休暇(3日間)、年末年始休暇(12月29日~1月3日)、年次有給休暇(初年度10日間)、慶弔休暇、産前産後休暇、育児休暇、リフレッシュ休暇(勤続2年間で5日間)。社員一人ひとりが安心して活躍できる環境を整えている。
- 情報更新日
-
2026/04/29
AIが推定した求人関連情報
-
国内最大規模のGPU機械学習基盤への携わり:
<cite index="9-8">NVIDIA H100 80GB×80基、A100×48基など大規模なGPUリソース</cite>を擁するML Platformの開発・運用に携われます。国内有数のスケールを持つ環境で、最先端のGPU技術を実務で扱える希少な機会です。 -
最先端GPU・ネットワーク技術の検証・導入:
<cite index="8-4">2023年1月、「NVIDIA DGX H100」を国内で初めて導入し、80基のNVIDIA H100 Tensor コア GPUを活用したAI開発環境の大幅強化</cite>を実施した実績を持つ組織です。NVIDIA H200、RoCEv2/RDMA、NCCLなど最新技術の検証・導入を継続的に推進しています。 -
社内AI/ML技術者を支える重要なインフラポジション:
<cite index="9-7">社内のML/DSエンジニア向けに開発し、プロダクト開発・運用コストの削減やGPU利用ハードルの低減と導入の推進</cite>を担います。多数のAI研究者・エンジニアの生産性を直接支える、会社全体へのインパクトが大きいポジションです。 -
OSSエコシステムへのコントリビュート機会:
Kubeflowをはじめとする機械学習エコシステムへの検証・導入・コントリビュートを通じて、社内に留まらずOSSコミュニティへも貢献できます。<cite index="3-5">ブログ執筆や社内外カンファレンスでの登壇を通じた技術発信</cite>を積極的に行う文化があり、エンジニアとしての対外的な存在感を高められます。 -
エンジニア向け充実の評価・支援制度:
<cite index="15-2">エンジニアが長期で活躍できる環境を提供するために、エンジニア向けの評価制度「JBキャリアプログラム」を採用しており、JBグレードはJB1からJB13まで存在</cite>します。<cite index="33-2">技術者の活力を最大限に引き出すことを目的とした「ENERGY」制度では、機器購入費の補助やスキルアップ支援なども提供</cite>されています。
以下のいずれかの経験・知識が求められます。
- Kubernetesクラスタの構築・運用経験
- Go言語によるバックエンド・インフラ開発経験
- 物理GPUサーバのセットアップ・パラメータチューニング経験
- Linuxサーバの運用・管理経験
- 機械学習ジョブの管理・デプロイに関する知識
- コンテナ技術(Docker等)の実務経験
-
技術への深い好奇心と自律的な学習姿勢:
最新のKubernetesバージョンへのキャッチアップや新技術の検証を継続的に行うポジションのため、自ら情報収集し技術トレンドを追い続ける姿勢が求められます。 -
ユーザー視点でのプラットフォーム改善思考:
社内のML/DSエンジニアをユーザーとして捉え、UXの改善や新機能のニーズを的確に把握しながら開発に反映できるコミュニケーション力が必要です。 -
チームの垣根を越えた横断的な協働力:
<cite index="8-5">ハードウェア担当者とソフトウェア担当者が職種の垣根を越えて相互理解しながらプロジェクトを推進することが重要とされており</cite>、職種を超えた連携を厭わない姿勢が求められます。 -
複雑な技術的課題に対する問題解決力:
Kubernetesカスタムコントローラー開発や大規模GPU環境特有の障害対応など、前例の少ない技術的課題を自ら調査・検証し解決に導く力が必要です。 -
技術情報の対外発信・コミュニティ貢献意欲:
OSSへのコントリビュートや技術ブログ・カンファレンス発表を通じて、社外に向けて技術的な知見を積極的に共有しようとする意欲が評価されます。
-
NVIDIA GPU技術の深い知見:
NVIDIA H100/H200などのGPUドライバ管理、NCCL・RoCEv2/RDMAなどの高速通信技術、分散学習の最適化に関する実務経験があると即戦力として期待されます。 -
Kubernetesカスタムコントローラー(Go言語)の開発経験:
Kubernetesのオペレーター・カスタムコントローラーをGo言語で実装した経験は、本ポジションのコア業務に直結するスキルとして高く評価されます。 -
Kubeflow等ML系Kubernetesエコシステムの実務経験:
Kubeflow、Argo Workflows、KServeなど機械学習パイプライン構築に用いるOSSの導入・運用経験があると、業務に即座に貢献できます。 -
OSSコントリビューション実績:
機械学習基盤や分散システム関連のOSSへのPRマージ実績やメンテナ経験があれば、チームの対外的な技術発信活動において大きく貢献できます。 -
大規模分散機械学習・LLM学習基盤の構築・運用経験:
複数ノードにまたがる大規模な分散学習環境を設計・運用した経験は、本ポジションで取り組む技術課題に直結します。
-
最先端GPU・HPC技術の実践的な専門知識:
<cite index="8-2">プライベートクラウド「Cycloud」上でIaaSからKaaSまで幅広いサービスを提供し、GPUサーバの調達から導入まで低コストかつスピード感を持って対応できる環境</cite>の中で、NVIDIA H100/H200やRoCEv2/RDMAなど最先端GPU・ネットワーク技術を深く習得できます。 -
Kubernetes深堀り技術(カスタムコントローラー・スケジューラー):
<cite index="1-2">Kubernetesにおけるスケジューラーが機械学習向けの計算基盤においていかに重要かを理解し、実際にGKE上で試したり実装したりすることで理解を深められる</cite>環境です。Go言語を用いたカスタムコントローラー開発のスキルを実務を通じて習得できます。 -
MLOps・ML基盤エンジニアリングの高度な実践スキル:
<cite index="5-3">「機械学習システムの10%は機械学習、90%はソフトウェアエンジニアリング」であり</cite>、ML基盤全体の設計・開発・運用を担うことで、MLOpsエンジニアとしての総合的な実践力が身につきます。 -
OSSコミュニティでの技術発信・コントリビューション経験:
KubeflowなどのMLエコシステムへの検証・導入・コントリビュートを行う中で、OSSプロジェクトへの参画経験と対外的な技術ブランディング力を獲得できます。 -
大規模プラットフォームのユーザー体験設計力:
社内のML/DSエンジニアという多様なユーザーのニーズに応えながらプラットフォームを磨き続けることで、開発者向けプロダクトのUX設計・改善スキルが培われます。
- 現在
- ML基盤テックリード ML Platform内での技術的な意思決定をリードし、アーキテクチャ設計や技術選定において中心的な役割を担います。KubernetesカスタムコントローラーやGPU基盤の深い専門知識を武器に、チームの技術的な柱となります。
- シニアMLプラットフォームエンジニア / テクニカルエキスパート <cite index="14-1">エキスパート認定(最低年俸720万円〜)として、高度な技術や実績・成果を持つエンジニアとして社内外で認定</cite>されるポジションです。特定技術領域への顕著な知見を持つスペシャリストとして、グループ全体の技術戦略に関与します。
- インフラ・プラットフォーム領域のエンジニアリングマネージャー 技術力に加えてチームマネジメントの素養を発揮し、ML基盤チームを率いるエンジニアリングマネージャーへのステップアップが可能です。<cite index="25-4">マネージャーに昇格すると年収は800万円〜1,000万円を超える水準となり、部長や局長クラスでは1,500万円以上も視野に入ります。</cite>
- 社内横断技術組織(CIU)のリーダー / 技術統括 <cite index="8-2">CIU(CyberAgent group Infrastructure Unit)はサイバーエージェントグループ全体のインフラを支える組織</cite>であり、グループ全体の技術インフラを牽引するリーダーポジションへの道が開かれています。
- 独立・起業 / 他社CTOクラスへの転身 サイバーエージェントは「挑戦と安心はセット」という考えのもと、多くの起業家・独立者を輩出してきたメガベンチャーです。ML基盤という希少なスキルセットを持つエンジニアとして、他社でのCTO・VPoEポジションや独立も現実的なキャリアパスとなります。
【ポジティブな評価】
1. 年収・報酬水準の高さ: 初任給が年俸504万円(月給42万円)と高く設定されており、この時点で業界平均年収を超えていることが評価されています。成果主義の評価制度により、実力次第で若手でも高収入を実現できる環境です。
2. 成長機会・裁量の大きさ: 新卒からでも手を上げればどんどん新しい機会やポジションを任せてもらえ、上司や上位レイヤーへの信頼を積み重ねることで事業関連領域を幅広く任せてもらえる文化が高く評価されています。
3. 福利厚生の充実: チャレンジ異動や在宅勤務など7つの制度を...(ここから先は会員登録後にご覧いただけます。残り659文字)
会員登録をして、
AI 口コミ全貌をチェック!
※本資料はAIを活用して収集・整理した情報を含んでいます。正確性については適宜ご確認ください。