株式会社ジーニー

株式会社ジーニー

【JAPAN AI】AI Evaluation Scientist / English

年収

800万円〜1,600万円

勤務地

東京都

職務内容

About JAPAN AI

JAPAN AI, Inc. was established in April 2023 as a group company of Geniee, Inc. (TSE Growth Market) with the mission of dramatically expanding human potential through AI technology. We drive cutting-edge AI R&D both domestically and internationally.

Related URLs

Our Website
Company Introduction Materials
Tech Blog
Careers
Why We're Hiring

JAPAN AI is rapidly expanding its enterprise AI agent suite, including?JAPAN AI AGENT / CHAT / SPEECH. As the core of our products shifts to LLMs and multi-agent systems, we are establishing a new specialized organization to?scientifically evaluate the quality, safety, and reliability of AI outputs.

Mission

"Make AI Output Quality a Science ? Prove Agent Reliability through Research and Development of Evaluation Methods."

You will quantitatively evaluate and improve the output quality of LLMs and AI agents using methods from machine learning, statistics, and psychometrics. This position is? not for "people who test" ?? it is for? "scientists who define and measure what makes a good AI."

Role & Expectations

As an?AI Evaluation Scientist, you will lead the design, construction, and operation of the AI agent quality-evaluation infrastructure.

Research and develop evaluation metrics ? scientifically define "what constitutes quality" through LLM-as-Judge calibration, reward modeling, and benchmark design
Design and build automated evaluation pipelines ? integrate research outcomes into production CI/CD to deliver scalable quality gates
Red teaming and safety verification ? automate adversarial testing and build policy compliance verification frameworks
Drive quality improvement through statistical experimental design ? quantitatively verify the effectiveness of prompt strategies and model changes through A/B tests and significance testing
Feed evaluation signals back to research and development teams ? build a compound-interest loop for model improvement
Ensure the quality of products used in production by ~200 companies through a "science of quality" approach
Why You'll Love This Role
Evaluation Science in practice : Practice "AI Evaluation Science" ? the discipline that Apple, Anthropic, Scale AI, and others are investing in ? within the context of Japanese enterprise AI. This is a globally rare position where evaluation methodology itself is the research subject.
A new application of ML/DS skills : Apply your machine learning and statistics expertise not to "building models" but to "evaluating models." Intellectual challenges span both research and implementation ? reward modeling, LLM-as-Judge calibration theory, and benchmark design.
Quality determines product trust : In a production environment used by ~200 companies, the evaluation infrastructure you build becomes the last line of defense for release quality. You will feel the direct business impact of quality assurance.
Greenfield position : Design and build the entirely new specialized domain of AI agent evaluation science from scratch. You will have significant autonomy ? from evaluation metric R&D to production deployment of automated evaluation pipelines.
Frontline of AI safety : Engage in Responsible AI practices including automated red teaming, adversarial testing, and policy compliance verification. You will play a key role in scientifically guaranteeing safety in a world where AI agents autonomously execute business operations as "the brain of the enterprise."
Rapid-growth environment : In a startup that has grown to 200+ people and 9 products in just 3 years, you will have significant autonomy in technical decision-making. You will work closely with Research Engineers and Agent Harness Engineers, influencing quality across the entire product suite.
Job Description

As an?AI Evaluation Scientist, you will lead the design, construction, and operation of the?AI agent Evaluation Infrastructure.

Evaluation Metric Research & Development
Research and implement LLM-as-Judge calibration methods (rubric design, bias detection, proper scoring rules)
Design, build, and validate evaluation benchmarks (construct validity, contamination detection)
Research the application of reward modeling / preference learning to evaluation
Select and design evaluation metrics (win rate, task success, factuality, harm detection)
Design, build, and maintain evaluation sets (synthetic data + real logs)
Automated Evaluation Pipeline Design & Development
Design and implement scalable automated evaluation pipelines
Integrate evaluation pipelines into CI/CD and build quality gates
Design agent evaluation harnesses (multi-turn, tool use, long-context support)
Ensure reproducibility and reliability of evaluation pipelines
Safety & Quality Verification
Research and implement automated red teaming (automated adversarial testing)
Build safety and policy compliance verification frameworks
Research and implement hallucination detection and calibration methods
Design and execute prompt / tool regression tests
Statistical Analysis & Experimental Design
Design and analyze statistical experiments (A/B tests, significance testing)
Visualize quality trends and automate regression detection
Create quality reports and improvement proposals
Feed evaluation signals back to research and development teams
Key Results (KR/Metrics)
Evaluation coverage rate (test case coverage)
Regression detection rate (pre-release quality degradation detection ? 95%)
Evaluation pipeline execution time (completed within CI/CD)
LLM-as-Judge and human evaluation agreement rate
False positive / false negative rate
Safety incident rate (post-release)
Team Structure

Approximately 120 members are part of the development organization.
The AI Evaluation Scientist operates as a dedicated quality assurance function, collaborating closely with:

Agentic Product Engineer ? Agent feature development
Research Engineer ? Research and development, model improvement
Agent Harness Engineer / Software Engineer (AI Platform) ? AI execution infrastructure development
Product Manager ? Product design and quality requirements definition
You May Be a Good Fit If You
Education & Experience
Master's degree or higher (or equivalent practical experience) in Computer Science, Machine Learning, Statistics, Mathematics, Physics, Psychometrics, or related fields
3+ years of practical experience as an ML Engineer, Data Scientist, Research Engineer, or in ML/AI evaluation-related roles
Technical Skills
Deep knowledge of LLM / generative AI evaluation methods (benchmark design, LLM-as-Judge, quantitative output quality measurement, hallucination detection, etc.)
Practical knowledge of statistics and experimental design (hypothesis testing, A/B testing, confidence intervals, effect sizes, etc.)
Experience building ML / evaluation pipelines in Python
Practical experience with machine learning frameworks (PyTorch, JAX, TensorFlow, etc.)
Experience designing and implementing evaluation metrics (task-specific metric design beyond precision/recall)
Language requirement (at least one of the following):
Japanese: Fluent ? able to discuss product development without friction
English: Business level

This position is a research and development role responsible for?AI output Evaluation Science. Research or implementation experience in ML model evaluation / LLM evaluation is required.

Strong Candidates May Also Have
Publication experience at top ML/NLP conferences (NeurIPS, ICML, ICLR, ACL, EMNLP, etc.)
Research or implementation experience with reward modeling / preference learning (RLHF, DPO, etc.)
Experience with LLM-as-Judge calibration and rubric design
Knowledge or experience in AI safety, Responsible AI, and red teaming
Experience with benchmark design and validity verification (IRT, construct validity)
Experience evaluating multi-agent workflows, tool use, and long-context scenarios
Large-scale data processing experience (Spark / BigQuery, etc.)
Experience integrating ML / evaluation pipelines into CI/CD
Ability to read, comprehend, and reproduce research papers
Technical communication ability in English
Tech Stack
Languages : Python (evaluation pipelines & analysis) , TypeScript / React / Next.js (frontend) / NX
Evaluation/QA : pytest, LangSmith, Weights & Biases, custom eval frameworks
Data : BigQuery, Spark, Pandas
Infrastructure : GCP (containers / K8s) , Docker, Terraform
CI/CD : GitHub Actions
Tools : Slack, Confluence, Linear, Google Workspace, GitHub, Notion
AI Dev Support: Claude Code MAX Plan, Cursor, ChatGPT, Devin
Work environment : Mac (Apple Silicon) , dual monitors available

企業名

株式会社ジーニー

本社所在地

東京都新宿区西新宿6-8-1住友不動産新宿オークタワー5/6階

雇用形態

正社員

各種保険

健康保険 雇用保険 厚生年金 労災保険

休日休暇

【休日休暇】 完全週休二日制 所定休日:土・日・祝日 休暇:年次有給休暇、夏季休暇(3日)、年末年始休暇(12月31日?1月3日)、慶弔休暇

情報更新日

2026/06/14

AIが推定した求人関連情報

想定給与 想定給与
800万円〜1,600万円
リモートワーク リモートワーク
-
平均年齢 平均年齢
28歳
ポジションの魅力
  • 日本初「AI評価科学」の開拓者:
    日本企業向けAIにおける「AI Evaluation Science」という新分野を社内で確立するパイオニア的ポジションです。約200社が本番利用するプロダクトの品質を科学的に保証する役割を担い、市場でも希少な専門性を構築できます。
  • 上場グループ企業のスタートアップで最先端AI開発に携わる:
    JAPAN AI株式会社は、東証・福証上場の株式会社ジーニーの戦略的グループ会社として2023年4月に設立されました。親会社の経営基盤と安定したグループ顧客基盤(延べ10,000社超)を背景にしつつ、スタートアップならではのスピード感でAI開発に取り組めます。
  • LLM評価・レッドチーミング等の最先端研究に直結する業務:
    LLM-as-Judgeのキャリブレーション、報酬モデリング、敵対的テストの自動化など、世界最前線のAI品質評価技術を実業務で実装・研究できる環境です。論文レベルの知識を製品品質に直結させる経験が積めます。
  • 約120名規模の開発組織でR&Dチームと密接に連携:
    開発組織には約120名が在籍しており、AI Quality ScientistはR&Dチーム・MLOpsチーム・プロダクトチームと密接に連携します。評価シグナルを研究開発チームへフィードバックする「複利ループ」の設計者として、プロダクト全体の品質向上に直接貢献できます。
  • 英語環境でグローバルな知見を活かせる:
    本求人はEnglish求人として公開されており、グローバルな技術コミュニティで培ったAI評価・機械学習の知見をダイレクトに活かせるポジションです。国際的なバックグラウンドを持つ人材にとって活躍しやすい環境が整っています。
必須スキル(ハード)

以下のいずれかの経験・知見が求められます。


  • コンピュータサイエンス・AI・機械学習・数学・物理・計量心理学等の修士号以上、または同等の実務経験
  • LLM評価・ベンチマーク設計・LLM-as-Judge手法に関する知識・実装経験
  • Python等を用いた機械学習・統計解析の実装経験
  • 自動評価パイプライン・CI/CDへの品質ゲート統合の経験
  • 統計的実験計画(A/Bテスト・有意差検定等)の設計・分析経験
  • 英語での技術コミュニケーション能力(読み書き・口頭)
必須スキル(ソフト)
  • 科学的・定量的思考力:
    AI品質を「感覚」ではなく指標・統計・実験で証明する姿勢が求められます。評価メトリクスの選定から統計的有意差の検証まで、一貫して数値で議論できる能力が必要です。
  • 研究と実装を橋渡しするエンジニアリング力:
    学術的な評価手法を本番CI/CDに組み込むスケーラブルなパイプラインとして実装する能力が求められます。研究者思考とエンジニア思考を兼ね備えた人材が理想とされます。
  • クロスファンクショナルなコラボレーション力:
    R&D・MLOps・プロダクト等の複数チームと連携し、評価シグナルを適切にフィードバックする調整力が必要です。技術的な議論を非技術系メンバーにも分かりやすく伝える力も問われます。
  • 高い自律性とオーナーシップ:
    JAPAN AIはスタートアップ環境であり、「AI評価科学」という新分野を自ら定義・推進していく主体性が求められます。曖昧な課題に対して自ら問いを立て、仮説検証サイクルを回せる人材が歓迎されます。
  • スピード感への適応力:
    口コミでも「スピード環境への適応」が選考のポイントとして挙げられており、変化の早いAI開発現場でリリース品質を維持しながらも迅速に動けるアジャイルな姿勢が重要です。
歓迎スキル
  • 報酬モデリング・選好学習(RLHF等)の研究・実装経験:
    RLHFやDPOなど人間のフィードバックを用いた学習手法への理解・実装経験があると、評価シグナルをモデル改善に直結させる「複利ループ」設計において即戦力となります。
  • レッドチーミング・敵対的テストの自動化経験:
    adversarial promptの自動生成やポリシー準拠検証フレームワークの構築経験がある場合、安全性検証の責務を迅速に担える点で高く評価されます。
  • RAG・AIエージェントシステムの評価・運用経験:
    JAPAN AIの主力製品である自律型AIエージェントやRAGシステムを直接評価対象とするため、これらの技術スタックへの深い理解があると業務立ち上げをスムーズに行えます。
  • 幻覚(ハルシネーション)検出手法の研究・実装経験:
    企業向けAIにおいてハルシネーションは重大リスクであり、その検出・抑制手法の知識・経験は本ポジションの核心的テーマに直結します。
  • 日本語NLPへの知見:
    日本企業向けAIという特性上、日本語テキストの評価・ベンチマーク設計において固有の課題(形態素・表記ゆれ等)への対処経験があると業務に即役立ちます。
この求人で得られるスキル
  • AI品質評価の体系的専門性(LLM-as-Judge・ベンチマーク設計等):
    LLM評価手法のキャリブレーションからベンチマーク設計・維持まで、現時点で世界的にも希少な「AI品質評価サイエンス」の専門スキルを実践的に習得できます。
  • 生産CI/CDと統合した自動評価パイプライン構築スキル:
    約200社が本番利用するプロダクトの品質ゲートをCI/CDに統合する実務経験を通じて、研究成果をプロダクション品質に落とし込む高度なMLOpsスキルが身につきます。
  • レッドチーミング・AIセーフティ実務スキル:
    金融機関向けAIエージェントへの自動レッドチーミング適用など、ポリシー準拠率99%以上を目標とした安全性検証の実務経験は、AI規制が強化される世界的潮流の中で極めて市場価値の高いスキルとなります。
  • 統計的実験設計・データ分析スキルの実践的強化:
    A/Bテストや有意差検定によるプロンプト戦略・モデル変更の効果検証を繰り返す中で、AI開発特有の実験設計スキルが蓄積されます。
  • 日本企業向けエンタープライズAIドメイン知識:
    多様な業種・業務(営業・経理・法務・人事等)に向けたAIエージェントの品質評価を通じて、日本のエンタープライズAI市場における深いドメイン知識と評価ノウハウを獲得できます。
キャリアマップ
  • 現在
  • AI Quality Scientist(Individual Contributor) LLM評価メトリクスの研究開発・自動評価パイプライン構築・安全性検証フレームワーク設計を担い、約200社が利用するプロダクトの品質を科学的に保証する専門家として実績を積みます。
  • シニアAI Quality Scientist / テクニカルリード 評価科学の専門性を深め、複数の評価プロジェクトをリードしながら後進の育成やベンチマーク体系の設計方針策定を担います。R&Dチームとの連携強化を通じてモデル改善サイクルの中核を担うポジションです。
  • AIセーフティ・信頼性エンジニアリングスペシャリスト レッドチーミング・ハルシネーション検出・ポリシー準拠検証の専門家として、国内外のAI規制動向にも対応したセーフティ体制の構築をリードします。業界横断的な発信力・影響力を持つ専門家への道です。
  • Head of AI Quality / AI品質部門マネージャー JAPAN AI社内における「AI評価科学」部門を統括するリーダーとして、評価方針・品質基準・チーム体制の全体設計を担います。プロダクトの拡大に合わせて組織を成長させるマネジメント職へのステップです。
  • CTO / VP of Engineering / 独立・起業 評価科学とAIエンジニアリングを横断した希少な専門性を基盤に、テクノロジーリーダーとしてのキャリアや、AIスタートアップにおける独立・起業へのパスも視野に入ります。
AI 口コミまとめ
株式会社ジーニー(JAPAN AIの親会社)に関する口コミサイトの集計データによると、平均年収は約620万円〜650万円台で業界水準を上回ります。若手メンバーが多く平均年齢は約28〜31歳程度とされており、成果主義の評価制度が特徴的です。一方でスタートアップ・ベンチャー気質が強く、スピード感と業務量の多さを指摘する声も見られます。育休・産休取得実績や家賃補助などの福利厚生については比較的評価が高い傾向にあります。

【ポジティブな評価】
1. 成長機会と若手登用:口コミサイトの集計データでは「若手にチャンスが多く回ってくる文化」との声が見られ、年次に関わらず主体的に動ける環境が評価されています。
2. 給与・成果主義:業界の口コミ情報によると成果がダイレクトに給与に反映される制度があり、特に営業職ではインセンティブが充実しているとの評判がありま...(ここから先は会員登録後にご覧いただけます。残り332文字)

会員登録をして、
AI 口コミ全貌をチェック!

※本資料はAIを活用して収集・整理した情報を含んでいます。正確性については適宜ご確認ください。