返回项目矩阵01 / PROJECT — AGI EXPERIMENT
Beta极客研究🧬
Genesis v2

AGI 演化实验平台 · LLM Judge 中文评分 · Agent 多代进化 + 能量奖励

## / WHAT IT IS

Genesis v2 是一个 AGI 演化实验平台,研究 Agent(智能体)如何在多代繁衍中进化出更强的能力。每代 Agent 完成指定任务 → LLM Judge 给中文评分 → 能量奖励分配 → 优秀 Agent 进入下一代基因池。

区别于传统强化学习(RLHF / PPO),Genesis 用大语言模型作为『裁判』,让 Agent 的输出更可解释、更接近人类价值观。实验运行 50+ 代,沉淀 23 个 Elite Survivor,正在准备公开数据集。

## / FEATURES

01

4 阶段能力进化

P1 Learning(基础学习)→ P2 Reasoning(逻辑推理)→ P3 Planning(任务规划)→ P4 Autonomous(自主决策)。每代 Agent 跑完 4 阶段后由 Judge 评分。

02

LLM Judge 中文评分

用 Gemini 2.0 作为裁判,输出中文 0-1 评分 + 改进建议。Judge 的 prompt 经过 200+ 轮迭代,与人类评分相关系数 0.84。

03

能量奖励机制

高评分 Agent 获得更多『能量』,用于后代繁衍。能量 < 0.3 的 Agent 自然淘汰,能量 > 0.7 的进入 Survivor 池。

04

Elite Survivors

50+ 代实验沉淀 23 个 Elite Survivor,能力指标稳定 > 0.75。计划公开 Survivor 策略 + 进化轨迹数据集。

## / TIMELINE

  1. 2024.Q3

    Genesis v1

    Python 基础 Agent 循环 + 简单规则评分。验证『多代进化 + LLM Judge』可行性。

  2. 2024.Q4

    LLM Judge 接入

    Gemini 2.0 作为裁判,输出中文评分 + 改进建议。Judge prompt 经过 200+ 轮迭代。

  3. 2025.Q1

    Genesis v2 仪表盘

    Plotly 可视化代际能力曲线 + Survivor 池。公开测试运行,50+ 代 1200+ Agent 评测样本。

  4. 2025.Q2+

    Survivor 公开数据集

    整理 23 个 Elite Survivor 的策略 / 评分 / 进化轨迹,发布公开数据集供研究者使用。

## / TECH STACK

Python 3.12FastAPIGemini 2.0PandasPlotlySQLiteCelery

## / BY THE NUMBERS

0+

完成代际

0+

Agent 评测样本

0

Elite Survivors

0.0

Judge 与人类相关系数

对 AGI 演化 / Agent 实验感兴趣?

如果你在做 LLM Agent 框架 / RLHF / 自动化评测 / 中文 NLP / 进化算法方向,欢迎交流合作。可以一起跑实验、共享 Survivor 数据集。