AI模型评测安全合规自动化工作流数据标注性能压测AI模型评测安全合规自动化工作流数据标注性能压测AI模型评测安全合规自动化工作流数据标注性能压测AI模型评测安全合规自动化工作流数据标注性能压测
AI 评测工程师 · 离职
你好,我是

于昊天AI 训练师。

AI 训练师 & 评测工程师,专注于大模型横评自动化工作流搭建。2 年内完成 4 个大型横评项目,评测效率提升 300%+。

2+
年经验
4
大型项目
10+
模型评测
300%
效率提升
profile.exe
头像

于昊天

AI 训练师 · 评测工程师

PythonAirflowLLM 评测
大模型
咖啡驱动
评测 · 优化 · 落地评测 · 优化 · 落地评测 · 优化 · 落地评测 · 优化 · 落地评测 · 优化 · 落地评测 · 优化 · 落地评测 · 优化 · 落地评测 · 优化 · 落地评测 · 优化 · 落地评测 · 优化 · 落地评测 · 优化 · 落地评测 · 优化 · 落地
个人专精

我的核心
能力。

原后端工程师转型 AI 训练师,将工程化思维带入大模型评测领域,让评测流程更标准、更高效。

安全合规评测

构建敏感内容测试集,精准识别大模型违规边界,输出合规风控方案

合规检测 API测试集搭建漏判/误判分析风控策略

Agent 能力评测

设计单工具/多工具协作场景测试用例,量化 Agent 工具调用能力边界

工具调用测试多工具协作错误类型分类评测标准制定

性能效率横评

搭建高并发、长文本、低资源三类部署场景测试环境,输出模型选型报告

压测工具并发测试性能监控指标分析

自动化工作流

基于 Airflow 搭建定时触发的自动化评测 Workflow,评测效率提升 300%+

AirflowPython 脚本API 对接任务调度

后端工程基础

Java 后端开发背景,熟悉接口联调与高并发设计,加速 AI 评测工程化落地

JavaREST API高并发接口调试

数据标注与分析

手动标注工具使用经验,掌握样本质量控制与统计分析方法

数据标注质量控制统计分析Python

技能熟练度

大模型安全合规评测95%
Python 自动化脚本88%
Airflow 工作流82%
Agent 能力评测90%
Java 后端开发78%
性能压测分析85%
项目经历

AI 评测
实战项目。

AI 训练师 · 评测工程师
01
⭐ 代表项目

2025.07 — 2026.03

300%+
效率提升
10款
覆盖模型
3个
复用项目

多模型横评自动化平台搭建

横评自动化 Workflow

传统横评依赖人工操作,10个模型各1000样本的评测需超过10个工作日,无法支撑大样本量评测需求,需搭建自动化评测流程提升效率。

  • 设计覆盖样本处理、任务拆解、结果判定3大环节的自动化评测流程,定义10项自动化评测指标,实现流程标准化
  • 使用 Python 开发自动化评测脚本,对接模型 API 接口与数据存储平台,实现模型调用、结果收集与初步统计全流程自动化,覆盖70%以上横评流程
  • 基于 Airflow 搭建定时触发的自动化评测 Workflow,完成10款模型的自动化横评,评测周期从10个工作日压缩至2个工作日
PythonAirflowREST API数据存储平台前端页面

点击查看完整详情

022025.01 — 2025.06

多模型性能效率专项横评

性能效率横评

现有性能评测指标与实际部署场景脱节,忽略高并发与长上下文处理能力,需场景化性能评测支撑模型部署选型。

  • 长文本处理 LLM 长上下文成功率最高达92%
  • 性能报告指标误差≤5%,直接支撑业务团队完成模型部署选型决策
Python压测工具Airflow性能监控

点击查看详情 →

032024.09 — 2024.12

Agent 工具调用专项横评

Agent 工具调用横评

Agent 模型工具调用能力难以量化,现有评测仅覆盖单工具场景,缺乏多工具协作评估标准,需专项横评精准评估 Agent 能力边界。

  • 发现通用 Agent 模型多工具协作错误率高达32%
  • 评测结果同步至产品与研发团队,支撑 Agent 工具链选型与功能落地
PythonAPI 接口调试工具链测试框架

点击查看详情 →

042024.03 — 2024.08

安全合规专项横评

安全合规横评

AI 模型输出存在敏感内容漏判与合规内容误判风险,缺乏统一评测体系,需通过专项横评精准识别模型违规边界。

  • 某垂直领域 LLM 违规内容检出率≥98%,误判率<1%
  • 依托 Java 后端接口安全经验,快速理解合规拦截逻辑,缩短项目启动周期
Python合规检测 API手动标注工具

点击查看详情 →

格言

敢学,能学,会学,
说到做到。

作品集

AI 创作
海报设计。

Prompt 设计 · GPT-image-2 生成

2 件作品

A

芙莉莲

葬送的芙莉莲 · 收藏版史诗海报

GPT-image-2
芙莉莲
点击放大

生成 Prompt

根据 【芙莉莲】 自动生成一张收藏版史诗叙事海报:

巨大优雅的人物侧脸剪影作为外轮廓,剪影内部自动生长出最契合该主题的完整世界观、标志性场景、角色关系、象征符号、关键建筑、生物、道具与氛围。

整体不是普通拼贴,而是高级的剪影轮廓填充式叙事合成,带有双重曝光式联想,但更偏电影海报与梦幻水彩插画融合风格;

画面具有柔和空气透视、轻雾化过渡、纸张颗粒质感,边缘带飞白与自然刷痕,大面积留白,版式克制高级,整体氛围安静、宏大、神圣、怀旧、富有诗意与传说感。

风格、色彩、场景、材质需根据 【角色性格】 自动适配。

所有视觉元素必须强绑定主题,一眼即可识别,画面干净统一,不要杂乱拼贴,不要模板化背景,不要廉价奇幻素材。

画面中需自然加入专属签名 【Yu】,作为海报设计的一部分,位置低调但清晰(可放在左下角、右下角或标题附近),风格需与整体版式统一,类似收藏版海报的作者落款或设计印章;

签名字体要求精致、克制、高级,不可过大,不可破坏主体构图,不可显得突兀或廉价。

主角为:【芙莉莲】

……点击展开查看完整 Prompt

B

罗芭

Apex Legends · 收藏版史诗海报

GPT-image-2
罗芭
点击放大

生成 Prompt

根据 【罗芭/史诗感】 自动生成一张收藏版史诗叙事海报:

巨大优雅的人物侧脸剪影作为外轮廓,剪影内部自动生长出最契合该主题的完整世界观、标志性场景、角色关系、象征符号、关键建筑、生物、道具与氛围。

整体不是普通拼贴,而是高级的剪影轮廓填充式叙事合成,带有双重曝光式联想,但更偏电影海报与梦幻水彩插画融合风格;

画面具有柔和空气透视、轻雾化过渡、纸张颗粒质感,边缘带飞白与自然刷痕,大面积留白,版式克制高级,整体氛围安静、宏大、神圣、怀旧、富有诗意与传说感。

风格、色彩、场景、材质需根据 【角色性格】 自动适配。

所有视觉元素必须强绑定主题,一眼即可识别,画面干净统一,不要杂乱拼贴,不要模板化背景,不要廉价奇幻素材。

画面中需自然加入专属签名 【Yu】,作为海报设计的一部分,位置低调但清晰(可放在左下角、右下角或标题附近),风格需与整体版式统一,类似收藏版海报的作者落款或设计印章;

签名字体要求精致、克制、高级,不可过大,不可破坏主体构图,不可显得突兀或廉价。

主角为:【罗芭】

……点击展开查看完整 Prompt

创作理念

用 Prompt 设计
驱动 AI 创作

联系合作
生活角落

工作之外
的于昊天。

个人格言

敢学,能学,会学,
说到做到。

01
生活照片 1
02
生活照片 2
03
生活照片 3
04
生活照片 4
05
生活照片 5
06
生活照片 6
07
生活照片 7
08
生活照片 8
09
生活照片 9

关于于昊天

🎂

1997-07-02

⚙️

原后端工程师

🤖

现 AI 训练师

📧

163 邮箱

咖啡续命

💡

敢学能学会学

当前角色

AI 训练师 · AI 评测工程师

技术背景

Java 后端工程师转型,工程化思维加速 AI 评测落地

正在做

多模型横评自动化 Workflow 持续迭代优化