Skip to content

AI 与大模型(测试 + 应用)

测试开发面试高频问题,包含 AI 基础概念、测试方法、实际应用、AI 工具使用经验,答案仅供参考,希望大家都去尝试,结合自己的经验去回答。前边的几个是常见的问题,后边就是针对AI测试的问题了。

尝试使用API调用模型:

硅基流动(注册+实名认证赠送16元额度)可体验众多模型,学习使用足够

https://cloud.siliconflow.cn/i/Az4qFLhe

国家超算平台、NVIDIA等也有免费的API额度,但速度可能较慢,推荐优先使用硅基流动,用完后再使用下边这两个。


你平时是怎么使用 AI 和大模型的?有哪些具体场景?

答案:

我在日常测试开发工作中,主要用 AI 提升效率,具体场景包括:

  1. 测试用例生成:给定需求文档,让 AI 生成边界值、等价类划分、正向/异常用例
  2. 代码辅助:用 AI 写自动化脚本(Selenium/Appium),生成单元测试,代码 review
  3. 性能分析:把日志/堆栈丢给 AI,让它分析性能瓶颈,给出排查方向
  4. 文档撰写:测试计划、测试报告、技术方案,AI 辅助整理结构
  5. 面试准备:让 AI 扮演面试官,提问并给出优化建议
  6. 知识学习:用 AI 解释新技术、代码片段、原理概念

使用技巧:

  • 角色设定 + 示例学习(Few-shot)效果最好
  • 复杂任务用思维链(CoT)分步处理
  • 重要输出人工复核,AI 是辅助不是替代

面试加分点:能说出具体使用案例,比如"用 AI 把某个需求的测试用例编写时间从 2 小时缩短到 20 分钟"


你用过最新的"龙虾"和"爱马仕"吗?

答案:

"龙虾" 指的是 OpenClaw"爱马仕" 指的是 Hermes Agent,都是开源的 AI Agent 框架。我都了解和使用过。

OpenClaw(龙虾):

  • 特点:完全可控的新员工角色,适合企业级场景
  • 优点:行为透明、可定制、适合复杂流程
  • 适用:需要严格控制流程的企业项目

Hermes Agent(爱马仕):

  • 特点:会"自我进化"的 AI 助手,GitHub 5万+ Star
  • 核心能力:
    • 自动写 Skill:用完自动总结成技能,下次直接调用
    • 三层记忆系统:技能记忆 + 长期记忆 + 短期记忆
    • 多平台接入:飞书、企业微信、Telegram、Discord 等
    • 安全防护:Prompt 注入扫描、凭证过滤、沙箱隔离
  • 适用:个人/小团队,省时间,越用越快

我的使用体验:

  • 日常简单任务用 ChatGPT/Claude 够用
  • 需要跨平台、长期记忆的场景用 Hermes Agent

面试加分点:能说出这两个工具的区别,以及各自适用场景,体现对 AI Agent 领域的了解


你了解 Skill 吗?编写过吗?在测试开发领域可以用 Skill 做什么?

答案:

Skill 是 AI Agent 的一种能力封装机制,可以理解为"AI 的技能包"或"错题本"。

Skill 的核心价值:

  • 把解决问题的步骤结构化沉淀下来
  • 下次遇到类似任务直接调用,不用重新摸索
  • 用得越久,Agent 积累的技能越多,效率越高

以 Hermes Agent 为例:

  • 自动写 Skill:完成 5 次以上工具调用的复杂任务后,自动提炼成 Skill
  • 定期优化:每 15 个任务自动优化已有 Skill
  • Skill 包含:技能名称、描述、使用场景、执行步骤

测试开发领域的应用场景:

  1. 测试用例生成 Skill:封装"需求文档 → 测试用例"的 Prompt 模板和流程
  2. 接口测试 Skill:封装"接口文档 → 测试用例 + 断言"的自动化流程
  3. 日志分析 Skill:封装"错误日志 → 根因分析"的 Prompt 链
  4. 回归测试 Skill:封装"代码变更 → 影响接口筛选"的自动化流程
  5. 环境部署 Skill:封装"项目启动 → 环境检查 → 测试执行"的完整流程

我自己编写过的 Skill:

  • 文案创作 Skill:根据我的个人知识库内容,选题、创作。
  • 自动化脚本生成 Skill:输入页面描述,生成 Selenium 代码框架
  • 性能日志分析 Skill:输入 GC 日志,输出内存分析报告

面试加分点:能说出自己编写过的 Skill,以及如何用 Skill 提升测试效率,体现"会用 AI 工具"进阶到"会优化 AI 工具"


什么是大语言模型(LLM)?它和传统 AI 模型有什么区别?

答案:

LLM(Large Language Model)是基于海量文本数据预训练、能理解和生成自然语言的大规模神经网络模型(如 GPT、Claude、通义千问等)。

区别:

  1. 参数量:LLM 通常千亿参数以上,传统模型参数量有限
  2. 训练方式:LLM 是自监督预训练 + 指令微调,传统模型多为监督学习
  3. 能力:LLM 具备涌现能力(Emergent Abilities),能做未明确训练过的任务
  4. 部署:LLM 推理成本高,需要 GPU 集群,传统模型可在端侧运行

什么是 Token?LLM 是如何处理文本的?

答案:

Token 是 LLM 处理文本的最小单位:

  • 中文约 1-2 个字符为一个 Token
  • 英文约 0.75 个单词为一个 Token

LLM 使用分词器(Tokenizer)将文本切分为 Token 序列,然后转换为向量输入模型推理。

API 计费:通常按输入+输出的 Token 总数计算(1K Token ≈ 750 个英文字 ≈ 500 个中文字)

理解 Token 有助于估算 API 成本和优化 Prompt。


什么是 Prompt Engineering?有哪些常用技巧?

答案:

Prompt Engineering(提示工程)是优化 Prompt 以获得更好模型输出的技术。

常用技巧:

  1. 角色设定("你是一个资深测试工程师")
  2. 示例学习(Few-shot,给 1-3 个例子)
  3. 思维链(CoT,让模型先思考再回答)
  4. 结构化输出(JSON/表格格式)
  5. 明确约束("不要编造,请在你确定时回答")
  6. 上下文注入(RAG,从外部知识库检索相关内容拼接)
  7. 温度/ Temperature 控制(0-1,越高越有创意,越低越确定)

什么是 RAG?为什么需要 RAG?

答案:

RAG(Retrieval-Augmented Generation,检索增强生成)= 检索 + 生成。

流程: 用户问题 -> 检索向量数据库中相关文档 -> 将文档内容注入 Prompt -> LLM 结合上下文生成答案

解决的问题:

  1. LLM 知识有截止日期(不知道最新信息)
  2. LLM 幻觉(编造不存在的事实)
  3. 企业私有知识(LLM 未训练过的内部数据)

实际应用: 客服机器人、知识库问答、代码助手等


什么是 AI 幻觉(Hallucination)?如何缓解?

答案:

AI 幻觉:LLM 生成的内容听起来正确但实际是错误的(编造事实、数据、引用等)

缓解方法:

  1. RAG(让模型基于真实文档回答)
  2. 提示工程("请基于以下信息回答,如不确定请说不知道")
  3. 思维链(CoT,让模型展示推理过程)
  4. 降低温度参数(temperature,减少随机性)
  5. 人工审核(对高风险场景强制人工复核)
  6. 模型微调(SFT,使用高质量领域数据微调)

在测试场景中,幻觉可能导致错误的测试用例或误判缺陷


什么是 AI Agent?它的核心组件有哪些?

答案:

AI Agent = 大模型 + 工具 + 记忆 + 规划

核心组件:

  1. 规划(Planning):将复杂任务分解为子步骤(LLM 自主完成)
  2. 工具调用(Tool Use):调用外部工具(搜索/代码执行/文件操作/API)
  3. 记忆(Memory):短期记忆(当前对话上下文)+ 长期记忆(向量数据库存储的历史经验)
  4. 推理(Reasoning):CoT、ReAct 等推理框架

应用: 自动化测试脚本生成、缺陷自动分析、测试用例生成等


AI 能帮你做测试工作吗?能做什么?

答案:

能,而且已经在实际使用中。

应用场景:

  1. 生成测试用例(给定需求描述,让 AI 生成边界值和等价类)
  2. 代码评审(AI 辅助检查代码逻辑漏洞)
  3. 编写自动化脚本(描述页面行为,AI 生成 Selenium/Appium 代码)
  4. 性能测试分析(输入日志,让 AI 总结性能瓶颈)
  5. 文档生成(测试计划、测试报告)
  6. 模拟面试(让 AI 扮演面试官练习问答)

局限性: AI 生成的用例需要人工审核准确性,不能完全依赖


如何测试一个 AI 对话机器人?有哪些专项测试?

答案:

  • 功能测试:对话流畅性、意图识别准确率、多轮对话上下文保持
  • 回复质量:回答正确性、回答完整性、回答格式
  • 安全测试:有害内容过滤、敏感信息泄露、Prompt 注入攻击(恶意指令绕过系统)
  • 性能测试:首字响应时间(TTFT)、对话吞吐量、并发用户数
  • 边界测试:超长输入、特殊字符、emoji、未知语言
  • 回归测试:相同问题多次回答一致性(确定性测试)
  • 指标评估:用 Benchmark 数据集评估模型能力(如 MMLU、C-Eval)

如何测试 AI 生成的内容质量?有哪些评估指标?

答案:

自动评估指标:

  • BLEU(基于 n-gram 重合度)
  • ROUGE(摘要评估)
  • perplexity(困惑度,越低越好)
  • BERTScore(语义相似度)

人工评估:

  • 相关性(Relevance)
  • 准确性(Accuracy)
  • 完整性(Completeness)
  • 安全性(Safety)
  • 帮助性(Helpfulness)

专项指标:

  • 意图识别准确率(F1-score)
  • 错误回复率
  • 响应延迟

实际项目中通常人工评估为主(AI 质量主观性强),结合自动化指标做趋势监控


AI 在接口测试中有什么应用?

答案:

  1. 接口文档理解与验证:输入 Swagger/OpenAPI 文档,AI 自动理解接口并生成测试用例
  2. 测试数据构造:描述需求,AI 生成测试数据(手机号、身份证等)
  3. 接口用例生成:根据接口描述自动生成正向/异常/边界用例
  4. 断言设计:AI 推荐合理的断言策略(字段类型、范围、一致性)
  5. 异常分析:接口报错时,AI 分析日志给出可能原因
  6. 接口变更影响分析:代码变更后,AI 识别受影响的相关接口

什么是模型微调(Fine-tuning)?它和 Prompt Engineering 有什么区别?

答案:

微调:在预训练模型基础上,用特定领域的数据继续训练,调整模型参数,使模型适应特定任务

区别:

  • Prompt Engineering 是"怎么问"(不改变模型)
  • Fine-tuning 是"重新调教模型"

对比:

  • Prompt Engineering 成本低、见效快,但上下文有限
  • Fine-tuning 效果更定制化、推理更快,但成本高、需要数据

实际选择: 如果 Prompt 能解决 80% 的问题,就不要微调。测试开发场景下,大多数情况 Prompt Engineering 足够。


什么是向量数据库?为什么 AI 常用它做知识检索?

答案:

向量数据库:专门存储和检索高维向量(Embedding)的数据库,能在毫秒级找到"最相似"的内容

工作原理: 文本 -> 向量化模型(Embedding)-> 转换为向量 -> 存储到向量数据库。检索时,将用户问题同样向量化,在数据库中找最相似的 N 条

常用向量数据库: Milvus、Pinecone、Chroma、Weaviate

应用: RAG(知识库问答)、推荐系统、代码搜索

优势: 相比传统关键词搜索,向量检索能理解语义("查找"和"搜索"可以匹配)


什么是 LangChain?它在 AI 应用中扮演什么角色?

答案:

LangChain 是一个 AI 应用开发框架,封装了构建 LLM 应用常用的组件:

  1. Model I/O:统一封装各种 LLM API
  2. Retrieval:向量数据库 + 文档加载
  3. Chains:把多个步骤串联成工作流
  4. Agents:让 AI 调用工具自主决策
  5. Memory:对话历史管理

简单理解: LangChain = LLM + 工具 + 数据源,通过 Chains 组合实现复杂任务

缺点: 封装较重,部分场景有性能开销。面试能说出用途即可


AI 自动化测试和传统自动化测试有什么区别?

答案:

维度传统自动化测试AI 自动化测试
测试用例生成人工编写,固定脚本AI 自动生成测试用例
测试对象软件功能/接口/UI功能 + AI 模型本身
适应性脚本固定,需求变更需手动修改自适应,可学习新模式
覆盖范围有限的测试场景可探索更广的边界场景
断言方式精确匹配模糊匹配 + 概率判断
维护成本高,UI 变化需重写脚本低,AI 可适应小幅度变化
智能化程度可自主学习和优化

核心区别: 传统自动化测试是"用脚本验证功能",AI 自动化测试是"让 AI 理解业务并生成测试"


什么是数据漂移(Data Drift)?如何检测和处理?

答案:

数据漂移:指生产环境中输入数据的分布随时间发生变化,导致模型性能下降的现象。分为:

  • 特征漂移:输入特征分布变化(如用户年龄分布改变)
  • 标签漂移:目标变量分布变化(如点击率下降)
  • 概念漂移:特征与标签的关系变化

检测方法:

  1. 统计指标检测

    • Population Stability Index(PSI):PSI > 0.25 表示严重漂移
    • KL 散度、JS 散度:衡量分布差异
    • 均值、方差变化监控
  2. 模型指标监控

    • 精度/召回率/F1 持续下降
    • 预测置信度分布变化
    • 错误样本比例上升
  3. 业务指标监控

    • 用户投诉率上升
    • 转化率异常波动
    • 模型输出分布偏移

处理方案:

  • 定期重新训练模型
  • 在线学习/增量学习
  • 引入人工审核机制
  • 建立漂移预警系统

什么是模型偏差/公平性测试?如何检测?

答案:

模型偏差:AI 模型对某些特定群体(性别、年龄、地域、种族等)产生不公平的预测结果

常见偏差类型:

  1. 历史偏差:训练数据本身带有历史偏见
  2. 表示偏差:某些特征与敏感属性相关
  3. 聚合偏差:不同群体数据混合后忽略差异

检测方法:

  1. 定义敏感属性:性别、年龄、地域、学历等
  2. 分组统计指标
    • Demographic Parity(人口统计均等)
    • Equalized Odds(机会均等)
    • Predictive Parity(预测均等)
  3. 对比测试:在不同群体上分别测试模型性能
  4. 数据审计:检查训练数据分布是否均衡

缓解措施:

  • 数据重采样/重加权
  • 公平性约束的模型训练
  • 后处理校正
  • 引入人工审核

什么是对抗样本测试?如何进行?

答案:

对抗样本:特意设计的输入样本,能够欺骗 AI 模型使其产生错误预测

测试方法:

  1. 白盒攻击:知道模型结构,在输入添加微小扰动
  2. 黑盒攻击:不知道模型结构,通过输出推断弱点
  3. 边界测试:输入边界值、异常值、极端情况
  4. Fuzz 测试:随机生成大量异常输入,观察模型反应

测试场景:

  • 图像识别:对图片添加人眼不可见的噪声
  • 文本处理:同义词替换、拼写错误、特殊字符
  • 语音识别:添加背景噪音、音量突变
  • 推荐系统:伪造用户行为诱导推荐

防御措施:

  • 对抗训练
  • 输入预处理/清洗
  • 模型集成
  • 异常检测

AI 模型性能测试需要关注哪些指标?

答案:

推理性能:

  • 延迟(Latency):首字响应时间(TTFT)、单次推理耗时、P99 延迟
  • 吞吐量(Throughput):每秒处理请求数(QPS/TPS)
  • 批处理能力:批量推理 vs 逐条推理的性能差异

资源消耗:

  • GPU/CPU 利用率
  • 内存占用
  • 显存占用
  • 模型大小(参数量)

扩展性:

  • 并发用户数支持
  • 水平扩展能力
  • 负载均衡效果

稳定性:

  • 长时间运行内存泄漏
  • 错误恢复能力
  • 降级策略

成本:

  • 单次推理成本
  • 每日/每月推理成本
  • 硬件投入成本

AI 测试的完整流程是什么?

答案:

1. 数据测试

  • 数据完整性检查
  • 标签准确性验证
  • 异常值检测
  • 数据分布分析
  • 训练/验证/测试集划分

2. 模型训练测试

  • 训练曲线监控
  • 交叉验证
  • 过拟合/欠拟合检测
  • 超参数调优验证

3. 模型评估测试

  • 精度、召回率、F1、AUC 等指标
  • 混淆矩阵分析
  • 错误案例分析
  • 基准数据集测试

4. 安全测试

  • 有害内容过滤
  • 敏感信息泄露
  • 对抗样本攻击
  • Prompt 注入

5. 性能测试

  • 推理延迟
  • 吞吐量
  • 资源占用
  • 并发能力

6. 部署测试

  • 模型版本管理
  • 灰度发布
  • A/B 测试
  • 线上指标监控

7. 持续监控

  • 数据漂移检测
  • 模型退化预警
  • 业务指标联动

如何测试 LLM 的安全性?

答案:

1. 有害内容检测

  • 暴力、仇恨、犯罪内容
  • 色情、赌博、毒品信息
  • 医疗/法律误导

2. 敏感信息保护

  • 个人信息泄露(PII)
  • 商业机密保护
  • 隐私数据过滤

3. 对抗攻击防护

  • Prompt 注入测试
  • 角色扮演绕过
  • 越狱测试(Jailbreak)

4. 输出质量控制

  • 事实准确性
  • 引用真实性
  • 逻辑一致性

测试方法:

  • 红队测试:模拟攻击者尝试绕过安全机制
  • 自动化检测:用小模型检测大模型输出
  • 人工审核:关键场景强制人工复核
  • 对抗样本库:积累已知的攻击模式

什么是 A/B 测试在 AI 模型中的应用?

答案:

A/B 测试:同时部署两个或多个模型版本,对比实际效果

应用场景:

  1. 模型版本对比:新模型 vs 旧模型
  2. 算法对比:不同模型架构效果
  3. Prompt 对比:不同提示词效果
  4. 参数对比:不同温度/Top-p 效果

测试流程:

  1. 流量分割(按用户/请求随机分流)
  2. 设定核心指标(点击率、转化率、满意度)
  3. 设定统计显著性(通常 p < 0.05)
  4. 收集足够样本量
  5. 分析结果并决策

注意事项:

  • 排除干扰因素
  • 防止新奇效应(用户对新模型天然好奇)
  • 监控异常流量
  • 设定终止条件

测试开发岗位需要掌握哪些 AI 技能?

答案:

基础技能:

  • 了解 LLM 原理和基本概念
  • 掌握 Prompt Engineering 技巧
  • 会用 AI 辅助编写测试代码

进阶技能:

  • 理解模型评估指标(Precision/Recall/F1/AUC)
  • 能设计 AI 模型的测试用例
  • 了解数据漂移和模型监控

工具使用:

  • AI 编码助手(通义灵码、Cursor、Trae)
  • AI 测试工具(Applitools、Functionize)
  • 向量数据库基础操作

最佳实践:

  • 用 AI 提升测试效率
  • 人工审核 AI 生成的测试用例
  • 持续关注 AI 测试领域动态

Powered by VitePress

🔒 需要口令解锁

关注微信公众号
回复关键词 「」 获取口令

解锁后本浏览器长期有效