AI基准测试指标为何会具有误导性以及这对用户意味着什么

根据专家的说法，最常用的人工智能基准标准尚未调整或修订，以准确反映当前模型的使用情况

“`html

AI benchmarks reveal little | ENBLE

🤖🎯

AI 公司不断争相声称他们的模型优于竞争对手。Anthropic 和 Inflection AI 是最新的竞争者，它们声称与像 OpenAI 的 GPT 模型这样的行业巨头相比具有更高的性能和质量。但是这些说法实际上意味着什么，它们能转化为用户的实际改进吗？让我们深入探讨 AI 基准指标的世界，揭示真相。

Esoteric Measures: The Problem with Benchmarks

📊🧪

大多数 AI 模型，特别是聊天机器人驱动的模型，依赖基准来评估其能力。然而，这些基准往往无法捕捉到普通人如何在现实场景中与这些模型进行交互。例如，像 GPQA 这样的基准专注于各种科学领域的研究生级问题，而大多数用户依赖聊天机器人来处理写电子邮件或表达感情之类的日常任务。

来自 Allen Institute for AI 的 Jesse Dodge 将这种情况描述为“评估危机”。如今许多使用的基准已经过时，并且与人们使用生成式 AI 模型的多种方式不一致。因此，这些基准并不能真正反映模型在实际应用或用户体验中的效用。

The Wrong Metrics: Irrelevant Skills and Tests

❌🧪

常用的基准通常评估对大多数用户无关紧要的技能和知识。评估模型解决小学级数学问题的能力或识别时代错误并没有准确衡量它在日常场景中的实用性。

Cornell 的博士后研究员 David Widder 解释称，旧的 AI 系统专注于解决特定背景下的问题，这使得评估其性能变得更容易。然而，随着模型变得更“通用”，依赖特定背景的评估变得更具挑战性。因此，当前的基准旨在测试模型跨越一系列领域，但它们仍未达到真实世界可用性和相关性的标准。

此外，人们担心某些基准的准确性和有效性。HellaSwag 测试旨在评估模型中的常识推理，但其中的问题存在拼写错误和无意义的写作。另一个基准 MMLU 在逻辑问题上测试模型，这些问题可以通过死记硬背而非真正的理解和推理能力来解决。

Fixing What’s Broken: Human Involvement and Contextual Evaluation

🔨🤝

为了克服现有基准的局限性，专家们提出将更多人类参与和在真实用户场景中评估模型结合起来。

Jesse Dodge 建议将评估基准与人类评估相结合。模型应接受真实用户查询，然后人类可以对响应质量进行评分。这种方法将更准确地评估模型的性能，从用户的角度看。

然而，David Widder 认为，即使修复了拼写错误等错误，当前的基准也无法充分满足绝大多数生成式 AI 模型用户的需求。相反，他建议根据模型对用户的下游影响以及这些影响的可取性来评估模型。这种方法会涉及检查上下文目标，并评估 AI 模型是否成功实现这些目标。

Looking Ahead: The Impact and Future of AI Benchmarking

🔮🚀

AI 基准指标的碎片化状态表明需要更全面的方法。AI 公司必须优先考虑开发与真实用例相符的基准，并衡量其模型的实际影响。随着 AI 越来越多地融入我们生活的各个方面，解决基准的局限性以确保技术有效地满足用户需求至关重要。

在未来，我们可能会看到一种更全面的评估策略，考虑到 AI 模型性能的多维方面。通过关注上下文目标并评估下游影响，我们能更好地了解这些模型为不同领域和用户需求带来的价值。

🤔 读者提问:

Q: 是否正在开发其他替代基准来解决提到的限制？

A: 是的，正在努力解决现有基准的缺陷。一些研究人员正在努力开发更能反映实际使用场景的基准，重点关注业务沟通、语言理解和客户服务互动等领域。这些基准旨在更准确地评估 AI 模型在实际应用中的性能。点击查看这篇文章获取更多信息。

“““html

Q: 用户如何评估AI模型的性能，而不仅仅依赖基准测试？

A: 评估AI模型超越基准测试指标。用户可以考虑诸如模型的响应性、准确性、语言流畅性和语境理解等因素。此外，收集来自真实用户的反馈并进行用户调查可以为模型的有效性和用户满意度提供宝贵见解。最终，用户应优先考虑与其特定需求和要求相一致的模型。

参考资料:

“`

AI基准测试指标为何会具有误导性以及这对用户意味着什么

根据专家的说法，最常用的人工智能基准标准尚未调整或修订，以准确反映当前模型的使用情况

AI benchmarks reveal little | ENBLE

Esoteric Measures: The Problem with Benchmarks

The Wrong Metrics: Irrelevant Skills and Tests

Fixing What’s Broken: Human Involvement and Contextual Evaluation

Looking Ahead: The Impact and Future of AI Benchmarking

🤔 读者提问:

参考资料:

苹果发布 tvOS 17.4：修复了大量错误！🍏🦾

镜头租赁公司收购BorrowLenses：摄影租赁巨头...

立即致电，拯救抖音！📞🤳

苹果视界Pro：窥探AR/VR体验的未来

2024年3月最佳Apple Watch优惠：巨额节省！

初学者必备的五个 Linux 命令

Tech