关注留言点赞,带你了解最流行的软件开发知识与最新科技行业趋势。
基准测试负责人 John Poole 谈论测试和透明度。Primate Labs 刚刚发布了 Geekbench 6,这是其流行的基准测试应用程序的新版本。新版本包括新测试和新数据集,以更好地衡量性能。新测试包括背景模糊,类似于视频会议期间使用的技术;照片滤镜,类似于现代社交媒体应用程序使用的滤镜;和 AI 工作负载的对象检测。新的数据集包括更高分辨率的照片,以与当今最好的手机(12 到 48MP)拍摄的照片保持一致,以及更大、更现代的 PDF 示例。
与 Geekbench 5 和其他版本相比,Geekbench 6 的一大变化在于多核分数的计算方式。以前创建并测量了多个单独的任务,以查看它们完成的速度。您拥有的核心越多,它们完成的速度就越快。然而,在 Geekbench 6 中,使用了一个工作负载,所有核心都在共同的目标上协同工作。确实,您拥有的核心越多,它完成的速度就越快。但是,现在核心之间存在交互。
为配合发布,我们有机会与 Primate Labs 的首席执行官兼创始人兼 Geekbench 早期版本的原作者 John Poole 交谈,讨论 Geekbench 6 的所有内容。
对于 Geekbench 6 基准测试结果,请务必在接下来的几天和几周内与Android Authority联系,因为我们将通过最新最好的设备来测试它。您还可以在链接或观看上面的视频中查看我们对 John Poole 采访的完整记录。
你用过Geekbench吗?
166票是的,在我的手机上。38 %是的,在我的台式电脑上。7 %是的,两者都有。34 %不。20 %Geekbench 6:它是综合基准吗?
早在 2003 年,Apple 就发布了世界上第一台 64 位台式电脑 Power Mac G5。普尔买了一个,但是他把它带回家后感觉它比上一代快不了多少。于是他下载了当时的一些标准的benchmarks,但是经过一些测试,他发现现有的benchmarks做的不是很好。所以他决定自己写!快进三年,Geekbench 1.0 向公众发布。如今,Geekebench 是测试消费者计算设备的事实标准,从笔记本电脑和台式机到 Android 和 iOS 手机,应有尽有。
尽管它很受欢迎,但有些人仍然对基准测试深表怀疑,因为他们声称它们是合成的并且不代表真实世界的使用案例。我向约翰提出了这个问题。“所以在 Geekbench 6 中,我们有 15 个单独的工作负载,我们用来衡量 CPU 性能,我们试图选择各种不同的任务来反映,我们认为至少,人们每天使用他们的计算机是为了什么——外出或他们每天使用智能手机进行的活动,”他告诉我。Poole 说,Geekbench 6 的重点是“真正缩小人们实际要用他们的电脑做什么。” 他继续:
所以我们真的试图缩小人们实际要用他们的电脑做什么。所以像压缩这样的东西很重要,因为当你在智能手机上下载应用程序时,Android 会解压然后安装它们。其他诸如 HTML 测试之类的东西也在那里,因为今天人们在他们的网络浏览器上花费了太多时间,这是一个需要捕获的重要指标。大流行带来的其他事情,比如视频会议,我们有一个背景模糊的工作负载,用于你的脸可见但背景不可见的缩放效果,这突然变成了一个新的工作负载,甚至与三、四个都不相关几年前。
他补充说,“我们试着看看用户会感兴趣什么,什么实际上是 CPU 密集型的,什么对设备的日复一日真正重要。我们真的不希望 Geekbench 存在于真空中,我们希望它能够代表人们的实际行为。”我们可以比较 Geekbench 5 和 Geekbench 6 的分数吗?
Poole 向我证实,您不能将 Geekbench 5 的分数与 Geekbench 6 的分数进行比较,因为它是一个全新的基准。对于 Geekbench 5,分数是根据 1,000 的参考分数校准的,这是 Intel Core i3-8100 的分数。较高的分数表示性能提高,分数翻倍表示性能提高两倍。Geekbench 6 的基线发生了变化,它是根据 2,500 的基线分数校准的,这是 Intel Core i7-12700 的分数。
有趣的是,Poole 还指出,您不一定可以将一个小版本(例如 5.0)与另一个小版本(例如 5.1)进行比较:
在发布基准测试后,我们总会收到反馈,有人会指出一些问题,然后我们会‘哎呀’,我们在那里犯了一个错误,我们应该解决这个问题。我们总是尝试在头一两个月做到这一点,所以 6.0 到 6.1 是否具有可比性?很难说,但在那之后,我们真的尝试保持 6.1、6.2、6.3 等基准测试的可比性。通常当我们发布一个点时,是因为我们正在添加对新硬件的支持。因此,如果您要对新硬件进行基准测试,您可能只想使用较新的版本。在大多数情况下,它是可比较的,我们尝试在发行说明中明确标明它是可比较的还是不可比较的。
我们可以根据 Geekbench 分数比较台式机和移动设备的性能吗?
我有时会收到关于Gary 的评论 解释说 Geekbench 针对一个系统而不是另一个系统进行了更好的优化,导致桌面和移动设备之间的分数差异。我问 Poole Geekbench 是否针对所有系统进行了同样的优化,“当然,我们花了很多时间[在这上面]。”
“举个例子,我们已经编写了一个函数的 NEON 版本,我们不想采用该 NEON 版本并尝试嫁接到 SSE 版本上,”他解释道。“我们尝试以一种对特定指令集来说很自然的方式来编写东西,利用优势,并注意该指令集的缺点。这样我们就可以得到在两个平台上都应该具有可比性的东西。”
硬件加速、优化和“硬件计算机博物馆”
处理器,无论是台式机、笔记本电脑还是智能手机,都倾向于为密码学或视频编码/解码等不同任务提供硬件加速。此外,还有特殊指令集,如 x86-64 上的 SSE 和 AVX,或 Arm 芯片上的 NEON 和 SVE。我问普尔,Geekbench 的硬件加速方法是什么。他提出的第一点是 Geekbench 不包括任何特定的视频编码测试。这不是因为他们不想包含它们,而是因为所有现代视频编码系统都需要获得许可并附有专利。所以目前,Primate Labs 已经避开了它们。但是对于像 Instagram 风格的过滤器测试这样的其他测试,工程师们使用的是普通应用程序会使用的东西,所以对于 Arm 来说就是 NEON(SVE 即将推出,可能在 Geekbench 6.1 中),对于 x86-64 来说就是 SSE和 AVX2。
Primate Labs 非常重视 Geekbench 的开发——Geekbench 6 也不例外。
“我们与硬件公司合作,即编写或实施说明的公司,我们与他们合作以确保我们所拥有的不一定是最好的,但它是公平且具有代表性的抽样说明用法可能是,”Poole 解释道。“我们使用我们支持的所有各种指令集来做到这一点,因此无论是 Arm 端的 NEON,还是 x86 端的 AVX,我们都会努力确保我们编写的内容是公平合理的。”
所有重大决策都是在 Primate Labs 的测试和开发环境中做出的——绰号为“硬件计算机博物馆”——它收藏了 150 多台测试设备,从 Intel Core Duo 系统到 Raptor Lake 系统(即使用 Intel 13th-核心处理器的一代)。我和 Poole 开玩笑说我真的很想参观那个实验室!他同意参观实验室及其开发过程会很有用,“因为我认为这会消除很多人们对 Geekbench 是一个黑匣子的恐惧,‘谁知道里面有什么?’”
巡演或不巡演,Poole 非常清楚他们对 Geekbench 开发的重视程度——Geekbench 6 也不例外
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.