丿玩网logo
您当前位置:丿玩网 > 资讯攻略 > 游戏攻略

龙芯处理器(国产龙芯3A3000处理器性能全面评测)

发布时间:2022-10-12 13:50:48 编辑:丿玩游戏 来源:game

2017年九月份龙芯俱乐部队办了一个龙芯3A主板的团购价。做为很多年关心龙芯爱好者,我参加了此次团购价,买了一个龙芯3A3000的主板。由于现阶段而龙芯3A4000处理器将要流片,而现在对将要过气得龙芯3A3000处理器的性能并没有一个较为详尽的测评,我使用phronix-test-suite对龙芯3A3000处理器做了一个尽量客观、保持中立、客观性、全方位的测评,不吹不黑,不夸大其词成绩也不回避问题。

龙芯3A3000主板详细介绍

最先,或是晒一晒图,回顾一下龙芯3A3000主板的样子。

图1龙芯3A3000主板相片,风机以下是龙芯的CPU。此外二块散热器下边各是南桥和北桥。

图2拆下来风机后,龙芯3A3000 CPU的最新照片,这其中的LS3A3000D-LP意思就是这是一个功耗低版本龙芯3A3000CPU

图3重启后BIOS中的数据,能够看见CPU的cpu的主频是1400MHZ,一级命令缓存文件64KB,一级数据缓存64KB,二级缓存4MB。

图4主板里的国内Unilc(兰州紫光国芯半导体材料)电脑内存条

我拿到手的这方面龙芯3A3000处理器并不是性能最高1.5GHz主频版本号,反而是性能稍低的1.4GHz版本。因而,在估计龙芯3A3000(1.5GHz)的性能时,应当将我的测试结论乘于1.07。除此之外,需要注意的是龙芯3A3000笔记本电脑里带的龙芯3A3000的主频受到限制到了1.2GHZ。

取得主板后,参考主板指南及其贴吧百度的指南,同时在龙芯俱乐部队群和龙芯电脑用户和开发人员群网民的支持下,我装了一台龙芯3A3000的服务器,并装上Debian buster和Loongnix2个电脑操作系统。

做为龙芯的老粉,我用过福珑6003的龙芯小盒子及其8089D笔记本电脑,2个设备都是采用龙芯2F的处理器。从个人的体验上,应用龙芯2F的用户界面只能算是“可用”,真真正正用起来或是很慢。龙芯3A3000的性能和龙芯2F对比拥有很大的发展,不论是Loongnix或是Debian,使用上面能够称之为是名副其实的顺畅了。应用Firefox开展浏览网页,收看当地超清视频都十分顺畅。从用户体验度上,龙芯3A3000已经彻底能够满足办公室、网上、听歌、播放视频这种核心需求了。

龙芯3A3000处理器性能测评计划方案

和流行的x86处理器对比,龙芯3A3000到底有多大差别呢?从性能上,龙芯3A 3000等同于哪一款CPU,将要流片的3A4000又非常与那一个处理器?和其它国内处理器对比,龙芯3A3000的性能到底是高也是低?

为了能回应以上难题,我使用phoronix test suite中所提供的相关CPU性能的denchmark程序流程,对X270本子上的c5-7200U处理器和龙芯3A3000处理器展开了详细的比照。除此之外,openbenchmarking网站上带来了许多不一样处理器性能测试得到的结果,可以满足大家更客观评测系统的性能。

我在openbenchmarking网站上看到了湘源1500A和湘源2000 处理器的那一部分测评结论,在此次测试之中并对运用这些信息进行比较。做为参考,又找寻了一部分Intel J1900处理器的性能数据信息。

最近一段时间,兆芯处理器在性能上发展飞快,早已出ZX-C、KX-5000及其KX-6000等各个系列处理器,而且在互联网上也有了一些评测,但Openbenchmarking网站来找不到一切兆芯最新发布的处理器的足迹,因而在这篇文章中没法比照兆芯和龙芯的性能了。

为了能较为二块CPU在同样主频中的性能差别,在测试里将Intel i5-7200U处理器的超频方式关闭,除掉全自动降帧的电池管理,将工作频率锁住在2.5GHz。i5-7200U处理器最大能够超频到3.1GHz,因而实际最高值性能比此次测试后的数据库的高些。

在测试中,大家与此同时关心处理器的单核心性能跟多核性能。近期,兆芯KX6000系列产品处理器在测评中依据7zip等线程同步的程序测试结论,得到KX6000性能等同于i5-7400处理器的观点,但是却有意无意地忽视了KX6000是8核8进程的处理器而i5-7400是4核4进程处理器。如果看单核心性能,那样KX6000大概等同于i5-7400的一半。

以下是本评测里的几款处理器的相关情况比照。

Intel i5-7200U

https://ark.intel.com/products/95443/Intel-Core-i5-7200U-Processor-3M-Cache-up-to-3_10-GHz

Intel J1900

https://ark.intel.com/zh-cn/products/78867/Intel-Celeron-Processor-J1900-2M-Cache-up-to-2_42-GHz

龙芯3A 3000

http://www.loongson.cn/product/cpu/3/3A3000.html

测试采用的是7.8.0版本号的phronix-test-suite。

http://www.phoronix-test-suite.com/?k=downloads

测试先后在配置了Intel i5-7200U处理器的X270笔记本及其自主安装的龙芯3A3000电脑开展,在其中对龙芯3A3000的测试在Debian testing系统中进行。测试自然环境如表2图示:

在测试环节中,我发现疑是龙芯试验室应用1.5GHz的龙芯3A 3000处理器在Loognix系统中进行的那一部分测试结论。因而,我就不再单用Loongnix系统对于该处理器的性能开展测试了。

对龙芯3A3000所采用的编译程序选择项,可以参考一下此链接

对一些运用,在编译时选用了n32的abi,即提升主要参数-mabi=n32。

因为CPU性能是我最想要了解的物品,所以在测试环节中关键关注能反映CPU性能的测试,且不考虑到对硬盘、独立显卡、内存条等硬件设备的性能测试。

测试程序流程详细介绍及测试过程分析

计算机的应用

1. scimark2

这一测试运作了SimiMark 2.0的ANSI C版本号,是由国家行业标准和技术研究室的程序员开发的科学与数值计算方法的标准。该测试由迅速傅利叶转换、雅可比多次超松驰、蒙特卡罗、稀少矩阵乘法和聚集LU矩阵分解标准组成。本测试为单核心性能测试。

测试结论:

点此浏览1

点此浏览2

图5 Scimark2性能比照

测试结论如下图5所显示。在图上以龙芯3A3000(鲜红色)的性能为依据(1.0),i5-7200U(深蓝色)和J1900(翠绿色)的性能都和龙芯3A3000对比,标值越大性能就越好。由于龙芯3A4000将要流片,依据龙芯层面放出来的信息,龙芯3A4000对比3A3000同主频性能提升了30%,与此同时主频将在1.5GHz提升到2.0GHz。除此之外,龙芯3A4000也将提升256位SIMD命令,并把L3 cache从8MB增至12MB,SPEC CPU2006分值做到20分,做到龙芯3A3000两倍。

http://www.ict.cas.cn/kycg/cgnb/201709/P020170926639136974767.pdf

因而,就以将3A4000的性能设成2.0,做为性能预测参照。

从图5的测试结论能够得知,在Scimark的Monte Carlo测试中,3A3000性能很糟糕,只有i5-7200U的还不到10%,乃至不上J1900的30%。也很异常,可能会有某一浮点运算未使用硬件配置浮点数,而用了手机软件仿真模拟的浮点运算。在其余测试中,3A3000性能都与J1900非常,一部分测试性能好于J1900。J1900与i5-7200U对比,尽管其主频也是有1.99GHz,但单核心性能只有i5-7200U的30%上下。

2.FFTE

FFTE是Daisuke Takahashi所写的测算1、2和3维的编码序列长短为(2 ^ p)*(3 ^ q)*(5 ^ r)的离散变量傅里叶变换的一个包。单核心性能测试。

测试结论:点此浏览

3.fhourstones

解Connect-4手机游戏,测试处理器的整数金额性能。单核心性能测试。

测试结论:点此浏览

4. gmpbench

用GMP 6.1.2数学课库所进行的性能测试。留意,gmpbench只关注的程序整数金额性能,并不是浮点数性能。单核心性能测试。https://gmplib.org/gmpbench.html

测试结论:点此浏览

5. minion

Minion是一个设计方面具备扩展性的开源系统管束求解器。单核性能测试。

https://constraintmodelling.org/minion/

测试结论:点此浏览

6. mpcbench

GNU MPC是单数算数的C库。单核性能测试。

https://openbenchmarking.org/result/1806164-FO-LOONGSON301

multichase

This is a benchmark of Google's multichase pointer chaser program.单核,线程同步性能测试。

https://openbenchmarking.org/result/1806120-FO-LS3AMULTI28

图6 FFTE、Fhourstone、Minion、Multichase性能测试

在以上测试中,大家找到2个有关J1900的测试数据信息,在其中ffte性能仅等同于龙芯3A3000的2/3, fhourstone性能是龙芯的1.1倍。从整体性能来看,i5-7200U在以上性能测试是龙芯3A3000的2倍到4.5倍不一,集中化分布于2.3倍以上,大家预测分析龙芯3A4000的单核心性能在各种测试里能做到i5-7200U的85%上下。i5-7200U在gmpbench和mpcbench中测试中性能是龙芯3A3000的4.5倍以上,优势比较明显,可能和数学课库或是编译程序的升级相关。

8 Bullet

Bullet物理模块. Bullet是一个开源系统的物理模拟计算引擎,世界三大物理模拟模块之一。单核性能测试。

https://openbenchmarking.org/result/1806126-FO-LS3ABULLE82

9. himeno

The Himeno benchmark is a linear solver of pressure Poisson using a point-Jacobi method.单核性能测试。

https://openbenchmarking.org/result/1806127-FO-LS3A3000H21

10. tscp

这也是TSCP,Tom Kerrigan的简易棋牌的程序性能测试,它有一个自带的性能标准。单核性能测试。

https://openbenchmarking.org/result/1806104-FO-LS3ATSCPD75

图7 Bullet、Himeno和TSCP测试

在这里一组测试中,i5-7200U优点十分明显,除了在国际象棋性能测试TSCP上速度是3A3000的3.6倍,在其他测试中速度基本都是龙芯3A3000的4倍以上,在bullet的ragdoll测试中性能甚至达到了龙芯3A3000的30倍。我们对bullet的代码进行了分析,发现其中有大量的SIMD相关的代码以及针对X86处理器的汇编语言优化。这是bullet在Intel处理器下运行速度快的重要原因。而针对Ragdoll测试,我们发现代码中有大量的三角函数运算,而龙芯目前三角函数的计算是有问题的,没有启用硬件浮点,而是使用的软件模拟,因此速度较慢。

11. hpcg

高性能共轭梯度算法,由桑地亚国家实验室开发的面向超算的科学基准程序。多线程测试。

https://openbenchmarking.org/result/1806094-FO-LS3AHPCGD08

https://openbenchmarking.org/result/1806202-FO-LS3AHPCGO04

12. npb

NPB,NAS并行基准,是美国国家航空航天局为高端计算机系统开发的基准。此测试配置文件目前使用MPI版本的NPB。多线程测试。

https://openbenchmarking.org/result/1806097-FO-LS3ANPBDE97

13. n-queens

OpenMP版本的N-皇后问题解法器。问题大小是18。多核性能测试。

https://openbenchmarking.org/result/1806109-FO-LS3ANQUEE29

14. mafft

100个丙酮酸脱羧酶序列的比对。多线程性能测试。

https://openbenchmarking.org/result/1806108-FO-LS3AMAFFT56

15. primesieve

Primesieve使用高度优化的Eratosthenes筛法实现来产生素数。Primesieve对CPU L1/L2缓存性能进行基准测试。多线程性能测试。

https://openbenchmarking.org/result/1806103-FO-LS3APRIME23

图8 HCCG、NPB、N-Queens、MAFFT和Primesieve测试

以上的测试都是多线程的性能测试,HPCG测试中i5-7200U性能达到了龙芯3A3000的3.76倍。在NPB的测试中,龙芯在其中3项超过了J1900,另外两项不如J1900。在N-皇后问题、MAFFT以及素数筛选的测试中,i5-7200U性能是龙芯3A3000的两倍左右;如果龙芯3A4000性能能够达到3A3000的两倍,在这几个测试中龙芯3A4000将能够达到i5-7200U的性能。再次强调一下,这是多线程测试!

加密算法

16. Botan

Botan是一个跨平台的C++的开源加密库,支持大多数的所有公开的加密算法。(单线程测试)

https://openbenchmarking.org/result/1806093-FO-LS3ABOTAN50

Gnupg

用GnuPG加密文件,统计耗时。单线程性能测试。

https://openbenchmarking.org/result/1806105-FO-LS3AGNUPG86

图9 Botan和Gnupg测试

在Botan测试中,龙芯3A3000在部分项目上与i5-7200U的差距在3倍左右。在AES的加密和解密这两个测试中,和i5-7200U有近80倍的性能差异!原因在于i5-7200U存在AES加密解密硬件实现,效率很高,而龙芯3A3000没有这样的功能,或者暂时无法使用该功能。此外,在Botan中同样存在针对X86的汇编优化,在能使用到这些优化的测试中,x86处理器就非常有优势。

多媒体编码

18~22. encode-flac, encode-mp3, encode-ogg, encode-opus, encode-wavpack?

将音频文件转码为flac,mp3,ogg,opus和wavpack,统计所需时间。

测试结果:点此访问

espeak

这个测试需要花费多长时间的用espeak语音合成引擎读取古腾堡项目的The Outline of Science,并输出到WAV文件。单线程性能测试。

https://openbenchmarking.org/result/1806148-FO-LS3AESPEA06

24. dcraw

用DCRAW转换多个高分辨率RAW NEF图像文件到PPM图像格式,统计所需要的时间。单线程性能测试。

https://openbenchmarking.org/result/1806140-FO-LS3ADCRAW96

25. mencoder

这个测试使用mplayer的mencoder编码器程序和LIVAVCODEC系列来测试系统的音频/视频编码性。单线程性能测试。

https://openbenchmarking.org/result/1806145-FO-LS3AMENCO12

26.Vpxenc

这是一个标准的视频编码性能测试,使用谷歌的libvpx库和vpxenc命令实现VP8/WebM格式的编码。单核性能测试。

https://openbenchmarking.org/result/1806148-FO-LS3AVPXEN59

图10多媒体相关性能测试

在音视频压缩编码的测试中,龙芯再次完败于Intel处理器,不管是J1900还是i5-7200U。究其原因,还是在优化上。以上这些多媒体应用,针对x86处理器进行了大量的优化,而没有对龙芯处理器进行优化。

压缩算法

27. Compress-7zip

用7zip程序自带的benchmark功能测试程序的多线程性能。

https://openbenchmarking.org/result/1806036-FO-LOONGSON337

https://openbenchmarking.org/result/1806230-FO-LS3A7ZIPL48

28. Compress-gzip

用tar程序压缩Linux源码包,检验系统自带的gzip程序的单线程性能。

https://openbenchmarking.org/result/1806039-FO-LS3A3000G15

优化以后的gzip程序

https://openbenchmarking.org/result/1806056-FO-LS3A3000G52

29. Compress-pbzip2

用并行的bzip2算法压缩Linux内核源码包,统计所需时间。多线程程序。

https://openbenchmarking.org/result/1806109-FO-LS3APBZIP29

网络应用

30. Apache

Apache基准程序,评价标准是发出100万的请求,100个并发,看系统每秒能够处理多少。多线程性能测试。

https://openbenchmarking.org/result/1806159-FO-LS3AAPACH45

31. ebizzy

Ebizzy测试。Ebizzy可以生成类似Web服务器的工作负载。

https://openbenchmarking.org/result/1806152-FO-LS3AEBIZZ72

32. postmark

这是一个测试NETAPP的POSTMARK基准测试,旨在模拟类似于Web和邮件服务器所承受的任务的小文件测试。此测试配置文件将设置POSTMARK以同时执行500个文件的25000个事务,文件大小介于5到512千字节之间。

https://openbenchmarking.org/result/1806151-FO-LS3APOSTM75

图11压缩算法和网络应用测试

从以上的测试结果可以看出,在压缩算法以及网络应用上,龙芯3A3000和J1900性能接近。和i5-7200U处理器相比,差距也在有两倍左右。需要指出的是,除了gzip是单线程测试,其余的测试都是多线程测试。

内存测试

33. Cachebench

这是Calebench的性能测试,它是LLCBench的一部分。Cachebench是用来测试内存和缓存带宽性能的。

https://openbenchmarking.org/result/1806034-FO-LS3A3000C27

34. stream

系统内存(RAM)性能基准测试。

测试结果:点此访问

图12访存性能测试

在stream测试和CacheBench测试中,龙芯3A3000终于实现了对J1900的全面优势。另外,除了在Cachebench中有两项数据明显若与i5-7200U,在其他测试内容中龙芯3A3000和i5-7200U性能相当。能有这样好的性能,还是因为龙芯处理器历史上因为访存性能太差深受其害,然后花了很大的力气优化了访存。可以期待龙芯3A4000一样会有较好的访存性能。

最后,根据openbenchmarking网站上找到的部分FT1500A和FT-2000+的数据,和龙芯3A3000进行了对比。

(点此可查看大图)

基本上,龙芯3A3000的性能强于FT1500A,但明显弱于FT-2000+。和FT1500A相比,FT-2000+性能有了很大的提升,部分得益于工艺的改进,从28纳米提升到了16纳米;部分得益于架构的更新。我们预测,龙芯3A4000在继续使用28纳米工艺的前提下,将能够在单核性能上追平甚至超越飞腾2000+处理器。由于飞腾2000+处理器有多达64个核,龙芯要在多核性能追赶飞腾还有很长的路要走。

3A3000在Monte Carlo模拟上性能意外的糟糕,很可能是某关键函数缺少优化。

总结与展望

从纵向上看龙芯的发展,相比龙芯2F,龙芯3A3000的性能有了很大的进步。工艺上,从龙芯2F的90nm,提高到了龙芯3A3000处理器的28nm;主频从龙芯2F的800MHZ提高到了1.5GHz。在用户实际应用上,基本可以达到流畅使用的程度。与Intel处理器相比,龙芯3A3000综合性能相当于Intel J1900处理器,单核性能相当于intel i5-7200U的30%~40%。

通过本文中所进行的34项测试,我们发现龙芯3A3000在性能不好的根源有以下几个:

同主频性能较弱。从同主频性能来看,龙芯3A3000已经超过了J1900,但只有intel i5-7200U的60%~70%。预计2019年流片的龙芯3A4000同主频性能至少有30%的性能提升。

主频太低。这是龙芯处理器让众多爱好者耿耿于怀的的一个难以回避的弱点。诚然,主频不代表所有性能,但主频太低是万万不行的。J1900的同主频性能弱于龙芯3A3000,但由于它的主频可以到1.99GHz,并且还可以睿频到2.4GHz,在多项测试中一样超过了龙芯3A3000。Intel i5-7200U基础主频达到2.5GHz,睿频可以到3.1GHz。飞腾2000+主频可以到2.2GHz,而兆芯的KX-6000主频甚至可以到3.0GHz。飞腾、兆芯处理器可能在同主频性能上弱于龙芯,但还是可以靠着较高的主频击败龙芯3A3000。

龙芯主频较低的原因之一是落后的工艺制程,目前还在使用28nm工艺,而Intel、飞腾、兆芯等已经在使用14nm工艺。根据龙芯的发展规划,到2020年龙芯将使用14nm工艺对了龙芯3C5000进行流片,主频能够达到2.5GHz。

系统软件优化不够。在测试中,我们发现的问题有三角函数等数学函数运算速度过慢,看起来部分硬件浮点运算的没有得到应用,而且龙芯缺少一个优化的数学函数库。在加密解密指令上,缺少AES硬件实现。在测试中,我们发现使用Debian操作系统、GCC 7.3和1.4GHz的龙芯3A3000进行的各项测试基本优于使用Loongnix操作系统、GCC 4.9编译器和1.5GHz龙芯3A3000的组合。我们认为编译器的优化对发挥龙芯的性能非常重要。在测试中,我们也发现使用4.14的Linux内核会比3.10的Linux内核上有相当程度的性能提升,龙芯依然缺少优化的Linux内核。

应用软件优化不够。由于MIPS架构缺少软件生态,各种应用软件缺少针对MIPS架构的优化。具体表现就是在很多软件有针对X86系统的汇编优化。要建立龙芯的生态,发挥龙芯处理器的性能,相同级别的优化不可缺少。

随着龙芯未来架构的优化、主频的提升,影响龙芯发展的瓶颈将不是处理器的性能,而是软件生态的建设,也就是系统软件优化以及应用软件优化。其中,各种应用软件的优化将是提升龙芯用户体验的捷径。实际上,龙芯也已经意识到了这些问题,提出了要学习苹果,”app by app, feature by feature, pixel by pixel”的进行优化。

当下,龙芯3A4000的流片工作正在开展,预计到2019年初就能看到芯片了。在3A4000出现之前,我们对3A4000的性能进行一下预测。基于我们的评测,我们认为,3A4000的同主频性能将从i5-7200U的60%~70%,提升到80%~90%,2.0GHz下单核性能达到i5-7200U的2/3,多线程性能超过i5-7200U。和国内其他CPU相比,龙芯3A4000的同主频性能将超过飞腾以及兆芯,单核性能也将超过飞腾2000+,但由于3A4000落后的28 nm工艺、依旧较低的主频(2.0 GHz),龙芯3A4000的综合性能将可能依旧无法超过主频3.0GHz的兆芯KX-6000。如果2019年兆芯KX-6000不能大规模量产上市,龙芯3A4000还是有可能成为2019年国内可以买到的单核性能最强的国产自主处理器。

龙芯处理器和Intel、AMD的高性能处理器差距还是非常巨大,龙芯要走的路还很长。期待龙芯在未来采用更好的工艺,更优化的微架构,也期待龙芯能够在编译器、数学库、操作系统等系统软件支持上有更好的表现,构建更好的应用软件生态系统,期待着龙芯3A4000、3B 4000、龙芯3C 5000早日流片成功。

以上的评测只是一个非计算机专业的普通爱好者个人所为,不具有权威性,水平有限,时间仓促,数据繁多,有错误和疏漏在所难免,还请批评指正。

以毛主席的话,结束我的测评:

“我们正在前进。我们正在做我们的前人从来没有做过的极其光荣伟大的事业。我们的目的一定要达到。我们的目的一定能够达到。”

附录

各种测试结果汇总

龙芯3A 3000(Loongnix):

https://openbenchmarking.org/result/1806113-TR-LSLABSLS380

https://openbenchmarking.org/result/1709288-TR-LOONGSON390

FT1500A :

https://openbenchmarking.org/result/1705187-KH-CPUSCIMAR08

I5-7200u

https://openbenchmarking.org/result/1806175-FO-I57200UDE18

https://openbenchmarking.org/result/1806174-FO-I57200UMU24

https://openbenchmarking.org/result/1806175-FO-I57200URA38

https://openbenchmarking.org/result/1806176-FO-I57200UCO93

https://openbenchmarking.org/result/1806179-FO-I57200UCR30

J1900

https://openbenchmarking.org/result/1404256-PL-1404206PL73

https://openbenchmarking.org/result/1404250-PL-1404206SO61

https://openbenchmarking.org/result/1404268-PL-J1900MULT15

https://openbenchmarking.org/result/1404272-PL-J1900SPEE11

https://openbenchmarking.org/result/1404275-PL-J1900PROC21

相关推荐

  • 相关问答
  • 热门攻略