forked from chenzomi12/AISystem
-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy path04.srt
2000 lines (1500 loc) · 30.6 KB
/
04.srt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
1
00:00:02,823 --> 00:00:04,823
字幕生成:慎独 字母校对:lim
2
00:00:05,417 --> 00:00:06,953
哈喽大家好我是ZOMI
3
00:00:06,953 --> 00:00:08,537
现在已经是我看看啊
4
00:00:08,537 --> 00:00:10,379
到了晚上凌晨一点多了
5
00:00:10,379 --> 00:00:11,859
我刚到东莞
6
00:00:11,859 --> 00:00:14,995
这是我到东莞集结的第一天
7
00:00:14,995 --> 00:00:16,441
星期天的晚上
8
00:00:16,441 --> 00:00:19,669
那今天呢来到了一个AI芯片里面的
9
00:00:19,669 --> 00:00:20,425
AI计算体系
10
00:00:20,425 --> 00:00:22,963
主要讲到的是计算体系
11
00:00:22,963 --> 00:00:24,963
回头看看整体的目录
12
00:00:24,963 --> 00:00:26,328
在整体的目录里面呢
13
00:00:26,328 --> 00:00:28,328
现在来到了这个内容
14
00:00:28,328 --> 00:00:30,985
整个计算体系和矩阵的运算
15
00:00:30,985 --> 00:00:34,057
那计算体系呢我会给大家带来一些新的
16
00:00:34,057 --> 00:00:37,628
或者我自己的还有在网上去摘录的一些思考
17
00:00:37,828 --> 00:00:38,571
那最重要的
18
00:00:38,571 --> 00:00:40,699
在AI计算体系和矩阵运算里面
19
00:00:40,699 --> 00:00:42,057
分享四个内容
20
00:00:42,185 --> 00:00:46,185
第一个呢就是AI芯片的关键指标key metrics
21
00:00:46,185 --> 00:00:50,185
第二个呢就是比特的位数还有矩阵乘
22
00:00:50,185 --> 00:00:52,920
那这两个呢是更细的一些细节了
23
00:00:52,920 --> 00:00:57,016
最后看一下Domain Specific一些专用的硬件
24
00:00:57,016 --> 00:00:59,368
具体对于AI这个产业
25
00:00:59,368 --> 00:01:00,875
或者AI这个芯片呢
26
00:01:00,875 --> 00:01:02,875
有哪些牵引的方向
27
00:01:02,898 --> 00:01:04,681
和它的计算体系有什么不一样
28
00:01:04,681 --> 00:01:06,884
那今天主要是快速的去过一下
29
00:01:06,884 --> 00:01:09,526
AI芯片的关键指标这个内容
30
00:01:10,506 --> 00:01:12,746
好了来到正式的内容之前呢
31
00:01:12,746 --> 00:01:14,506
来看看整体的算力单位
32
00:01:14,506 --> 00:01:16,234
不管是哪款芯片刚发布
33
00:01:16,234 --> 00:01:19,856
包括里面的最近的苹果的M2这块SoC
34
00:01:19,856 --> 00:01:21,706
里面都会大量的提到
35
00:01:21,706 --> 00:01:24,666
我的峰值的算力到底是多少
36
00:01:24,666 --> 00:01:27,020
我到底有多少倍的性能的提升
37
00:01:27,020 --> 00:01:28,843
而这里面呢看看
38
00:01:28,843 --> 00:01:31,270
算力的单位呢主要有两个
39
00:01:31,270 --> 00:01:32,742
第一个呢是OPS
40
00:01:32,742 --> 00:01:35,675
注意哦OPS三个字母都是大写
41
00:01:35,937 --> 00:01:39,199
然后呢还有另外一个叫做MACs
42
00:01:39,199 --> 00:01:42,311
注意了这里面的s呢是小写
43
00:01:42,311 --> 00:01:43,620
而现在来看看
44
00:01:43,620 --> 00:01:47,735
OPS呢主要是指Operations Per Second
45
00:01:47,735 --> 00:01:51,735
每秒能够去运行的多少次计算
46
00:01:51,943 --> 00:01:55,488
而下面有另外一个单位加了/W
47
00:01:55,488 --> 00:01:58,332
是指每瓦特的运算的性能
48
00:01:58,332 --> 00:02:00,700
那通常在评判一款SoC的时候呢
49
00:02:00,700 --> 00:02:04,590
就会经常用TOPS/W这种
50
00:02:04,590 --> 00:02:06,590
去评价处理器的性能
51
00:02:07,096 --> 00:02:09,590
下面看一下MACs
52
00:02:09,590 --> 00:02:12,598
MACs其实后面会大量的去讲到的
53
00:02:12,598 --> 00:02:15,250
就是Multiply-Accumulate Operations
54
00:02:15,590 --> 00:02:16,965
乘积累加操作
55
00:02:16,965 --> 00:02:18,682
可以看到的层加累积操作主要是
56
00:02:18,682 --> 00:02:20,590
在前面的介绍过
57
00:02:20,590 --> 00:02:25,299
神经网络的最主要的运算就是乘积累加操作了
58
00:02:25,299 --> 00:02:27,743
而一个乘积累加操作呢
59
00:02:27,743 --> 00:02:30,590
就包括一个乘法和一个加法
60
00:02:30,846 --> 00:02:33,590
这里面呢就是就涉及到两个Flops了
61
00:02:33,590 --> 00:02:35,590
那接下来再看两个概念
62
00:02:35,590 --> 00:02:40,846
两个呢就是MAC还有FLOPs
63
00:02:40,846 --> 00:02:45,038
注意这里面呢MAC这个C后面没有s
64
00:02:45,038 --> 00:02:49,038
而FLOPs呢后面的s是小写
65
00:02:49,388 --> 00:02:53,388
这两个单位呢有点不一样跟模型相关
66
00:02:53,388 --> 00:02:56,388
像FLOPs呢主要是Full Point Operations
67
00:02:56,388 --> 00:02:59,042
具体的s呢是来自于这里面的s
68
00:02:59,042 --> 00:03:02,042
主要指的是就是浮点的运算的次数
69
00:03:02,042 --> 00:03:04,042
主要用来衡量网络模型啊
70
00:03:04,042 --> 00:03:06,715
AI模型算法的复杂度
71
00:03:06,715 --> 00:03:10,042
第二个呢是MAC这个是跟内存相关的
72
00:03:10,042 --> 00:03:12,522
叫做Memory Assessed Cost
73
00:03:12,522 --> 00:03:14,692
用来评价一些AI算法
74
00:03:14,692 --> 00:03:17,042
一些MobileNet在内存的占用量
75
00:03:17,056 --> 00:03:19,460
而OPS和MACs主要是用来
76
00:03:19,460 --> 00:03:20,884
评价硬件
77
00:03:20,884 --> 00:03:24,875
特别是AI芯片里面的一些主要的运算的性能
78
00:03:24,875 --> 00:03:29,400
而在后面讲到AI芯片的关键的Metrics
79
00:03:29,400 --> 00:03:31,400
就是接下来要分享的内容
80
00:03:31,400 --> 00:03:33,720
里面的内容就会大量的去用到
81
00:03:33,720 --> 00:03:35,420
上面介绍的一些
82
00:03:35,420 --> 00:03:37,400
主要的算力的指标
83
00:03:37,400 --> 00:03:40,400
后面呢就不会再详细地单独地展开
84
00:03:40,400 --> 00:03:43,535
而是统一通过简称来去给大家介绍
85
00:03:43,535 --> 00:03:46,152
所以它只是一个开篇的开胃菜
86
00:03:46,152 --> 00:03:48,400
大家知道有这么一回事就好了
87
00:03:50,400 --> 00:03:52,400
接下来呢来到一个正式的内容
88
00:03:52,400 --> 00:03:56,082
AI芯片的关键指标Key Metrics
89
00:03:56,082 --> 00:03:57,937
这里面总结了六个
90
00:03:57,937 --> 00:03:59,656
第一个就是精度
91
00:03:59,656 --> 00:04:02,400
精度不仅仅是指模型结果的精度
92
00:04:02,400 --> 00:04:04,400
还包括计算的精度
93
00:04:04,400 --> 00:04:07,400
例如我用FP32FP16来去计算
94
00:04:07,400 --> 00:04:09,400
还是用int8来去计算
95
00:04:09,400 --> 00:04:12,029
第二个呢就是吞吐量Throughput
96
00:04:12,029 --> 00:04:12,479
え?
97
00:04:12,479 --> 00:04:14,206
这里面单词拼错了
98
00:04:14,206 --> 00:04:14,656
没关系
99
00:04:14,656 --> 00:04:16,318
后面再改改
100
00:04:16,318 --> 00:04:19,553
而吞吐量主要是指AI芯片对于张量
101
00:04:19,553 --> 00:04:21,553
因为张量的数据量特别大
102
00:04:21,553 --> 00:04:23,993
它怎么去对这些数据进行抽取
103
00:04:23,993 --> 00:04:25,679
它的吞吐量到底有多少
104
00:04:25,679 --> 00:04:28,993
第二个呢主要是指实时的性能
105
00:04:28,993 --> 00:04:30,993
能不能够快速的去处理
106
00:04:30,993 --> 00:04:32,387
每秒30fps
107
00:04:32,387 --> 00:04:34,868
或者每秒20tokens的这样的数据
108
00:04:34,868 --> 00:04:35,456
那这两个呢
109
00:04:35,456 --> 00:04:37,120
其实都跟数据相关
110
00:04:37,120 --> 00:04:39,744
第三个呢就是时延Latency
111
00:04:39,744 --> 00:04:41,744
在这里面呢有一个很重要的词
112
00:04:41,744 --> 00:04:43,993
就是开发交互应用程序的
113
00:04:43,993 --> 00:04:46,340
一个时间叫做TTA
114
00:04:46,340 --> 00:04:48,856
后面呢还有几个指标
115
00:04:48,856 --> 00:04:51,096
再继续展开一下
116
00:04:51,596 --> 00:04:53,660
能耗这个指标非常关键
117
00:04:53,660 --> 00:04:57,060
IOT交互设备因为电池容量是有限的
118
00:04:57,060 --> 00:04:58,740
每秒去执行多少个FLOPs
119
00:04:58,740 --> 00:05:00,740
能耗消耗是多少
120
00:05:00,740 --> 00:05:02,740
那这个就刚才指到的
121
00:05:02,740 --> 00:05:06,740
OPS每瓦特的性能了
122
00:05:06,740 --> 00:05:10,365
第二点就是数据中心的液冷等大功耗的设备
123
00:05:10,365 --> 00:05:13,740
确实也是一个很重要的衡量指标
124
00:05:13,740 --> 00:05:15,740
第五个呢就是系统的价格
125
00:05:15,740 --> 00:05:17,320
叫做系统的价格
126
00:05:17,320 --> 00:05:20,006
是因为不仅包括AI芯片支撑的价格
127
00:05:20,006 --> 00:05:22,496
包括去光刻或者流片的价格
128
00:05:22,496 --> 00:05:26,031
还包括系统集成上下游全栈的成本
129
00:05:26,031 --> 00:05:27,375
因为有了芯片之后
130
00:05:27,375 --> 00:05:31,006
基于芯片要开发相关的大量的软件编译层
131
00:05:31,581 --> 00:05:33,581
还有在对上的SDK
132
00:05:33,581 --> 00:05:36,245
这些都是集成在系统的价格里面
133
00:05:36,245 --> 00:05:39,581
你买英伟达一款芯片你不仅是买他的芯片
134
00:05:39,581 --> 00:05:41,581
你买昇腾的一款产品
135
00:05:41,581 --> 00:05:43,195
也不仅是买他的产品
136
00:05:43,195 --> 00:05:45,234
而是他产品配套的服务
137
00:05:45,234 --> 00:05:46,581
配套的软硬件
138
00:05:46,581 --> 00:05:48,835
那最后一个呢就是应用性的
139
00:05:48,835 --> 00:05:50,984
应用性这个其实很难去衡量的
140
00:05:50,984 --> 00:05:53,395
他主要是看开发的效率
141
00:05:53,395 --> 00:05:54,581
还有开发的难度
142
00:05:54,581 --> 00:05:56,581
而应用性的好坏呢
143
00:05:56,581 --> 00:05:59,581
确实决定于整款的芯片
144
00:05:59,581 --> 00:06:01,581
用的人的多和少
145
00:06:01,581 --> 00:06:04,581
而且决定用户用的爽还是不爽
146
00:06:04,581 --> 00:06:07,581
下面AI加速器的关键设计点
147
00:06:07,581 --> 00:06:08,845
虽然它有很多指标
148
00:06:08,845 --> 00:06:11,581
但是还是有一些关键的一些点
149
00:06:11,581 --> 00:06:15,156
例如在跟客户交流或者做系统集成的时候
150
00:06:15,156 --> 00:06:16,138
会经常发现
151
00:06:16,138 --> 00:06:19,279
确实要尽可能的去提高吞吐量
152
00:06:19,279 --> 00:06:20,559
Increase整个Throughput
153
00:06:20,559 --> 00:06:23,311
还有降低数据处理的时延
154
00:06:23,581 --> 00:06:26,788
大家有没有发现不管是吞吐量还是时延
155
00:06:26,788 --> 00:06:30,209
更多是跟数据和计算相关的
156
00:06:30,209 --> 00:06:31,745
所以很多时候呢
157
00:06:31,745 --> 00:06:35,201
大部分都会跟数据和计算、内存
158
00:06:35,201 --> 00:06:37,377
三个东西打交道
159
00:06:37,377 --> 00:06:41,227
那第二点呢就是低时延和Batch Size
160
00:06:41,227 --> 00:06:42,507
之间的一个平衡
161
00:06:42,507 --> 00:06:43,851
叫做Tradeoff
162
00:06:43,851 --> 00:06:45,299
我想要时延更低
163
00:06:45,299 --> 00:06:46,707
我的Batch Size设的更少
164
00:06:46,707 --> 00:06:49,581
我的每一次处理的数据肯定要少
165
00:06:49,581 --> 00:06:51,331
每一次处理的数据大了
166
00:06:51,331 --> 00:06:52,867
我的时延就会上去了
167
00:06:52,867 --> 00:06:55,581
所以中间呢会取一个Tradeoff
168
00:06:55,581 --> 00:06:58,581
芯片到底能支持多大的Batch Size
169
00:06:58,581 --> 00:07:00,581
能支持多大的数据的吞吐量
170
00:07:00,581 --> 00:07:03,479
跟时延是息息相关的
171
00:07:04,581 --> 00:07:07,581
刚才提到一个很重要的指标
172
00:07:07,581 --> 00:07:11,240
是MACS在整个AI加速器
173
00:07:11,240 --> 00:07:13,356
或者AI芯片的关键的设计点呢
174
00:07:13,356 --> 00:07:14,700
在软件的角度来看
175
00:07:14,700 --> 00:07:16,581
或者在ZOMI的角度来看
176
00:07:16,581 --> 00:07:19,209
有两个我比较关心的点
177
00:07:19,209 --> 00:07:22,217
第一个呢就是去掉没有意义的MACs
178
00:07:22,217 --> 00:07:25,253
去掉没有意义的计算里面最重要的就是
179
00:07:25,253 --> 00:07:27,859
节省整体的时钟周期
180
00:07:27,859 --> 00:07:29,907
去SaveCycle
181
00:07:29,907 --> 00:07:32,125
另外呢他可能还有其他的作用
182
00:07:32,125 --> 00:07:34,581
第二个比较关键的点就是
183
00:07:34,581 --> 00:07:36,581
就是降低每一次MAC的
184
00:07:36,581 --> 00:07:38,581
降低每一次计算的时间
185
00:07:38,581 --> 00:07:40,082
例如可以增加
186
00:07:40,082 --> 00:07:41,959
时钟的周期的频率啦
187
00:07:41,959 --> 00:07:44,581
那这个时候可能功耗也会上去
188
00:07:44,581 --> 00:07:47,581
第二个呢就是减少指令的开销
189
00:07:47,581 --> 00:07:50,082
这一点不仅是对硬件
190
00:07:50,082 --> 00:07:52,504
还有ISA有关系
191
00:07:52,581 --> 00:07:53,837
可能还会对编译器
192
00:07:53,837 --> 00:07:55,420
对并行的策略
193
00:07:55,420 --> 00:07:57,276
还有数据执行的策略
194
00:07:57,581 --> 00:07:59,581
有关系
195
00:07:59,817 --> 00:08:02,415
在AI加速器另外一个关键点呢
196
00:08:02,415 --> 00:08:03,977
叫做PE
197
00:08:03,977 --> 00:08:05,520
往下面这个图来看
198
00:08:05,520 --> 00:08:08,208
PE实际上呢就是执行单元
199
00:08:08,208 --> 00:08:11,208
每一款芯片呢都会有大量的PE阵列
200
00:08:11,208 --> 00:08:13,550
或者在SIMD架构里面呢
201
00:08:13,550 --> 00:08:14,808
有非常多的PE
202
00:08:14,808 --> 00:08:15,920
在SIMT里面呢
203
00:08:15,920 --> 00:08:17,920
你可以把大量的CUDA Core呢
204
00:08:17,920 --> 00:08:19,920
看成独立的每一个的PE
205
00:08:19,920 --> 00:08:22,789
那为了让芯片跑得更快
206
00:08:22,789 --> 00:08:25,221
首先第一个呢就是增加PE的数量
207
00:08:25,221 --> 00:08:27,397
PE的数量肯定越多越好
208
00:08:27,808 --> 00:08:30,808
例如使用台积电更高纳米的制程
209
00:08:30,808 --> 00:08:32,808
或者中芯国际更高纳米的制程呢
210
00:08:32,808 --> 00:08:35,286
就可以增加PE的面积的密度
211
00:08:35,286 --> 00:08:36,064
这个时候
212
00:08:36,064 --> 00:08:38,808
一款PE可以容纳更多的晶体管
213
00:08:38,808 --> 00:08:41,189
这个时候我执行的效率可能会更高
214
00:08:41,701 --> 00:08:43,320
或者我对应的位置呢
215
00:08:43,320 --> 00:08:44,320
可以塞更多的PE
216
00:08:44,320 --> 00:08:46,640
这也可以提升PE的核心的数量
217
00:08:46,640 --> 00:08:49,056
第二个呢就是增加PE的利用率
218
00:08:49,056 --> 00:08:50,320
因为可以看到呢
219
00:08:50,320 --> 00:08:51,688
在一款芯片里面呢
220
00:08:51,688 --> 00:08:53,320
有非常多的PE
221
00:08:53,320 --> 00:08:55,848
非常多的计算的核心
222
00:08:55,848 --> 00:08:56,552
那这个时候呢
223
00:08:56,552 --> 00:08:58,320
需要把不同的任务
224
00:08:58,320 --> 00:09:00,456
均衡地分配到不同的PE上面
225
00:09:00,456 --> 00:09:03,320
让PE呢满打满地去执行
226
00:09:03,320 --> 00:09:06,320
另外呢可能还会选择合适的内存带宽
227
00:09:06,320 --> 00:09:10,320
有效地去降低整个空闲的时钟周期
228
00:09:10,320 --> 00:09:11,937
就是简单的来说
229
00:09:11,937 --> 00:09:14,320
数据的流动的频率
230
00:09:14,320 --> 00:09:16,320
要跟PE的处理的频率
231
00:09:16,320 --> 00:09:17,761
要匹配得上
232
00:09:17,761 --> 00:09:21,320
才能够让PE发挥更大的效用
233
00:09:22,420 --> 00:09:23,191
诶 ZOMI老师
234
00:09:23,191 --> 00:09:24,420
等一下等一下
235
00:09:24,749 --> 00:09:26,749
你刚才讲了很多内容
236
00:09:26,749 --> 00:09:28,749
我有两个问题啊
237
00:09:28,749 --> 00:09:30,054
第一个你刚才讲的
238
00:09:30,054 --> 00:09:32,550
AI芯片的关键指标里面呢
239
00:09:32,550 --> 00:09:34,550
有吞吐量和时延
240
00:09:34,550 --> 00:09:37,817
那这个主要是由什么产生的呢
241
00:09:38,751 --> 00:09:39,967
小新同学你好
242
00:09:39,967 --> 00:09:41,823
AI芯片的关键的指标呢
243
00:09:41,823 --> 00:09:42,591
主要有六项
244
00:09:42,591 --> 00:09:44,831
这里面呢吞吐量和时延就占了两项
245
00:09:44,831 --> 00:09:47,148
这两个呢更多的是由计算
246
00:09:47,148 --> 00:09:48,834
还有内存导致的
247
00:09:48,834 --> 00:09:50,623
计算越快
248
00:09:50,623 --> 00:09:52,479
时延肯定就越少
249
00:09:52,479 --> 00:09:53,834
但是时延
250
00:09:53,834 --> 00:09:55,834
不仅仅是跟计算量相关