���������콢������geforce rtx 4090 master�������կ�����-威尼斯5139手机版
2022-11-07 00:15 ������pconline ���ߣ�yihan
���� ada lovelace�ܹ�����
����turing��ampere�������ܹ����ľ���������������ǰ���ǽ������ѧ֮��——����·��ϯɭ·ͼ�飻��������“��ѧ�е�ţ��”——������·����·���࣬�����ĺ��ʵ�λ�����������������������ada lovelace���ƿ��ˣ�����һ�¹�ȼ������ �˳�“����ů��”�i���·��ܽ��˹����д����ʷ������գ����dz����繫�ϵĵ�һλ���������ա��������һ����һ����ҫ��ţ��ps�����ĸ����ǡ���諡������ߣ�ʫ�˰���ม�
������turing�ܹ���ʼ��nvidia�״����կ��м����˼��ٹ����ٵ�rt core��Ԫ���լ�����ai������tensor core��Ԫ��������եĵ���ʹʵʱ�����ٳ�ϊ���ܡ���ampere�ܹ�����ȫ��ļܹ��ľ����ڼ�����һ���ķ���rt core������tensor core�����ϣ������ÿ��ƚ���sm��Ԫ��ƣ������կ�����ч�����ƿ�����������������ada lovelace�ܹ���ͬʱ����ч������ϊ��ǰ�ᣬ��ȼ�����������µĵ����� rt cores����ĵ� tensor cores��Ԫ��ͬʱ�����ڶ���ӱ�ĺڿƽ�����ִ��ч����˵ada lovelace�ܹ����θ�ampere�ܹ���2�����ϣ������������������ǵﵽ�˿ֲ���4�����ܡ�
�����ڽ������ļܹ�ǰ���������˽⼸���ؼ��ʣ�geforce rtx 4090��ada lovelace��tsmc 4n��608mm²��760�ڸ�����ܡ�2�����ܹ��ıȡ�
������ҵ��ż����ؼ�����������ġ��կ��������աȡ����Ϳ��ը����������������ˡ�����һ���������կ�geforce rtx 40ϵ�о�����ȫ�µ�ada lovelace�ܹ����ģ� geforce rtx 4090�ĺ����� ad102��ŀǰada lovelace�ܹ���������ϊǿ��ģ�����760�ڸ�����ܡ�16384��cuda���ĺ�24 gb��������gddr6x�դ档
������geforce rtx 4080 16gb���ĵ���ϊad103-300��ӵ��9728��cuda���ĺ�16 gb��������gddr6x�դ棬�դ�λ��ҳ��������256bit��geforce rtx 4080 12gb���ҫ��һщ�����ĵ���ϊad104-400��ӵ��7680��cuda���ĺ�12gb ���� gddr6x�դ棬�դ�λ����ϊ192bit����������ndaԭ���������dz��ٶ�˵geforce rtx 4080 ϵ����ص���ϣ��
����������nvidia��̨������ⱥ�����tsmc 4n�ƴ̹��գ�geforce rtx 4090�����������608mm²���θ�rtx 3090 ti 628mm²�����ڸ�с�ĺ��������ȴ�����¶��760�ڸ�����ܣ�����һ����ampere�ܹ������լ70%�����������
����ֵ��ע����ǣ��ƴ̹��յ�����������ӵ�и���ľ���ܣ������ƶ�ʸ������ܵúܸߣ�geforce rtx 4090 boostƶ�ʾ��ѿ��ﵽ��2520mhz�������ں���ƶ����߹���˫��֤��ʵ���˱��θ��կ��ߴ�2�������ܹ��ıȡ�
����
������gtc2022�^����у���ʵ���ǿ��ѿ������ˣ�ŀǰgeforce rtx 4090�կ����䱸��ad102-300������ʵ����������ad102���ġ�������ad102����ӧ�ð�����12 ��gpc (ͼ�δ�����ⱥ)��72 ��tpc (����������ⱥ)��144 ��sm (��ʽ�ദ����) ��⼀������ 12 �� 32bit�դ�������� 384 bit�դ�λ����
���������������geforce rtx 4090�ܹ�ͼ���������汾��ad102���ķա������ͺ�������������ȣ�geforce rtx 4090���ĵ���ϊad102-300����ӵ��9����������gpc (ͼ�δ�����ⱥ��ÿ���ڽ�6��tpc)����2����������gpc (ͼ�δ�����ⱥ��ÿ���ڽ�5��tpc)���������64��tpc ����ôsm��Ԫ��ȼ����128���ˡ������դ�λ�����������൱������——384bit��
��������㻹�dz�̫����������߾���һϊ��ada lovelace�ܹ��կ��ĺ��ɡ�
�����ղ������ѿ�˵����һ��������ada lovelace�ܹ�ad102�����ڲ�ӵ��12��gpc����ÿ��������gpc�а�����һ��ר�õ�raster engine����դ�����棩������rops��16��rop����դ��������Ԫ�����լ�6��tpc��12��sm��Ԫ��
���� ȫ�µ�sm��ʽ�ദ����
����ada lovelace�ܹ�����������֮һ��ȫ�µ�sm��ʽ�ദ������ÿ��sm������128��cuda���ġ�1����������rt cores,4�����ĵ� tensor cores���������ģ���4��texture units��������Ԫ����256 kb register file���ĵ����ѣ����լ�128 kb l1 ���ݻ���/�����ڴ���ϵͳ��������һ��ȫ�µ�sm��Ԫ���ų�����һ��2��֮�����ܱ��֡�
������ȥ��turing�ܹ�int32 ���㵥Ԫ��fp32������һ�µģ���������ӳ������64��cuda���ġ�����ampere�ܹ���ʼ�����ļ��㵥Ԫʵ����fp32 int32�ļ��㵥Ԫ����ִ�у�ҳ����˵cuda����������������128����
������������ada lovelace�ܹ���sm��fp32/int32�ļ��㵥Ԫ��ϣ�ͬ��ʵ����ÿ��sm�ں�128��cuda����ƣ��������������ǵ����˽geforce rtx 4090ӵ��128��sm��16384��cuda���ģ�����ҳ��ӧ�����״�82.6 tflops����ɫ�����������ʵ�ֵ��ˣ�����һ����rtx 3090 ti�կ���40 tflops�������������������жࡣ
��������淽��ada lovelace�ܹ�ҳ�����˴��������������ÿ��sm��Ԫ�е���������128 kb�ļ��棬����rtx 4090�կ��о�ʵ����163mb l1/�����ڴ档��κ��ĵķ���������н��������µ���ƣ���������ad102������96mb�������棬��rtx 4090�կ�ӵ��72mb�������棬ҳ���������ada lovelace�ܹ����ķ��դ�λ���������բ����ߡ�
���� �������⣺������rt cores����ĵ� tensor cores
�����������⣺������ rt cores����ĵ� tensor cores
������ϊ�ղŵ�cuda�����볬��l2������ѿ������ˣ�ʵ����ada lovelace�ܹ��������������ڵ����� rt cores����ĵ� tensor cores���ϡ�
���������� rt cores
����rt cores���ڹ����ټ��٣������� rt cores ����ч�����ټ��������ﵽ 191 tflops������һ����ʒ 2.8 ����
������ampere�ܹ��у��ڶ���rt cores֧�ֱ߽罻����ԣ�box intersection testing���������ν�����ԣ�triangle intersection testing�������ڼ���bvh������ִ���������ǽ�����լ��㣬��ȼ�����ٴ��������ѿ��ȳ�����turing�ܹ����ĸ���ч���������ż���������ļ��θ����գ������ӣ���ͳ�ĵ�����ʽ�������ը���ч�ʡ���ȷ��ӧ������ʵ�����еĺ��ߣ������ǹ���˶�ȷ�ԡ�
���������ڵ����� rt cores������������ҫӳ����Ԫ��opacity micromap engine��displaced micro-meshes engine���档opacity micromap engine����ҫ������alphaͨ���ļ��٣����խ� alpha ���լ�����ĺ������ٶ����2����
�����ڴ�ͳ��դ��ⱦ�у�������աʹ��һщ alpha ͨ�����ز���ʵ�ָ���ч�ļ�����ⱦ������ alpha ͨ����ҷ�ӻ����ȸ�����״�����塣���ڹ�����ʱ�����ͳ��������ϊ�����ٴ�ϊ������ч�ļ��㣬�����˶��եĺ��߶��ͨ��һ��ҷ�ӣ�����ÿ����һ��ҷ�ӣ��������һ����ɫ����ȷ����δ����ཻ����ʱ�ͻ��������ص�ִ�гɱ���ʱ��ȴ��ɱ���
������opacity micromap engine����ֱ�ӽ������зdz����ȹ��߽����ij�����״̬
���������ρ�����alpha ͨ���ij���������δ֪��������ͬ�ŀ�״̬���д���������ֱ�ӻ��լ�������һ�������������¼����֮���у���δ֪������ɫ����ȷ����δ���������gpu�ֶܴ�����ҫ������ɫ���ĵ��դ������ܹ�ʵ�ָ�ϊ��ч�����ܡ�
����displaced micro-meshes engine
�������˵opacity micromap engine���ٵ����洦������ôdisplaced micro-meshes engine���ǽ�������ϸ�ڵļ�����������ͼ��ʾ����ada lovelace�ܹ��у�ͨ��1������������ λ�ƶ�ͼ���Ϳ��դ�����һ���߶���ϸ�ļ�����������ҫ��դռ�ñȶ���rt cores���ͣ�ч��ҳ���ߡ�
����ͨ��nvidia�����ĵ���14:1ɺ��з������˵�£�����������ҫ��ҫ1.7�������160��������σ���ada lovelace�ܹ���bvh�����ٶȿɼӿ�7.6�����洢�ռ���с8.1����displaced micro-meshes engine���˹ؼ��ե����ã��佫һ������������ݲ�ͬϸ�ڷֳ��ܶȳ�һ�����紦������ɫ�ܶȳ��ߣ�ϸ�ڴ���խϊ���� ����ӧ�ĵ��ܶ���������������ͷÿ������դ��洢�ռ䣬����displaced micro-meshes engine�Ϳ�����bvh���ٹ��̣����ٹ���ʱ��ʹ洢�ɱ���
����ͬʱada lovelace�ܹ�sm����������ɫ��ִ��������shader execution reordering��ser�����������ڹ����ٲ���ֻ��ǿ�������ӱ��ⱦ������δ�������������ڹ��ߵ��˶��ԣ��������߾ͻ���խ��խ���ӣ���ҫ������ rt cores����ĵ� tensor cores���ÿ��ߵ�ִ��ч�ʣ��ǿ͵�ϊ����������һλ�ܼҡ�����ɫ��ִ��������ser������ϊ���ܹ���ʱ���°�����ɫ�����������ִ��ч�ʣ�ϊ�������ṩ2���ļ��٣�ҳ�ܸ��õ����� gpu ��դ������ŀǰ��δ��ʵ������ʵ��������ܣ�������ϸ�뿪�����ߵ�֧�ֲ��с�
�������ĵ� tensor cores
����tensor cores��ר��ϊִ������/�����������ƶ�ר��ִ�е�Ԫ����щ���������ѧϰ��ʹ�õĺ��ļ��㹦�ܡ����ĵ� tensor cores ���� fp8 ���棬���иߴ� 1.32 petaflops �������������ܣ�������һ�� �� 5 ����