NVIDIA Tesla P4

NVIDIA Tesla P4

Серверный ускоритель NVIDIA Tesla P4 построенный на чипсете GP104 (Pascal) выполнен в виде двухслотовой полноразмерной карте расширения. Ускоритель NVIDIA Tesla P4 пришел на смену ускорителю NVIDIA Tesla M4. Модель Tesla P4 ориентирована на блейд-серверы и основана на GPU GP104 с 2560 ядрами CUDA.
NVIDIA сегодня представила новейшие решения для платформы глубокого обучения на базе архитектуры Pascal - графические ускорители NVIDIA Tesla P4 и программное обеспечение, которое значительно ускоряет и оптимизирует анализ информации для сервисов, использующих искусственный интеллект (ИИ).
Современные сервисы ИИ, такие, как активируемая голосом помощь, почтовые фильтры спама и движки генерации рекомендуемых фильмов и продуктов, становятся все сложнее. Нейронным сетям, которые для них нужны, требуется в 10 раз больше вычислений по сравнению с нейронными сетями еще год назад. Современные центральные процессоры не способны оперативно реагировать на запросы сервисов ИИ, что не лучшим образом сказывается на возможностях пользователей.
Ускорители Tesla P4 специально созданы для ускорения операций инференса – применения обученных глубоких нейронных сетей для распознавания речи, изображений и текста в ответ на запрос пользователей или устройств. Основанные на архитектуре Pascal, новые графические процессоры использую специальные инструкции инференса на базе 8-битных (INT8) данных, обеспечивая ответную реакцию в 45 раз быстрее по сравнению с CPU и в 4 раза быстрее по сравнению с GPU, представленными меньше года назад.
Ускорители Tesla P4 отличаются высочайшей экономичностью и предназначены для гипермасштабируемых дата-центров. Благодаря малым размерам и низкому энергопотреблению (от 50Вт), они подходят для любых серверов, что делает их в 40 раз экономичнее центральных процессоров в задачах использования результатов обучения нейронных сетей при обработке данных. Сервер с одним Tesla P4 может заменить 13 серверов на базе CPU, предназначенных для анализа данных, что сокращает общую стоимость владения в 8 раз, включая затраты на сервер и электричество.
Сервер с Tesla P4 анализирует чуть больше 90 потоков (720p на 30 FPS) одновременно, для такой же задачи требуются 13 серверов на Intel Xeon E5-2650.
“В лице Tesla P4, компания NVIDIA предлагает единственную комплексную платформу глубокого обучения для дата-центров, раскрывая огромные возможности искусственного интеллекта для решения самого широкого круга задач, - говорит Ян Бак (Ian Buck), директор по ускоренным вычислениям в NVIDIA. – Новые процессоры сокращают время обучения нейронных сетей с нескольких дней до нескольких часов. Они позволяют мгновенно извлечь данные из анализируемых материалов. И они выдают ответы в реальном времени пользователям сервисов ИИ”.
Решения Tesla P4 дополняют два новых программных продукта, предназначенных для ускорения работы ИИ-сервисов: NVIDIA TensorRT и NVIDIA DeepStream SDK.
TensorRT – это библиотека, созданная для оптимизации моделей глубокого обучения, которая обеспечивает мгновенную ответную реакцию для самых сложных сетей. Она увеличивает пропускную способность и эффективность приложений глубокого обучения путем оптимизации обученных нейронных сетей – обычно в форме 32-битных или 16-битных операций – для операций INT8 пониженной точности.
NVIDIA DeepStream SDK использует мощь сервера на базе решений на архитектуре Pascal для одновременного декодирования и анализа до 93 видеопотоков в разрешении HD в реальном времени, в отличие от семи потоков в случае с серверами на базе двух CPU. Это позволяет решить одну из сложнейших задач в области применения искусственного интеллекта: восприятие масштабируемого видеоконтента – что является критически важным для таких областей применения ИИ, как самоуправляемые автомобили, интерактивные роботы, фильтрация и размещение рекламы. Интеграция глубокого обучения в видеоприложения позволит компаниям создавать умные инновационные сервисы, которые раньше были просто невозможны.
DeepStream SDK позволяет картам с GPU Pascal одновременно декодировать и анализировать до 93 потоков видео в разрешении HD в режиме реального времени.
“Нам очень важно, чтобы наши клиенты могли создавать простые приложения с мгновенной реакций , - говорит Грэг Диамос (Greg Diamos), старший исследователь в Baidu. – Мы используем графические процессоры NVIDIA для таких наших сервисов ИИ, как Deep Speech 2. Применение GPU позволяет добиться такой оперативности, которая попросту невозможна на других неускоренных решениях. Pascal, с поддержкой инструкций INT8, позволяет нам сделать еще один шаг вперед, и теперь мы можем делать пользовательские возможности еще лучше”.
NVIDIA рекомендует использовать данные решения в системах искусственного интеллекта, включая продукты с функцией распознавания объектов на нескольких потоках видео одновременно. Это может пригодиться не только системам, обучающим "автомобильный автопилот", но и системам наблюдения и безопасности.
Тактовые частоты графических процессоров и памяти оптимизированы для бесперебойной работы в режиме 24/7.
Характеристики NVIDIA Tesla P4:
Построен на 16нм чипсете: GP104, 7.2 миллиардов транзисторов, площадь 314 мм2.
Ядро и шейдерный блок работают на частоте: 810 МГц (тактовая частота с ускорением за счет использования GPU Boost 2.0: 1063 МГц).
FP32: 2560 потоковых CUDA процессоров, 24 блока SMM.
FP64: 96 потоковых CUDA процессоров.
Число блоков растеризации (ROP): 64.
Число текстурных блоков (TMU): 128.
Кэш память второго уровня (L2): 3 Мбайта.
Производительность: 5.5 Тфлопс (одинарная точность, FP32, GPU Boost Clocks), 1/32 (двойная точность, FP64).
INT8 TOPS* (тера-операций в секунду): 22 (GPU Boost Clocks).
Скорость заполнения текстур: 129.6 Гтекс/с.
Максимальная скорость закраски: 51.8 Гпикс/с.
VP: одно ядро декодирования и два ядра кодирования.
8Гбайт GDDR5 памяти с поддержкой ECC работают на частоте 6ГГц, 256-битная шина памяти.
Полоса пропускания памяти: 192 Гб/с.
Система компрессии памяти, на 25% улучшает ее пропускную способность.
Интерфейс: PCI Express 3.0 x16.
Порты: нет.
Поддержка: DirectX 12 + Shader Model 5.0.
Оптимизация и поддержка OpenGL 4.4.
Поддержка: NVIDIA CUDA / DirectCompute / OpenCL API.
Поддержка операционных систем: Microsoft Windows 10, Microsoft Windows 8, Microsoft Windows 7, Microsoft Windows Vista.
Максимальная температура чипсета: 95С.
Уровень TDP: до 75 Вт и 50 Вт на базовой частоте.
Поддержка стандарта EnergyStar.
Фазы питания: 6+2+1 (GPU/MEM/PLL).
Требования к блоку питания: 300Вт. Без дополнительных силовых разъёмов питания PCIe.
Двухслотовая пассивная система охлаждения, карта использует компактную низкопрофильную печатную плату (Low Profile).
Номера модели компании PNY Technologies: TCSP4M-PB.
Размеры: 111 х 267 мм. Вес: 0.23 кг.
3 года гарантии.
Новость с сайта: www.nvidia.ru.