NVIDIA Tesla P40

NVIDIA Tesla P40

Серверный ускоритель NVIDIA Tesla P40 построенный на чипсете GP102 (Pascal) выполнен в виде двухслотовой полноразмерной карте расширения. Ускоритель NVIDIA Tesla P40 пришел на смену ускорителю NVIDIA Tesla M40.
NVIDIA сегодня представила новейшие решения для платформы глубокого обучения на базе архитектуры Pascal - графические ускорители NVIDIA Tesla P40 и программное обеспечение, которое значительно ускоряет и оптимизирует анализ информации для сервисов, использующих искусственный интеллект (ИИ).
Современные сервисы ИИ, такие, как активируемая голосом помощь, почтовые фильтры спама и движки генерации рекомендуемых фильмов и продуктов, становятся все сложнее. Нейронным сетям, которые для них нужны, требуется в 10 раз больше вычислений по сравнению с нейронными сетями еще год назад. Современные центральные процессоры не способны оперативно реагировать на запросы сервисов ИИ, что не лучшим образом сказывается на возможностях пользователей.
Ускорители Tesla P40 специально созданы для ускорения операций инференса – применения обученных глубоких нейронных сетей для распознавания речи, изображений и текста в ответ на запрос пользователей или устройств. Основанные на архитектуре Pascal, новые графические процессоры использую специальные инструкции инференса на базе 8-битных (INT8) данных, обеспечивая ответную реакцию в 45 раз быстрее по сравнению с CPU и в 4 раза быстрее по сравнению с GPU, представленными меньше года назад.
Tesla P40 обеспечивает максимальную пропускную способность для задач глубокого обучения. С производительностью в 47 тера-операций в секунду (TOPS) с инструкциями INT8 сервер с восемью ускорителями Tesla P40 может заменить 140 серверов на базе CPU. С учетом средней стоимости одного сервера с CPU порядка $5000, общая экономия составит более $650000.
“В лице Tesla P40, компания NVIDIA предлагает единственную комплексную платформу глубокого обучения для дата-центров, раскрывая огромные возможности искусственного интеллекта для решения самого широкого круга задач, - говорит Ян Бак (Ian Buck), директор по ускоренным вычислениям в NVIDIA. – Новые процессоры сокращают время обучения нейронных сетей с нескольких дней до нескольких часов. Они позволяют мгновенно извлечь данные из анализируемых материалов. И они выдают ответы в реальном времени пользователям сервисов ИИ”.
Решения Tesla P40 дополняют два новых программных продукта, предназначенных для ускорения работы ИИ-сервисов: NVIDIA TensorRT и NVIDIA DeepStream SDK.
TensorRT – это библиотека, созданная для оптимизации моделей глубокого обучения, которая обеспечивает мгновенную ответную реакцию для самых сложных сетей. Она увеличивает пропускную способность и эффективность приложений глубокого обучения путем оптимизации обученных нейронных сетей – обычно в форме 32-битных или 16-битных операций – для операций INT8 пониженной точности.
NVIDIA DeepStream SDK использует мощь сервера на базе решений на архитектуре Pascal для одновременного декодирования и анализа до 93 видеопотоков в разрешении HD в реальном времени, в отличие от семи потоков в случае с серверами на базе двух CPU. Это позволяет решить одну из сложнейших задач в области применения искусственного интеллекта: восприятие масштабируемого видеоконтента – что является критически важным для таких областей применения ИИ, как самоуправляемые автомобили, интерактивные роботы, фильтрация и размещение рекламы. Интеграция глубокого обучения в видеоприложения позволит компаниям создавать умные инновационные сервисы, которые раньше были просто невозможны.
DeepStream SDK позволяет картам с GPU Pascal одновременно декодировать и анализировать до 93 потоков видео в разрешении HD в режиме реального времени.
“Нам очень важно, чтобы наши клиенты могли создавать простые приложения с мгновенной реакций , - говорит Грэг Диамос (Greg Diamos), старший исследователь в Baidu. – Мы используем графические процессоры NVIDIA для таких наших сервисов ИИ, как Deep Speech 2. Применение GPU позволяет добиться такой оперативности, которая попросту невозможна на других неускоренных решениях. Pascal, с поддержкой инструкций INT8, позволяет нам сделать еще один шаг вперед, и теперь мы можем делать пользовательские возможности еще лучше”.
NVIDIA рекомендует использовать данные решения в системах искусственного интеллекта, включая продукты с функцией распознавания объектов на нескольких потоках видео одновременно. Это может пригодиться не только системам, обучающим "автомобильный автопилот", но и системам наблюдения и безопасности.
Тактовые частоты графических процессоров и памяти оптимизированы для бесперебойной работы в режиме 24/7.
Характеристики NVIDIA Tesla P40:
Построен на 16нм чипсете: GP102-895, 12 миллиардов транзисторов, площадь 471 мм2.
Ядро и шейдерный блок работают на частоте: 1303 МГц (тактовая частота с ускорением за счет использования GPU Boost 2.0: 1531 МГц).
FP32: 3840 потоковых CUDA процессоров, 24 блока SMM.
FP64: 96 потоковых CUDA процессоров.
Число блоков растеризации (ROP): 96.
Число текстурных блоков (TMU): 240.
Кэш память второго уровня (L2): 3 Мбайта.
Производительность: 12 Тфлопс (одинарная точность, FP32, GPU Boost Clocks), 1/32 (двойная точность, FP64).
INT8 TOPS* (тера-операций в секунду): 47 (GPU Boost Clocks).
Скорость заполнения текстур: 192 Гтекс/с.
Максимальная скорость закраски: 72 Гпикс/с.
VP: одно ядро декодирования и два ядра кодирования.
24Гбайта GDDR5 памяти с поддержкой ECC работают на частоте 7.2ГГц, 384-битная шина памяти.
Полоса пропускания памяти: 346 Гб/с.
Система компрессии памяти, на 25% улучшает ее пропускную способность.
Интерфейс: PCI Express 3.0 x16.
Порты: нет.
Поддержка: DirectX 12 + Shader Model 5.0.
Оптимизация и поддержка OpenGL 4.4.
Поддержка: NVIDIA CUDA / DirectCompute / OpenCL API.
Поддержка операционных систем: Microsoft Windows 10, Microsoft Windows 8, Microsoft Windows 7, Microsoft Windows Vista.
Максимальная температура чипсета: 95С.
Уровень TDP: до 250 Вт (в режиме ожидания 15Вт).
Поддержка стандарта EnergyStar.
Фазы питания: 6+2+1 (GPU/MEM/PLL).
Требования к блоку питания: 600Вт (минимальный ток 42А по линии 12В). Один 8-штырьковый (150Вт) силовой разъём питания PCIe.
Двухслотовая пассивная система охлаждения.
Номера модели компании PNY Technologies: TCSP40M-24GB-PB.
Размеры: 111 х 267 мм. Вес: 0.96 кг.
3 года гарантии.
Цена: $6999.
Новость с сайта: www.nvidia.ru.