NVIDIA GeForce RTX 4080

Продолжаем знакомство с видеокартой NVIDIA GeForce RTX 4080, на этот раз - это переводы с сайта ProVideo Coalition. Ранее были опубликованы следующие переводы:
Тест видеокарты NVIDIA GeForce RTX 4080 от Puget Systems, сравнение RTX 4080 и AMD Radeon RX 7900 XTX от Puget Systems и описание работы NVDEC/NVENC в Ada GPU.

...........................

Реальный взгляд на разницу между RTX 4080 в Avid Media Composer, Adobe Premiere Pro и Davinci Resolve.
Несколько лет назад я приступил к сборке собственного профессионального ПК для редактирования и написал полное руководство по сборке, чтобы помочь другим с той же целью. Я вложил большой бюджет, потому что хотел, чтобы он был в состоянии справиться со всем, что бы я ни предложил — от 1080p до 8K, от ProRes до H.264. Я также хотел иметь возможность быстро экспортировать, так как теперь я все время работаю удаленно. Я не люблю ждать рендеров или экспорта.
Но это было время Великой нехватки графических процессоров — серия RTX 3000 была запущена, но я не мог достать ни одну, по крайней мере, не заплатив непомерные спекулятивные цены. Поэтому я «обошелся» с RTX 2060 Super и решил дождаться выпуска RTX 4000, присматриваясь к 4080. За это время я был сильно впечатлен доступной 2060 Super, и я задавался вопросом, стоит ли вообще обновлять ее. Возможно, вы находитесь в похожем положении.
Но обновление я сделал и провел несколько тестов с использованием трех основных NLE, а также некоторых других программ, таких как Topaz Video AI, чтобы увидеть, какие реальные отличия я получил от обновления с карты среднего уровня 20-й серии до более дорогой 40-й серии. Хотя эти цифры индивидуальны для меня и никоим образом не претендуют на научность, я думаю, что из них можно сделать ряд выводов.
Ранее я уже говорил, что игровое сообщество было недовольно ценой на 4080 , и так оно и осталось. Большинство комментаторов по-прежнему очень раздражены высокими ценами на 4080 (Nvidia даже немного снизила цены в Европе).
Я провел ряд идентичных тестов, сначала с RTX 2060 Super, а затем с RTX 4080. Моя система имеет следующие характеристики: Windows 10 Pro, AMD Threadripper 3960X (24 ядра), 128 ГБ ОЗУ (CL-16 3200 МГц), несколько NVMe твердотельных накопителей. Я использовал последние версии всех программ: Avid Media Composer v2022.10, Adobe Premiere Pro v23.0.0, Davinci Resolve v18.1.1, Neat Video v5.5.6, Topaz Video AI v3.0.5. Тестовые клипы были UHD (3840х2160) 25fps.
Сначала я протестировал декодирование H.264 (AVC) и H.265 (HEVC) (используя аппаратную поддержку 8 бит 4:2:0 для обоих). Этот тест повторяет транскодирование или создание прокси — преобразование в мезонинный кодек (обычно ProRes, но я использовал DNxHR, так как все NLE здесь его поддерживают). Я рассчитал результаты как FPS — количество кадров в секунду — так что чем выше, тем лучше на диаграммах.

тестируем качество рендеринга RTX 4080

Здесь есть о чем поговорить:
- Почему низкий балл у Premiere Pro? Похоже, что возможность использования аппаратного декодера Nvidia (NVDEC) нарушена в последних драйверах Nvidia для Windows (и это единственные драйверы, поддерживающие 4080, поэтому отката нет). Я включил счет как мои реальные результаты, но я обновлю его, когда, надеюсь, он будет исправлен (хотя, если у вас есть процессор Intel с Quick Sync, все будет в порядке, поскольку Premiere будет декодировать с ним).
- Avid также не продемонстрировал использования аппаратного декодера, чего и следовало ожидать, хотя я был приятно удивлен его оценкой. Я также отмечу здесь, что для честного теста я «связал» исходный носитель в Avid, что не является обычным рабочим процессом. Обычно носители H.264/H.265 перекодируются, но этот тест фактически делает то же самое. Кроме того, Avid предпочитает использование карт Quadro.
- Разочаровывающе небольшое увеличение 4080 по сравнению с 2060 Super. Во многом это показывает мощь даже базовых моделей, восходящих к серии RTX 20.
- Davinci Resolve намного опережает конкурентов в максимально эффективном использовании аппаратного обеспечения, но я думаю, что это уже старые новости, поэтому его часто используют для транскодирования или создания прокси, даже когда редактирование выполняется в Avid или Premiere.
Только Davinci Resolve продемонстрировала использование аппаратного декодера Nvidia для H.264 и H.265:

тестируем качество рендеринга RTX 4080

Avid раскачивает 48 потоков AMD Threadripper (к сожалению, только при декодировании):

Кодирование. Это был противоположный тест: DNxHR для H.264/H.265 — пример сценария: вы отправляете обновление для социальных сетей или отправляете производителям/клиентам (мне нравится встроенная панель Premiere в frame.io для этого). Кодирование выполнялось с использованием настроек по умолчанию в каждом NLE.

тестируем качество рендеринга RTX 4080

Что я вижу здесь:
- Avid действительно борется здесь со своим подходом, основанным только на процессоре. Вероятно, лучше экспортировать в формате DNx (или в какой другой формат был перекодирован ваш медиафайл) и запустить его через Shutter Encoder или Resolve.
- К счастью, использование в Premiere аппаратного кодировщика (NVENC) работает, но все же Davinci Resolve одерживает победу.
- 4080 предлагает здесь немного больше: улучшение на 20% в Premiere и на 36% в Resolve для H.265, но вы много платите за это по сравнению с картой более низкого уровня.
Декодирование и кодирование одновременно. Этот тест представляет ситуацию, когда у вас есть медиафайлы H.264/H.265 на вашей временной шкале, и вы экспортируете их для просмотра или общения в социальных сетях.

тестируем качество рендеринга RTX 4080

Что я вижу:
- Avid борется по тем же причинам, о которых говорилось выше.
- Resolve имеет здесь большее преимущество (может измениться или не измениться с обновленными драйверами — я видел в прошлом Premiere, который не мог использовать NVDEC и NVENC одновременно).
- Очень небольшой выигрыш здесь, в Premiere, для карты более высокого уровня.
До сих пор нужно сказать, что гораздо более высокая стоимость 4080 не оправдала себя.
В чем сияет RTX 4080 — больше видеопамяти, лучший ИИ, чистая мощность и AV1.
8K. Если я хочу быть готовым к работе с мультимедиа 8K, мне нужно больше, чем 8 ГБ видеопамяти, которые есть у 2060 Super. 10 ГБ будет минимальным , и это предполагает закрытие всех других программ, которые могут использовать часть этого объема. Все три NLE совершенно не справились с тестовым роликом 8K RED с 2060 Super — все они зависли. Все трое справились с этим с 16 ГБ видеопамяти 4080, хотя и медленно. Конечно, здесь есть более дешевые варианты, чтобы получить немного больше видеопамяти — не в последнюю очередь версия 3060 12 ГБ . Будет интересно посмотреть, сколько видеопамяти у каждой карты RTX 4000. AMD немного более щедра в этом отношении — еще одна причина, по которой этот год может стать для них блестящим, хотя в течение столь долгого времени NLE лучше работали на картах Nvidia на основе CUDA, более вероятно, что так будет и дальше.

тестируем качество рендеринга RTX 4080

Neat Video. Пока в Premiere не будет встроенного шумоподавления (подсказка), я предпочитаю Neat Video. Я обнаружил, что даже временные шкалы 4K с Neat иногда приводили к сбою Premiere или даже самой Windows, а 4080 сильно повлиял на стабильность использования Neat Video. Он также имеет приличное увеличение скорости, хотя и не так сильно, как я надеялся.

тестируем качество рендеринга RTX 4080

Topaz Video AI. Я дал ему неприятный тест здесь — 2-кратное повышение разрешения плюс стабилизация плюс 4-кратное замедление, все в одно и то же время — таким образом, крошечные показатели FPS. 4-кратное увеличение скорости здесь впечатляет и означает огромную экономию времени на длинных масштабированных клипах.

тестируем качество рендеринга RTX 4080

Davinci Resolve noise reduction и Magic Mask. Шумоподавление в Resolve — обычная задача, и увеличение скорости в 3 раза здесь крайне приветствуется. 5-кратное увеличение инструмента магической маски на основе ИИ, хотя и не является обычным явлением, по крайней мере, показывает, что некоторые передовые технологии под капотом используются с большим эффектом.

тестируем качество рендеринга RTX 4080

AV1. AV1 является следующим после H.264 и H.265 — файлы даже меньшего размера при том же качестве. Серия RTX 40 предлагает аппаратное обеспечение AV1, если оно вам нужно, чего, скорее всего, у вас пока нет.

тестируем качество рендеринга RTX 4080

Заключение. Итак, кому будет выгодна RTX 4080? Реально не так много людей. Конечно, это не редактор только для Avid, вам следует придерживаться рекомендуемой карты Quadro (хотя Avid отлично работает с серией 40). Ни редактору Premiere, который никогда не занимается задачами, требующими больших графических ресурсов, — за небольшой прирост производительности придется дорого заплатить. И даже не редактор, которому требуется более 8 ГБ видеопамяти — лучше, скажем, 3060 12 ГБ или дождаться карт серии 4000 в следующем году. А как насчет активного пользователя Davinci Resolve — возможно, в конце концов вы могли бы увеличить свой бюджет, чтобы купить 4090 или, в идеале, два адаптера!
Но если вы опытный пользователь и у вас нет бюджета (или места) для 4090, тогда 4080 может быть для вас. Это дорогая карта для того, что она дает, но время, которое она экономит, и стабильность, которую она обеспечивает для интенсивных плагинов, вполне могут того стоить. Я также думаю, что его полный потенциал раскроется еще впереди.

...........................

Давайте глубже изучим новый кодировщик Nvidia 8-го поколения (NVENC), который поставляется с серией 4000 и ускоряет кодирование AV1, H.265 (HEVC) и H.264 (AVC). И узнаем, как максимально эффективно использовать аппаратное обеспечение, особенно двойные кодировщики — на этот раз Nvidia включила два чипа кодировщика (NVENC).
Часто говорят: «Хорошо, быстро, дешево — выбери два», и это очень хорошо подходит для постпродакшна. Кодирование имеет аналогичную взаимосвязь между качеством, скоростью и размером файла.
Предустановка — это набор параметров, которые обеспечат определенную скорость кодирования по отношению к коэффициенту сжатия. Более медленная предустановка обеспечит лучшее сжатие (сжатие — это качество на размер файла). Это означает, что, например, если вы ориентируетесь на определенный размер файла или постоянный битрейт, вы добьетесь лучшего качества с более медленным пресетом. Точно так же для кодирования с постоянным качеством вы просто сэкономите битрейт, выбрав более медленный пресет.
Однако реальный вопрос заключается в том, стоит ли вам тратить это дополнительное время. Некоторые люди просто выберут самый медленный пресет, зная, что им нужно самое высокое качество, и готовы ждать его. Лично я всегда хотел бы знать, стоит ли делать что-то медленнее — что, если вы ждете лишних 10 минут каждый день для улучшения на 0,01%, которое никто никогда не увидит? Что ж, оказывается, это именно так — не только для программных кодировщиков, таких как x264, но и для новой серии RTX 4000, о которой я расскажу позже.
Аппаратный кодировщик Nvidia (NVENC) имеет предустановки — официально называемые от P1 (самый быстрый) до P7 (самый медленный), которые, согласно Nvidia, «определяют, например, структуру GOP, кадры B, упреждающее кодирование и т.д.» — то, что нужно большинству из нас. У меня нет времени разбираться, но это то же самое — потратить немного больше времени, чтобы получить немного более качественный или меньший файл.
Пресеты для NVENC от Nvidia в Davinci Resolve:

Пресеты для NVENC от Nvidia в Davinci Resolve

И оказывается, что время экспорта сильно различается в этих пресетах. Я провел несколько тестов на RTX 4080, экспортировав 5-минутный клип DNxHR UHD 25fps во все три варианта вывода (H.264, H.265 и AV1) во всех 7 пресетах. Для H.265 и AV1 самая быстрая предустановка была примерно в 6 раз быстрее, чем самая медленная, с 50 до 300 кадров в секунду. Чтобы представить это в некотором контексте, если у вас есть 30-минутная временная шкала , предустановка «Очень медленно»/“Very Slow” займет более 15 минут, а предустановка «Очень быстро»/“Very Fast” — 2,5 минуты. Такого рода время складывается, если вы делаете это каждый день. Чтобы получить такую скорость экспорта, входной кодек должен быть ProRes или DNxHR (или эквивалентный мезонинный кодек) с уже кэшированными/отрендеренными эффектами — в противном случае кодер не будет загружаться достаточно быстро.

тестируем качество рендеринга RTX 4080

Двойные энкодеры. Есть также причина, по которой скорость кодирования резко возрастает для двух самых быстрых пресетов — именно здесь в игру вступают двойные энкодеры. Судя по всему, при определенных условиях новые карты могут разбивать видео на две половины и передавать каждую половину каждому кодировщику, а затем рекомбинировать их. Чтобы использовать двойные энкодеры в новой серии RTX 4000, вам необходимо выполнить следующие условия:
- Разрешение UHD или выше.
- Пресеты «Быстрее (P2)»/Faster (P2) или «Очень быстро (P1)»/Very Fast (P1).
- Настройка установлена как «Высокое качество»/High Quality (в любом случае это значение по умолчанию).
- Экспортный кодек — AV1 или H.265.
Я также смог добиться этого только в Davinci Resolve (но не в Premiere Pro или Shutter Encoder). Интересно, что кодирование H.265 теперь в целом быстрее, чем H.264 — я думаю, пришло время начать его использовать, если вы еще этого не сделали.

тестируем качество рендеринга RTX 4080

Если вы видите кодирование видео более 50%, значит, вы используете двойные кодировщики.
Но как насчет качества? Конечно, большой вопрос заключается в том, каков компромисс в качестве для этих скоростей? Хотя вы можете и должны использовать свои глаза, чтобы увидеть, соответствует ли экспорт требуемому качеству, для более тонких различий лучше всего использовать что-то вроде PSNR или VMAF для оценки визуального качества.
VMAF — это «алгоритм перцептивной оценки качества видео, разработанный Netflix, удостоенный премии «Эмми». И вы можете использовать его бесплатно в FFmpeg, вот руководство по использованию:
https://streaminglearningcenter.com/learning/lesson-of-the-week-computing-vmaf-with-ffmpeg-on-windows.html
Действительно хорошая вещь в VMAF заключается в том, что это оценка из 100, что делает его довольно простым для понимания, и, согласно Netflix , оценка более 85 — это хорошо. Выполнение расчетов VMAF с помощью FFmpeg:

тестируем качество рендеринга RTX 4080

Несмотря на то, что в пресетах есть небольшое падение качества, оно действительно очень небольшое — менее половины точки VMAF и незаметно невооруженным глазом. На самом деле, с любой оценкой выше 90 мне вообще трудно увидеть какие-либо артефакты. Гораздо большая разница видна при использовании H.265 вместо H.264 (а AV1 даже лучше). Конечно, реальные цифры будут зависеть от исходного материала, но я провел несколько других тестов и получил аналогичные результаты.

тестируем качество рендеринга RTX 4080

Хотя скорость кодирования не так сильно влияет на качество, битрейт/размер файла влияют. Вы можете увидеть здесь тестовый файл 1080p, закодированный в H.265 с битрейтом от 10 Мбит/с до 1 Мбит/с — качество мало меняется в зависимости от предустановок, но сильно зависит от битрейта. На мой взгляд, я был очень доволен кодированием выше 6 Мбит/с.

тестируем качество рендеринга RTX 4080

Учитывая, что большинству людей не хватает места на диске или скорости интернета, увеличение битрейта, безусловно, является способом повысить качество, сохраняя при этом преимущество быстрого кодирования с самыми быстрыми пресетами.
Adobe Premiere Pro. В Premiere Pro есть более ограниченные возможности, но вы все равно можете ускорить экспорт, разумно изменив настройки. Предустановки недоступны в H.264, а AV1 пока вообще недоступен (кроме использования стороннего плагина Voukoder ), но если вы выберете H.265 (HEVC) в качестве формата и наберете в настройках видео, вы увидите пять вариантов, перечисленных как «Качество» — почему их пять, а не семь, я понятия не имею (моя догадка заключается в том, чтобы сделать это проще, опустив два внешних). Вам также необходимо убедиться, что вы выбрали однопроходное аппаратное кодирование, которое использует кодировщик NVIDIA NVENC.

тестируем качество рендеринга RTX 4080

Опять же, здесь можно существенно сэкономить время, хотя, к сожалению, ни один из них, похоже, не имел доступа к двойным энкодерам. Но я увидел увеличение скорости примерно на 67% при переходе от настройки по умолчанию «Хорошо»/Good к настройке «Ниже»/Lower — и на этот раз падение качества было совершенно незначительным (всего 0,1 балла VMAF во всех пресетах). И достижение 167 кадров в секунду довольно впечатляет, даже если это не совсем 300 кадров в секунду Davinci Resolve.

тестируем качество рендеринга RTX 4080

Shutter Encoder. Это популярный бесплатный инструмент для кодирования, поэтому я подумал, что тоже должен взглянуть на него. Это очень полезно и во многих отношениях лучше, чем Handbrake (например, сохраняет тайм-код нетронутым). Это внешний интерфейс для FFmpeg, и по умолчанию он использует кодировщики ЦП, такие как x264. Это замечательно, если у вас более старая видеокарта или вам нужно максимально возможное качество. Вы можете заставить его использовать NVENC, если хотите для более высоких скоростей — в моих тестах я получил 10-кратное увеличение скорости, изменив настройки по умолчанию на NVENC «очень быстро». Он работал аналогично Premiere со 183 кадрами в секунду и снова, похоже, не мог использовать двойные кодировщики.

тестируем качество рендеринга RTX 4080

Я обнаружил, что программные кодировщики дали на 1 или 2 балла больше VMAF за тот же материал в целом, так что опять же, это зависит от того, пытаетесь ли вы выжать последний бит качества и не против потратить на это время.
Принудительное использование предустановки NVENC в дополнительных настройках Shutter Encoder:

тестируем качество рендеринга RTX 4080

Выводы. Аппаратный кодировщик Nvidia (NVENC) был очень высокого качества на протяжении многих поколений — достаточно близко к качеству программных кодировщиков, чтобы сделать его полезным и намного быстрее. В этой серии RTX 4000 это даже лучше, и включение двойных энкодеров довольно интересно. Возможность доступа к ним в Davinci Resolve — это фантастика, скорость кодирования достигает впечатляющих 300 кадров в секунду с использованием самых быстрых пресетов. И эти скорости связаны с очень небольшим падением качества, плюс вы все равно можете компенсировать это, немного увеличив битрейт, без каких-либо реальных недостатков.
Я также думаю, что пришло время отказаться от H.264 в пользу H.265. Аппаратное обеспечение на принимающей стороне теперь может легко воспроизвести его, и теперь его можно сделать быстрее, а также улучшить качество. H.264 исполнилось 20 лет, и теперь H.265 можно рассматривать как «безопасный» выбор по сравнению с AV1, если вам от этого станет лучше.

...........................

*Результаты прогона бенчмарка NeatBench на видеокарте NVIDIA GeForce RTX 4080, информация из сгенерированного текстового файла:
Neat Bench (Neat Image 9.1.0, Neat Video 5.5.5) Windows x64
Copyright (c) 1999-2022 Neat Image team, Neat Video team, ABSoft.
All Rights Reserved.
GPU detection log:
CUDA driver version: 12000
NVIDIA CUDA initialized successfully.
Checking CUDA GPU 1:
GPU device name is: NVIDIA GeForce RTX 4080
16375 MB total (15062 MB available during initialization)
Check passed - will attempt to use the device
Checking OpenCL platform 1 (NVIDIA Corporation):
The platform is not supported.
OpenCL initialized successfully.
Checking OpenCL GPU 1:
GPU device name is: NVIDIA GeForce RTX 4080
16375 MB total
Unsupported OpenCL platform.
Check failed - will not use the device
Neat Video benchmark:
Frame Size: 1920x1080 progressive
Bitdepth: 32 bits per channel
Mix with Original: Disabled
Temporal Filter: Enabled
Quality Mode: Normal
Radius: 2 frames
Dust and Scratches: Disabled
Repeat Rate: 0% of repeated frames
Jitter Filtration: Normal
Spatial Filter: Enabled
Quality Mode: Normal
Frequencies: High, Mid, Low, Very Low
Artifact Removal: Enabled
Edge Smoothing: Disabled
Sharpening: Disabled
Detecting the best combination of performance settings:
running the test data set on up to 24 CPU cores and on up to 1 GPU
CPU Model: 13th Gen Intel(R) Core(TM) i7-13700KF
GPU 1: NVIDIA GeForce RTX 4080 (CUDA): 16375 MB total (14828 MB currently available), using up to 100%
CPU only (1 core): 5.62 frames/sec
CPU only (2 cores): 11.8 frames/sec
CPU only (3 cores): 16.7 frames/sec
CPU only (4 cores): 22 frames/sec
CPU only (5 cores): 26.8 frames/sec
CPU only (6 cores): 31.5 frames/sec
CPU only (7 cores): 33.7 frames/sec
CPU only (8 cores): 37.2 frames/sec
CPU only (9 cores): 37.8 frames/sec
CPU only (10 cores): 37.4 frames/sec
CPU only (11 cores): 39.8 frames/sec
CPU only (12 cores): 40.9 frames/sec
CPU only (13 cores): 41.5 frames/sec
CPU only (14 cores): 40.7 frames/sec
CPU only (15 cores): 42.2 frames/sec
CPU only (16 cores): 42.1 frames/sec
CPU only (17 cores): 41.4 frames/sec
CPU only (18 cores): 42 frames/sec
CPU only (19 cores): 41.7 frames/sec
CPU only (20 cores): 41.8 frames/sec
CPU only (21 cores): 41.2 frames/sec
CPU only (22 cores): 40 frames/sec
CPU only (23 cores): 38.9 frames/sec
CPU only (24 cores): 38.3 frames/sec
GPU only (NVIDIA GeForce RTX 4080): 97.9 frames/sec
CPU (2 cores) and GPU (NVIDIA GeForce RTX 4080): 37.8 frames/sec
CPU (3 cores) and GPU (NVIDIA GeForce RTX 4080): 52.9 frames/sec
CPU (4 cores) and GPU (NVIDIA GeForce RTX 4080): 56.4 frames/sec
CPU (5 cores) and GPU (NVIDIA GeForce RTX 4080): 60 frames/sec
CPU (6 cores) and GPU (NVIDIA GeForce RTX 4080): 67.2 frames/sec
CPU (7 cores) and GPU (NVIDIA GeForce RTX 4080): 68.4 frames/sec
CPU (8 cores) and GPU (NVIDIA GeForce RTX 4080): 71.7 frames/sec
CPU (9 cores) and GPU (NVIDIA GeForce RTX 4080): 71.1 frames/sec
CPU (10 cores) and GPU (NVIDIA GeForce RTX 4080): 71 frames/sec
CPU (11 cores) and GPU (NVIDIA GeForce RTX 4080): 72.9 frames/sec
CPU (12 cores) and GPU (NVIDIA GeForce RTX 4080): 72.4 frames/sec
CPU (13 cores) and GPU (NVIDIA GeForce RTX 4080): 73.2 frames/sec
CPU (14 cores) and GPU (NVIDIA GeForce RTX 4080): 73.2 frames/sec
CPU (15 cores) and GPU (NVIDIA GeForce RTX 4080): 71.8 frames/sec
CPU (16 cores) and GPU (NVIDIA GeForce RTX 4080): 72.3 frames/sec
CPU (17 cores) and GPU (NVIDIA GeForce RTX 4080): 71.7 frames/sec
CPU (18 cores) and GPU (NVIDIA GeForce RTX 4080): 71.7 frames/sec
CPU (19 cores) and GPU (NVIDIA GeForce RTX 4080): 71.7 frames/sec
CPU (20 cores) and GPU (NVIDIA GeForce RTX 4080): 71.2 frames/sec
CPU (21 cores) and GPU (NVIDIA GeForce RTX 4080): 70.5 frames/sec
CPU (22 cores) and GPU (NVIDIA GeForce RTX 4080): 68.6 frames/sec
CPU (23 cores) and GPU (NVIDIA GeForce RTX 4080): 67.3 frames/sec
CPU (24 cores) and GPU (NVIDIA GeForce RTX 4080): 66.7 frames/sec
Best combination: GPU only (NVIDIA GeForce RTX 4080): 97.9 frames/sec
*Основными факторами, влияющими на эффективность GPU в Neat Video, являются:
- Вычислительная мощность графического процессора, которая в основном определяется количеством ядер графического процессора и их частотой.
- Объем памяти графического процессора (размер видеопамяти).
- Пропускная способность памяти графического процессора.
- Скорость соединения CPU-GPU (или, если быть более точным, скорость обмена данными между основной системной памятью и памятью GPU). Это определяется шинным интерфейсом.
Сравнение этих характеристик у RTX 3090, RTX 3090 Ti и RTX 4080/RTX 4090 не дает четкого представления о том, как NVIDIA удалось ускорить свой новый GPU в несколько раз (Nvidia заявила о увеличении скорости работы в 2х/4х раза).
NVIDIA увеличила количество ядер GPU и их частоту, остальные факторы, влияющие на производительность, не изменились. Самое главное, что пропускная способность внутренней памяти GPU не увеличилась. Это означает, что каждую секунду все ядра графического процессора RTX 4090 могут выполнять в 2,17 раза больше вычислений, чем у RTX 3090 Ti, но, скорее всего, этого не произойдет, поскольку данные не будут поступать вовремя. Это был наш ход мыслей.

...........................

Радиус 2 кадра, разрешение 1920х1080:
GeForce RTX 2080 Ti: 45.4 fps.
Apple Silicon M1 Ultra: 52 fps.
AMD Radeon RX 6800 XT: 58.9 fps.
GeForce RTX 3080: 59.7 fps.
GeForce RTX 3090: 67.9 fps.
AMD Radeon RX 6950 XT: 78.2 fps.
GeForce RTX 4080: 97.9 fps.
GeForce RTX 4090: 120 fps.

...........................

Разница в работе между RTX 3090 и RTX 4090 составляет 77%. Чтобы получить ответ на эту загадку, мы распаковали наш микроскоп и снова посмотрели на характеристики. Мы уже проверили конфигурацию ядра, пропускную способность памяти и межпроцессорное соединение, но сами по себе эти параметры не дали никакого объяснения. Что нам не хватает?
Ответ пришел из нашего многолетнего опыта оптимизации кода ЦП: кэш L2. Хотя NVIDIA веками оснащала свои графические процессоры кешем L2, его объем был довольно небольшим и медленно увеличивался от поколения к поколению. Настолько мало, что небольшие различия между различными графическими процессорами не повлияли на производительность Neat Video. До RTX 4090. В то время как у RTX 3090 и 3090 Ti всего 6 МБ кэш-памяти, у RTX 4080/4090 целых 64/72 МБ встроенной памяти! Это как слон с пони…
Итак, что означает большой объем кеша? По сути, у RTX 4080 и RTX 4090 теперь есть большой пул, в котором может храниться большое количество данных, с которыми он сейчас работает. Легко получить любой байт информации для текущей задачи. RTX 3090 и RTX 3090 Ti имеют меньшие пулы, и когда им нужно получить какие-то данные, эти необходимые данные часто находятся вне пула, и им нужно включить кран и ждать, пока вся необходимая информация не попадет в пул из VRAM. Когда это происходит, старые данные выталкиваются из пула, и если вам нужно их вернуть, вам придется снова включать кран…
Вот почему мы наблюдаем такой значительный прирост скорости при выполнении тестов FullHD и 4K. Кэш-пул объемом 64 МБ и 72 МБ достаточно велик, чтобы вместить значительную часть набора рабочих данных, поэтому вычисления выполняются очень быстро благодаря повышенной вычислительной мощности нового графического процессора.
Но когда мы накидываем клип 8K на RTX 4090, его преимущество перед RTX 3090 значительно падает, так как 72-мегабайтного кеша уже недостаточно, а кран пула используется все чаще.
Имейте в виду, что тесты, которые мы проводили, были стендовыми, а не тестами реальной производительности рендеринга. Когда вы добавляете других потребителей ресурсов графического процессора (наиболее важно VRAM), таких как ваше основное приложение для редактирования видео, другие эффекты и т.д., улучшение скорости не будет таким высоким, как мы видели в тестах. Это верно для всех размеров кадра.
RTX 4090, безусловно, является самым быстрым графическим процессором, который мы когда-либо видели. Фактически, это первая видеокарта, способная выполнять шумоподавление Neat Video на клипах 4K в режиме реального времени (конечно, при условии, что хост-приложение достаточно эффективно передает данные). Молодцы NVIDIA!
Если вы ищете новый графический процессор, то да, RTX 4080 & RTX 4090 может стать хорошим вариантом. Однако, если у вас ограниченный бюджет, RTX 3090 или RTX 3090 Ti обеспечат отличные результаты, и вы не будете разочарованы.
Стоит ли приобретать эту видеокарту, если у вас уже есть RTX 3090 или RTX 3090 Ti? Вероятно, нет. Эти две карты по-прежнему достаточно быстры для большинства задач рендеринга. Однако, если вы хотите получить RTX 4090, эта карта вас не разочарует.

...........................