Программирование графических процессоров. Вариант №17

ВСЁ ДЛЯ СТУДЕНТА

Вторник, 12.05.2026, 21:53

Приветствую Вас, Гость

[ Новые сообщения · Участники · Правила форума · Поиск · RSS ]

Страница 1 из 1
1

Программирование графических процессоров. Вариант №17 (Контрольная работа)

Программирование графических процессоров. Вариант №17

engineerklub

Дата: Суббота, 04.12.2021, 05:42 | Сообщение # 1

Генералиссимус

Группа: Администраторы

Сообщений: 38810

Репутация: 1

Статус: Offline

Программирование графических процессоров. Вариант №17

Тип работы: Работа Контрольная
Форматы файлов: Microsoft Word
Сдано в учебном заведении: СибГУТИ

Описание:
Нумерация букв алфавита:
А=1, Б=2, В=3, Г=4, Д=5, Е=6, Ё=7, Ж=8, З=9, И=10, Й=11, К=12, Л=13, М=14, Н=15, О=16, П=17, Р=18, С=19, Т=20, У=21, Ф=22, Х=23, Ц=24, Ч=25, Ш=26, Щ=27, Ъ=28, Ы=29, Ь=30, Э=31, Ю=32, Я=33

Расчет варианта
Сущанский Сергей Сергеевич
N=19+21+27+1+15+19+12+10+11(Сущанский)+
19+6+18+4+6+11 (Сергей)+
19+6+18+4+6+6+3+10+25 (Сергеевич)=
=(135+64+97) mod 20 +1=296 mod 20 + 1=16+1=17

Вариант №17

Задание 1. Дана спецификация графического процессора:
1. Максимальное число варпов на мультипроцессор: 64
2. Максимальное число блоков на мультипроцессор:16
3. Максимальное количество 32-х битных регистров на мультипроцессор: 65536
4. Максимальное количество 32-х битных регистров на блок: 65536
5. Максимальное количество 32-х битных регистров на нить: 255
6. Размер разделяемой памяти мультипроцессора (байт):32768
7. Размер разделяемой памяти блока (байт):24576
Параметры запускаемой программы:
1. Размер блока: 100
2. Разделяемая память на блок (байт):1000
1. 32-х битных регистров на нить: 32
РАссчитайте теоретическую заполняемость? Чем она ограничена?

Задание 2.Пусть разделяемая память мультипроцессора поделена на 4-х байтовые слова, и каждое слово по порядку пронумеровано от 1 до N. К словам обращаются нити одного варпа. Нити варпа пронумерованы от 0 до 31. В таблице ниже указано какая нить к какому 4-х байтовому слову обращается.

Задание 3.Реализуйте параллельный алгоритм транспонирования матриц без использования разделяемой памяти. Реализуйте последовательный алгоритм транспонирования матриц. Сравните время работы алгоритмов на данных различных размеров, рассчитайте коэффициент ускорения.

СКАЧАТЬ

engineerklub

Дата: Суббота, 04.12.2021, 05:43 | Сообщение # 2

Генералиссимус

Группа: Администраторы

Сообщений: 38810

Репутация: 1

Статус: Offline

Тип работы: Работа Лабораторная
Форматы файлов: Microsoft Word
Сдано в учебном заведении: СибГУТИ

Описание:
Лабораторная работа 1
Задание

1. Прочитайте главы теоретического материала под названиями "Отличия GPU от CPU", "Первая программа на CUDAC", "Алгоритм сложения двух векторов на GPU", "События, обработка ошибок и получение ин-формации об устройстве", "Глобальная, локальная и константная память". Ответьте на контрольные вопросы и выполните контрольные задания, предложенные в конце этих глав (ответы на контрольные вопросы не нужно включать в отчёт по лабораторной работе).
2. Реализуйте параллельный алгоритм умножения AxV, где A – матрица, V – вектор.
3. Реализуйте параллельный алгоритм умножения VxA, где A – матрица, V – вектор.
4. Постройте графики зависимости времени выполнения алгоритма от раз-мера матрицы и вектора (Размеры матрицы 1000x500, 1000x1000, 1500x1000, 2000x1000, 2000x1500, 2500x1500, 2500x2000).
5. Прочитайте главу "Профилирование программ", ответьте на контроль-ные вопросы в конце главы (ответы на контрольные вопросы не нужно включать в отчёт по лабораторной работе).
6. Проанализируйте, реализованные алгоритмы при помощи утилиты nvprof на эффективность доступа к глобальной памяти.

Лабораторная работа 2

Задание

1. Прочитайте главу из теоретического материала "Разделяемая память" и ответьте на контрольные вопросы (ответы на контрольные вопросы не нужно включать в отчёт по лабораторной работе).
2. Оптимизируйте алгоритмы, реализованные в лабораторной работе №1 при помощи разделяемой памяти.
3. Постройте графики зависимости времени выполнения алгоритма от раз-мера матрицы и вектора (Размеры матрицы 1000x500, 1000x1000, 1500x1000, 2000x1000, 2000x1500, 2500x1500, 2500x2000).
4. Проанализируйте, реализованные алгоритмы при помощи утилиты nvprof на эффективность доступа к глобальной памяти.

Лабораторная работа 3

Задание

1. Прочитайте главы теоретического материала под названиями "Pinnedmemory" и "Потоки (streams) в CUDA". Ответьте на контрольные вопросы в конце глав (ответы на контрольные вопросы не нужно вклю-чать в отчёт по лабораторной работе).
2. Примените потоки для алгоритмов реализованные в лабораторной рабо-те №1.
3. Определите оптимальное количество потоков для матрицы размером 2500x2500 элементов и вектора размером 2500 элементов.

СКАЧАТЬ

Программирование графических процессоров. Вариант №17 (Контрольная работа)

Страница 1 из 1
1