|
Интеллектуальные технологии информационной безопасности.
|
|
| engineerklub | Дата: Пятница, 26.07.2024, 06:26 | Сообщение # 1 |
 Генералиссимус
Группа: Администраторы
Сообщений: 37304
Статус: Offline
| Интеллектуальные технологии информационной безопасности. Решающие деревья. Вариант для всех
Тип работы: Работа Лабораторная Форматы файлов: Microsoft Word Сдано в учебном заведении: ДО СИБГУТИ
Описание: Лабораторная работа №2
“Решающие деревья”
К заданию прилагается файл с данными, содержащим результаты исследований методов обнаружения вторжений. Файл содержит в себе несколько колонок, все они перечислены:
columns = [\'duration\', \'protocol_type\', \'service\', \'flag\', \'src _bytes\', \'dst_bytes\', \'land\', \'wrong_fragment\',\'urgent\', \'hot\', \'num_failed_logins\', \'logged_in\', \'num_compromised\', \'root_she ll\', \'su_attempted\', \'num_root\', \'num_file_creations\', \'num_shells\', \'num _access_files\', \'num_outbound_cmds\', \'is_host_login\', \'is_guest_login\', \'count\', \'srv_cou nt\', \'serror_rate\', \'srv_serror_rate\', \'rerror_rate\', \'srv_rerror_rate\', \'same_srv_rate\', \' diff_srv_rate\', \'srv_diff_host_rate\', \'dst_host_count\', \'dst_host_srv_count\', \'dst_host_sa me_srv_rate\', \'dst_host_diff_srv_rate\', \'dst_host_same_src_port_rate\', \'dst_host_srv_diff_ho st_rate\', \'dst_host_serror_rate\', \'dst_host_srv_serror_rate\', \'dst_host_rerror_rate\', \'dst_host_srv_rerror_rate\', \'attack\', \'level\']
СКАЧАТЬ
|
| |
|
|
| engineerklub | Дата: Пятница, 26.07.2024, 06:26 | Сообщение # 2 |
 Генералиссимус
Группа: Администраторы
Сообщений: 37304
Статус: Offline
| Задание: Классифицировать атаки по типу атак, проверить правильность классификации. Считать файл можно следующим образом: import pandas as pd df = pd.read_csv(\'KDDTrain+.txt\') test_df = pd.read_csv(\'KDDTest+.txt\') columns = ([\'duration\' ,\'protocol_type\' ,\'service\' ,\'flag\' ,\'src_bytes\' ,\'dst_bytes\' ,\'land\' ,\'wrong_fragment\' ,\'urgent\' ,\'hot\' ,\'num_failed_logins\' ,\'logged_in\' ,\'num_compromised\' ,\'root_shell\' ,\'su_attempted\' ,\'num_root\' ,\'num_file_creations\' ,\'num_shells\' ,\'num_access_files\' ,\'num_outbound_cmds\' ,\'is_host_login\' ,\'is_guest_login\' ,\'count\' ,\'srv_count\' ,\'serror_rate\' ,\'srv_serror_rate\' ,\'rerror_rate\' ,\'srv_rerror_rate\' ,\'same_srv_rate\' ,\'diff_srv_rate\' ,\'srv_diff_host_rate\' ,\'dst_host_count\' ,\'dst_host_srv_count\' ,\'dst_host_same_srv_rate\' ,\'dst_host_diff_srv_rate\' ,\'dst_host_same_src_port_rate\' ,\'dst_host_srv_diff_host_rate\' ,\'dst_host_serror_rate\' ,\'dst_host_srv_serror_rate\' ,\'dst_host_rerror_rate\' ,\'dst_host_srv_rerror_rate\' ,\'attack\' ,\'level\']) df.columns = columns test_df.columns = columns В файле информация о типах атак находится в столбце «attack», всего их 5 видов: attack_labels = [\'Normal\',\'DoS\',\'Probe\',\'U2R\',\'R2L\'] Требуется имеющиеся данные разбить на обучающую и тестовую выборки в процентном соотношении 70 к 30. После чего по обучающей выборке необходимо построить решающее дерево, а также случайный лес. Разрешается использовать уже реализованные решающие деревья из известных библиотек (например, scikit-learn для Python). В качестве отчёта требуется представить: ● Работающая программа, определяющая с помощью изучаемых методов типы атак и процент правильности их определения; ● 2 таблицы, указанные в приложении, показывающие % точности предсказания типа атак в зависимости от изменения параметров дерева решений и леса; ● Параметры дерева, на которых достигается наилучшая точность предсказания; ● Параметры леса, на которых достигается наилучшая точность предсказания;
СКАЧАТЬ
|
| |
|
|
| engineerklub | Дата: Пятница, 26.07.2024, 06:32 | Сообщение # 3 |
 Генералиссимус
Группа: Администраторы
Сообщений: 37304
Статус: Offline
| Интеллектуальные технологии информационной безопасности. “Регрессия”. Для всех вариантов
Тип работы: Работа Лабораторная Форматы файлов: Microsoft Word Сдано в учебном заведении: ДО СИБГУТИ
Описание: Лабораторная работа №3
“Регрессия”
Целью данной лабораторной работы является разработка программы, реализующей применение метода логистической регрессии к заданному набору данных.
В набор данных входят 2 файла, в «True» находится информация о правдивых новостных заметках, в «Fake.csv» находится информация о поддельных новостях. Каждый файл состоит из следующих полей: 1. (title) – заголовок статьи; 2. (text) – содержимое статьи; 3. (subject) – тип новости; 4. (date) – дата опубликования статьи.
Реализация регрессии в Scikit-Learn На практике предлагается использовать проверенную и широко используемую библиотеку Scikit-Learn для реализации регрессии. Следующая команда импортирует набор данных CSV, используя библиотеку pandas: dataset = pd.read_csv(\'Weather.csv\') Чтобы увидеть статистические данные набора данных, можно использовать метод describe(): dataset.describe() Затем разделяем 80% данных на обучающий набор, а 20% данных - на набор тестов, используя приведенный ниже код. Переменная test_size - это то место, где мы на самом деле указываем пропорцию тестового набора. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0) Наконец, после разделения данных на обучающие и тестовые наборы, настало время обучить наш алгоритм. Для этого нужно импортировать класс LinearRegression, создать его экземпляр и вызвать fit() метод вместе с нашими данными обучения. regressor = LinearRegression() regressor.fit(X_train, y_train) Теперь, когда мы обучили наш алгоритм, пришло время сделать некоторые прогнозы. Для этого будем использовать наши тестовые данные и посмотрим, насколько точно алгоритм предсказывает процентную оценку. Чтобы сделать прогноз на тестовых данных, выполните следующий скрипт: y_pred = regressor.predict(X_test)
Задание: используя модель логистической регрессии реализовать прогнозирование реалистичности статьи. 1. Необходимо построить модель для каждого из наборов, обучить её и сравнить полученные при помощи модели результаты с известными. Для обучения использовать 70% выборки, для тестирования 30%. Разбивать необходимо случайным образом, а, следовательно, для корректности тестирования качества модели, эксперимент необходимо провести не менее 10 раз и вычислить среднее значение качества регрессии. 2. Работу регрессии необходимо проверить на конкретном примере. При подаче на вход определённого объекта данных (заголовка статьи, текста, типа и даты) программа должна выводить тип статьи «Fake» или «Frue», выведенное значение необходимо проверить с тем, что находится в исходных данных. Особенности работы с данными: ● После загрузки данных в память необходимо пометить поддельные новости «0», а подлинные новости «1» для дальнейшей работы. ● Для преобразования текста в частотные векторы слова использовать метод TfidfVectorizer(). В качестве отчёта требуется представить: ● Работающую программу, в которой отражено использование метода логистической регрессии для предсказания типа статей. ● Результаты 10 запусков отразить в таблице, где указать номер запуска и процент правильности предсказания типа статьи. Перед каждым запуском данные можно обработать с помощью метода shuffle(). ● Среднее значение предсказания типа статьи исходя из 10 запусков
СКАЧАТЬ
|
| |
|
|