Грокаем глубокое обучение с подкреплением (Моралес Мигель) ; Питер, 2023

от 479 р. до 2086 р.

Автор(ы): Моралес Мигель;
Издатель: Питер
ISBN: 978-5-4461-3944-6
все характеристики
ID: SKU1207970
Добавлено: 09.06.2023

Рейтинг:

(0/5)

Отзывы (0) Написать отзыв

Цены (6)Описание Содержание О книге Отзывы (0)

Сравнить цены

Цена от 479 р. до 2086 р. в 6 магазинах

Магазин	Цена	Наличие
Буквоед 5/5 ООО «Новый Книжный Центр» ИНН: 7710422909	2086 р. Минимальная сумма заказа 100 рублей история цены	наличие уточняйте 15.05.2024
Book24 5/5 ООО "Новый Книжный Центр" ИНН: 7710422909	2086 р. 2309 р. история цены
Мегамаркет 5/5 ООО "МАРКЕТПЛЕЙС" ИНН: 9701048328	1490 р. 3308 р. история цены
Яндекс.Маркет 5/5 ООО "ЯНДЕКС" ИНН: 7736207543	1640 р. история цены
ЛитРес 5/5 ООО"Литрес" ИНН: 7719571260	479 р. 599 р. электронная книга \| скачать фрагмент история цены
Питер 5/5	1144 р. история цены
Лабиринт 5/5 ООО "ЛАБИРИНТ.РУ" ИНН: 7728644571
Читай-город 5/5 ООО "Новый Книжный Центр" ИНН: 7710422909
МАЙШОП 5/5 ООО "МАГАЗИН КНИГ" ИНН: 9725076959	Один из первых книжных интернет-магазинов, работающий с 2002 года

Как купить или где мы находимся +

Описание

Мы учимся, взаимодействуя с окружающей средой, и получаемые вознаграждения и наказания определяют наше поведение в будущем. Глубокое обучение с подкреплением привносит этот естественный процесс в искусственный интеллект и предполагает анализ результатов для выявления наиболее эффективных путей движения вперед. Агенты глубокого обучения с подкреплением могут способствовать успеху маркетинговых кампаний, прогнозировать рост акций и побеждать гроссмейстеров в Го и шахматах.
Давайте научимся создавать системы глубокого обучения на примере увлекательных упражнений, сопровождаемых кодом на Python с подробными комментариями и понятными объяснениями. Вы увидите, как работают алгоритмы, и научитесь создавать собственных агентов глубокого обучения с подкреплением, используя оценочную обратную связь.

Смотри также Характеристики.

Яндекс.Маркет

Содержание

Предисловие
Вступление
Благодарности
О книге
Для кого эта книга
Структура издания
О коде
От издательства
Об авторе
Глава 1. Введение в глубокое обучение с
подкреплением
Что такое глубокое обучение с подкреплением
Прошлое, настоящее и будущее глубокого
обучения с подкреплением
Целесообразность глубокого обучения с
подкреплением
Определение четких обоюдных ожиданий
Подведем итоги
Глава 2. Математические основы обучения с
подкреплением
Элементы обучения с подкреплением
MDP: двигатель среды
Подведем итоги
Глава 3. Баланс краткосрочных и долгосрочных
целей
Цель агента, принимающего решения
Планирование оптимальных последовательностей
действий
Подведем итоги
Глава 4 . Баланс между сбором и использованием
информации
Проблема интерпретации оценочной обратной
связи
Стратегическое исследование
Подведем итоги
Глава 5. Оценка поведения агента
Учимся прогнозировать ценность политик
Прогноз на основе нескольких шагов
Подведем итоги
Глава 6 . Улучшение поведения агентов
Анатомия агентов обучения с подкреплением
Оптимизация политик поведения
Разделение поведения и обучения
Подведем итоги
Глава 7. Более действенные и эффективные
способы
достижения целей ,
Улучшение политик с помощью достоверных целей
Агенты, которые взаимодействуют, обучаются и
планируют
Подведем итоги
Глава 8 . Введение в ценностно ориентированное
глубокое обучение с подкреплением ,
Тип обратной связи, который используют агенты
глубокого обучения с подкреплением
Введение в аппроксимацию функций для обучения
с подкреплением ...
NFQ: первая попытка реализовать ценностно
ориентированное глубокое обучение с
подкреплением
Подведем итоги
Глава 9. Более стабильные ценностно
ориентированные методы
DQN: делаем RL похожим на контролируемое
обучение
Двойная DDQN: борьба с завышением прогнозов
функций ценности действий
Подведем итоги
Глава 10. Ценностно ориентированные методы с
эффективным использованием выборок
Дуэльная DDQN: архитектура нейросети,
рассчитанная на обучение с подкреплением
PER: приоритетное воспроизведение полезного
опыта
Подведем итоги
Глава 11. Методы градиента политик и "актер-
критик"
REINFORCE: обучение политик на основе
результатов
VPG: формирование функции ценности
A3C: параллельное обновление политики
GAE: надежное прогнозирование преимущества
A2C: синхронное обновление политик
Подведем итоги
Глава 12. Продвинутые методы "актер-критик"
DDPG: аппроксимация детерминированной политики

TD3: лучшие оптимизации для DDPG
SAC: максимизация ожидаемой выгоды и энтропии
PPO: ограничение этапа оптимизации
Подведем итоги
Глава 13. Путь к сильному искусственному
интеллекту
Важные темы, которые были рассмотрены, и те,
которые остались без внимания
Углубленные аспекты AGI
Что дальше?
Подведем итоги

О книге


Серия	Библиотека программиста
Издатель	Питер
Год издания	2023
Страниц	464
Переплёт	мягкий
ISBN	978-5-4461-3944-6
Размеры	16,50 см × 23,30 см × 2,50 см
Формат	70х100/16 клей
Автор(ы)	Моралес Мигель
Тематика	Программирование
Тираж	1200
Переплет	Мягкий переплёт
Возрастные ограничения	16
Кол-во страниц	464
Автор	Моралес М.
Авторы	Моралес М.
Год публикации	2023
Язык	Русский
Количество страниц	464
Возрастное ограничение	16+
Вес	717
Тип обложки	мягкая
Количество книг	1
Издательство	Издательский дом "Питер"
Язык издания	Русский
Обложка	мягкая обложка