Грокаем глубокое обучение с подкреплением (Моралес Мигель) ; Питер, 2023
от 479 р. до 2086 р.
Автор(ы): Моралес Мигель;
Издатель: Питер
ISBN: 978-5-4461-3944-6
ID: SKU1207970
Добавлено: 09.06.2023
Сравнить цены
Цена от 479 р. до 2086 р. в 6 магазинах
Магазин | Цена | Наличие |
---|---|---|
Буквоед 5/5 | 2086 р. Минимальная сумма заказа 100 рублей | наличие уточняйте 15.05.2024 |
Book24 5/5 | 2086 р. 2309 р. | |
Мегамаркет 5/5 | 1490 р. 3308 р. | |
Яндекс.Маркет 5/5 | 1640 р. | |
ЛитРес 5/5 | 479 р. 599 р. электронная книга | скачать фрагмент | |
Питер 5/5 | 1144 р. | |
Лабиринт 5/5 | ||
Читай-город 5/5 | ||
МАЙШОП 5/5 | Один из первых книжных интернет-магазинов, работающий с 2002 года | |
Описание
Мы учимся, взаимодействуя с окружающей средой, и получаемые вознаграждения и наказания определяют наше поведение в будущем. Глубокое обучение с подкреплением привносит этот естественный процесс в искусственный интеллект и предполагает анализ результатов для выявления наиболее эффективных путей движения вперед. Агенты глубокого обучения с подкреплением могут способствовать успеху маркетинговых кампаний, прогнозировать рост акций и побеждать гроссмейстеров в Го и шахматах.
Давайте научимся создавать системы глубокого обучения на примере увлекательных упражнений, сопровождаемых кодом на Python с подробными комментариями и понятными объяснениями. Вы увидите, как работают алгоритмы, и научитесь создавать собственных агентов глубокого обучения с подкреплением, используя оценочную обратную связь.
Давайте научимся создавать системы глубокого обучения на примере увлекательных упражнений, сопровождаемых кодом на Python с подробными комментариями и понятными объяснениями. Вы увидите, как работают алгоритмы, и научитесь создавать собственных агентов глубокого обучения с подкреплением, используя оценочную обратную связь.
Смотри также Характеристики.
Яндекс.Маркет
Содержание
Предисловие
Вступление
Благодарности
О книге
Для кого эта книга
Структура издания
О коде
От издательства
Об авторе
Глава 1. Введение в глубокое обучение с
подкреплением
Что такое глубокое обучение с подкреплением
Прошлое, настоящее и будущее глубокого
обучения с подкреплением
Целесообразность глубокого обучения с
подкреплением
Определение четких обоюдных ожиданий
Подведем итоги
Глава 2. Математические основы обучения с
подкреплением
Элементы обучения с подкреплением
MDP: двигатель среды
Подведем итоги
Глава 3. Баланс краткосрочных и долгосрочных
целей
Цель агента, принимающего решения
Планирование оптимальных последовательностей
действий
Подведем итоги
Глава 4 . Баланс между сбором и использованием
информации
Проблема интерпретации оценочной обратной
связи
Стратегическое исследование
Подведем итоги
Глава 5. Оценка поведения агента
Учимся прогнозировать ценность политик
Прогноз на основе нескольких шагов
Подведем итоги
Глава 6 . Улучшение поведения агентов
Анатомия агентов обучения с подкреплением
Оптимизация политик поведения
Разделение поведения и обучения
Подведем итоги
Глава 7. Более действенные и эффективные
способы
достижения целей ,
Улучшение политик с помощью достоверных целей
Агенты, которые взаимодействуют, обучаются и
планируют
Подведем итоги
Глава 8 . Введение в ценностно ориентированное
глубокое обучение с подкреплением ,
Тип обратной связи, который используют агенты
глубокого обучения с подкреплением
Введение в аппроксимацию функций для обучения
с подкреплением ...
NFQ: первая попытка реализовать ценностно
ориентированное глубокое обучение с
подкреплением
Подведем итоги
Глава 9. Более стабильные ценностно
ориентированные методы
DQN: делаем RL похожим на контролируемое
обучение
Двойная DDQN: борьба с завышением прогнозов
функций ценности действий
Подведем итоги
Глава 10. Ценностно ориентированные методы с
эффективным использованием выборок
Дуэльная DDQN: архитектура нейросети,
рассчитанная на обучение с подкреплением
PER: приоритетное воспроизведение полезного
опыта
Подведем итоги
Глава 11. Методы градиента политик и "актер-
критик"
REINFORCE: обучение политик на основе
результатов
VPG: формирование функции ценности
A3C: параллельное обновление политики
GAE: надежное прогнозирование преимущества
A2C: синхронное обновление политик
Подведем итоги
Глава 12. Продвинутые методы "актер-критик"
DDPG: аппроксимация детерминированной политики
TD3: лучшие оптимизации для DDPG
SAC: максимизация ожидаемой выгоды и энтропии
PPO: ограничение этапа оптимизации
Подведем итоги
Глава 13. Путь к сильному искусственному
интеллекту
Важные темы, которые были рассмотрены, и те,
которые остались без внимания
Углубленные аспекты AGI
Что дальше?
Подведем итоги
Вступление
Благодарности
О книге
Для кого эта книга
Структура издания
О коде
От издательства
Об авторе
Глава 1. Введение в глубокое обучение с
подкреплением
Что такое глубокое обучение с подкреплением
Прошлое, настоящее и будущее глубокого
обучения с подкреплением
Целесообразность глубокого обучения с
подкреплением
Определение четких обоюдных ожиданий
Подведем итоги
Глава 2. Математические основы обучения с
подкреплением
Элементы обучения с подкреплением
MDP: двигатель среды
Подведем итоги
Глава 3. Баланс краткосрочных и долгосрочных
целей
Цель агента, принимающего решения
Планирование оптимальных последовательностей
действий
Подведем итоги
Глава 4 . Баланс между сбором и использованием
информации
Проблема интерпретации оценочной обратной
связи
Стратегическое исследование
Подведем итоги
Глава 5. Оценка поведения агента
Учимся прогнозировать ценность политик
Прогноз на основе нескольких шагов
Подведем итоги
Глава 6 . Улучшение поведения агентов
Анатомия агентов обучения с подкреплением
Оптимизация политик поведения
Разделение поведения и обучения
Подведем итоги
Глава 7. Более действенные и эффективные
способы
достижения целей ,
Улучшение политик с помощью достоверных целей
Агенты, которые взаимодействуют, обучаются и
планируют
Подведем итоги
Глава 8 . Введение в ценностно ориентированное
глубокое обучение с подкреплением ,
Тип обратной связи, который используют агенты
глубокого обучения с подкреплением
Введение в аппроксимацию функций для обучения
с подкреплением ...
NFQ: первая попытка реализовать ценностно
ориентированное глубокое обучение с
подкреплением
Подведем итоги
Глава 9. Более стабильные ценностно
ориентированные методы
DQN: делаем RL похожим на контролируемое
обучение
Двойная DDQN: борьба с завышением прогнозов
функций ценности действий
Подведем итоги
Глава 10. Ценностно ориентированные методы с
эффективным использованием выборок
Дуэльная DDQN: архитектура нейросети,
рассчитанная на обучение с подкреплением
PER: приоритетное воспроизведение полезного
опыта
Подведем итоги
Глава 11. Методы градиента политик и "актер-
критик"
REINFORCE: обучение политик на основе
результатов
VPG: формирование функции ценности
A3C: параллельное обновление политики
GAE: надежное прогнозирование преимущества
A2C: синхронное обновление политик
Подведем итоги
Глава 12. Продвинутые методы "актер-критик"
DDPG: аппроксимация детерминированной политики
TD3: лучшие оптимизации для DDPG
SAC: максимизация ожидаемой выгоды и энтропии
PPO: ограничение этапа оптимизации
Подведем итоги
Глава 13. Путь к сильному искусственному
интеллекту
Важные темы, которые были рассмотрены, и те,
которые остались без внимания
Углубленные аспекты AGI
Что дальше?
Подведем итоги
О книге
Серия | Библиотека программиста |
Издатель | Питер |
Год издания | 2023 |
Страниц | 464 |
Переплёт | мягкий |
ISBN | 978-5-4461-3944-6 |
Размеры | 16,50 см × 23,30 см × 2,50 см |
Формат | 70х100/16 клей |
Автор(ы) | Моралес Мигель |
Тематика | Программирование |
Тираж | 1200 |
Переплет | Мягкий переплёт |
Возрастные ограничения | 16 |
Кол-во страниц | 464 |
Автор | Моралес М. |
Авторы | Моралес М. |
Год публикации | 2023 |
Язык | Русский |
Количество страниц | 464 |
Возрастное ограничение | 16+ |
Вес | 717 |
Тип обложки | мягкая |
Количество книг | 1 |
Издательство | Издательский дом "Питер" |
Язык издания | Русский |
Обложка | мягкая обложка |
Машинное обучение. Анализ данных - издательство "Питер"
Категория 383 р. - 574 р.
Машинное обучение. Анализ данных - издательство "Питер" »
Машинное обучение. Анализ данных
Категория 383 р. - 574 р.