Алгоритмы обучения с подкреплением на Python (Лонца Андреа) ; ДМК-Пресс, 2020
от 1290 р. до 2038 р.
Автор(ы): Лонца Андреа;
Издатель: ДМК-Пресс
ISBN: 978-5-97060-855-5
ID: SKU36229
Сравнить цены
Цена от 1290 р. до 2038 р. в 8 магазинах
Магазин | Цена | Наличие |
---|---|---|
Лабиринт 5/5 | 2038 р. 2912 р. | |
Буквоед 5/5 | 2005 р. Минимальная сумма заказа 100 рублей | |
Book24 5/5 | 2034 р. 2829 р. | |
Мегамаркет 5/5 | 1800 р. | |
Яндекс.Маркет 5/5 | 1650 р. | |
МАЙШОП 5/5 | 1822 р. 2719 р. | |
Читай-город 5/5 | 2005 р. 2699 р. | наличие уточняйте 02.12.2023 |
OZON | 1290 р. | наличие уточняйте 03.01.2024 |
AliExpress 5/5 | ||
Описание
Эта книга поможет читателю овладеть алгоритмами обучения с подкреплением (ОП) и научиться реализовывать их при создании самообучающихся агентов.
В первой части рассматриваются различные элементы ОП, сфера его применения, инструменты, необходимые для работы в среде ОП. Вторая и третья части посвящены непосредственно алгоритмам. В числе прочего автор показывает, как сочетать Q-обучение с нейронными сетями для решения сложных задач, описывает методы градиента стратегии, TRPO и PPO, позволяющие повысить производительность и устойчивость, а также детерминированные алгоритмы DDPG и TD3. Читатель узнает о том, как работает техника подражательного обучения, познакомится с алгоритмами исследования на базе верхней доверительной границы (UCB и UCB1) и мета-алгоритмом ESBAS.
Издание предназначено для тех, кто интересуется исследованиями в области искусственного интеллекта, применяет в работе глубокое обучение или хочет освоить обучение с подкреплением с нуля. Обязательное условие - владение языком Python на рабочем уровне.
В первой части рассматриваются различные элементы ОП, сфера его применения, инструменты, необходимые для работы в среде ОП. Вторая и третья части посвящены непосредственно алгоритмам. В числе прочего автор показывает, как сочетать Q-обучение с нейронными сетями для решения сложных задач, описывает методы градиента стратегии, TRPO и PPO, позволяющие повысить производительность и устойчивость, а также детерминированные алгоритмы DDPG и TD3. Читатель узнает о том, как работает техника подражательного обучения, познакомится с алгоритмами исследования на базе верхней доверительной границы (UCB и UCB1) и мета-алгоритмом ESBAS.
Издание предназначено для тех, кто интересуется исследованиями в области искусственного интеллекта, применяет в работе глубокое обучение или хочет освоить обучение с подкреплением с нуля. Обязательное условие - владение языком Python на рабочем уровне.
Смотри также Характеристики.
Яндекс.Маркет
Содержание
Об авторе
Предисловие
Часть I. АЛГОРИТМЫ И ОКРУЖАЮЩИЕ СРЕДЫ
Глава 1. Ландшафт обучения с подкреплением
Глава 2. Реализация цикла ОП и OpenAI Gym
Глава 3. Решение задач методом динамического
программирования
Часть II. БЕЗМОДЕЛЬНЫЕ АЛГОРИТМЫ ОП
Глава 4. Применение Q-обучения и алгоритма
SARSA
Глава 5. Глубокая О-сеть
Глава 6. Стохастическая оптимизация и градиенты
стратегии
Глава 7. Реализация TRPO и РРО
Глава 8. Применения алгоритмов DDPG и TD3
Часть III. ЗА ПРЕДЕЛАМИ БЕЗМОДЕЛЬНЫХ
АЛГОРИТМОВ
Глава 9. ОП на основе модели
Глава 10. Подражательное обучение и алгоритм
DAgger
Глава 11. Оптимизация методом черного ящика
Глава 12. Разработка алгоритма ESBAS
Глава 13. Практические подходы к решению
проблем ОП
Ответы на вопросы
Предметный указатель
Предисловие
Часть I. АЛГОРИТМЫ И ОКРУЖАЮЩИЕ СРЕДЫ
Глава 1. Ландшафт обучения с подкреплением
Глава 2. Реализация цикла ОП и OpenAI Gym
Глава 3. Решение задач методом динамического
программирования
Часть II. БЕЗМОДЕЛЬНЫЕ АЛГОРИТМЫ ОП
Глава 4. Применение Q-обучения и алгоритма
SARSA
Глава 5. Глубокая О-сеть
Глава 6. Стохастическая оптимизация и градиенты
стратегии
Глава 7. Реализация TRPO и РРО
Глава 8. Применения алгоритмов DDPG и TD3
Часть III. ЗА ПРЕДЕЛАМИ БЕЗМОДЕЛЬНЫХ
АЛГОРИТМОВ
Глава 9. ОП на основе модели
Глава 10. Подражательное обучение и алгоритм
DAgger
Глава 11. Оптимизация методом черного ящика
Глава 12. Разработка алгоритма ESBAS
Глава 13. Практические подходы к решению
проблем ОП
Ответы на вопросы
Предметный указатель
Видео обзоры (3)
О книге
Автор(ы) | Лонца Андреа |
Раздел | Программирование |
Издатель | ДМК-Пресс |
ISBN | 978-5-9706-0855-5 |
Год издания | 2020 |
Количество страниц | 286 |
Формат | 172x240мм |
Вес | 0.57кг |
Переплет | 70х100/16 |
Кол-во страниц | 286 |
Возрастные ограничения | 12 |
Возрастное ограничение | 12+ |
Издательство | ДМК |
Количество книг | 1 |
Тип обложки | твердая |
Размеры | 70x100/16 |
Язык издания | Русский |
Обложка | твердый переплёт |
1 ms.
Программирование - издательство "ДМК-Пресс"
Категория 1032 р. - 1548 р.
Программирование - издательство "ДМК-Пресс" »
0 ms.
Программирование
Категория 1032 р. - 1548 р.