Глубокое обучение с подкреплением. AlphaGo и другие технологии (Лапань Максим) ; Питер, 2020

от 2241 р. до 2659 р.

Автор(ы): Лапань Максим;
Издатель: Питер
ISBN: 978-5-4461-1079-7
все характеристики
ID: SKU77436
Добавлено: 15.08.2021

Рейтинг:

(3.5/5)

Отзывы (4) Написать отзыв

Цены (4)Описание Содержание Видео обзоры О книге Отзывы (4)

Сравнить цены

Цена от 2241 р. до 2659 р. в 4 магазинах

Магазин	Цена	Наличие
Буквоед 5/5 ООО «Новый Книжный Центр» ИНН: 7710422909	2659 р. Минимальная сумма заказа 100 рублей история цены
Book24 5/5 ООО "Новый Книжный Центр" ИНН: 7710422909	2659 р. 2829 р. история цены
Мегамаркет 5/5 ООО "МАРКЕТПЛЕЙС" ИНН: 9701048328	2393 р. 4216 р. история цены
Питер 5/5	2241 р. история цены
Лабиринт 5/5 ООО "ЛАБИРИНТ.РУ" ИНН: 7728644571
Читай-город 5/5 ООО "Новый Книжный Центр" ИНН: 7710422909
МАЙШОП 5/5 ООО "МАГАЗИН КНИГ" ИНН: 9725076959	Один из первых книжных интернет-магазинов, работающий с 2002 года

Как купить или где мы находимся +

Описание

Эта книга — подробное руководство по новейшим инструментам глубокого обучения с подкреплением и их ограничениям. Мы реализуем и проверим на практике методы кросс-энтропии и итерации по ценностям (Q-learning), а также градиенты по стратегиям.
Для экспериментов используются самые разные среды обучения с подкреплением (RL), начиная с классических CartPole и GridWorld и заканчивая эмуляторами Atari и средами непрерывного управления (на основе PyBullet и RoboSchool). Множество примеров основано на нестандартных средах, в которых мы с нуля разработаем модель окружения.
В этой книге
- Вы узнаете, какое место в контексте глубокого обучения занимают методы RL, реализуете сложные модели глубокого обучения.
- Изучите основу RL: марковские процессы принятия решений.
- Рассмотрите примеры реализации методов RL: метод кросс-энтропии, DQN, A3C, TRPO, PPO, DDPG, D4PG и других.
- Узнаете, как работать с дискретными и непрерывными пространствами действий в различных средах.
- Увидите, как разработать систему, обучающуюся играм Atari, используя обучение с подкреплением.
- Создадите собственную среду по модели OpenAI Gym для обучения биржевого агента.
- Реализуете метод AlphaGo Zero для игры в Connect4.
- Познакомитесь с применением RL в обработке речи: узнаете, как обучить диалогового бота на фразах из кинофильмов.

Смотри также Характеристики.

Яндекс.Маркет

Содержание

Об авторе
О редакторах
Предисловие к русскоязычному изданию
Предисловие
Глава 1. Что такое обучение с подкреплением
Глава 2. OpenAI Gym
Глава 3. Глубокое обучение с помощью PyTorch
Глава 4. Метод кросс-энтропии
Глава 5. Динамическое программирование и уравнение Беллмана
Глава 6. Глубокие Q-сети
Глава 7. Расширения для DQN
Глава 8. Торговля акциями с использованием обучения с подкреплением
Глава 9. Градиенты по стратегиям
Глава 10. Метод актора-критика
Глава 11. Асинхронный метод актора-критика
Глава 12. Тренировка чат-ботов с помощью обучения с подкреплением
Глава 13. Веб-навигация
Глава 14. Непрерывное пространство действий
Глава 15. Доверительные области - TRPO, PPO и ACKTR
Глава 16. Оптимизация методом черного ящика в RL
Глава 17. Методы, основанные на моделях среды: воображение
Глава 18. AlphaGo Zero
Заключение

Видео обзоры (2)

О книге


Серия	Для профессионалов
Издатель	Питер
Год издания	2020
Страниц	496
Переплёт	мягкий
ISBN	978-5-4461-1079-7
Размеры	16,40 см × 23,30 см × 2,20 см
Формат	70х100/16 (165х233 мм)
Автор(ы)	Лапань Максим
Тематика	Текстовые редакторы
Тираж	700
Переплет	Мягкий переплёт
Возрастные ограничения	16
Кол-во страниц	496
Издательство	ООО "Прогресс книга"
Количество страниц	496
Тип обложки	мягкая
Возрастное ограничение	16+
Количество книг	1
Вес	640
Язык издания	Русский
Обложка	мягкая обложка

Отзывы (4)

Лабинцев Андрей
- 12 марта 2024

3/5

Замечательная книга, автор провел большую работу по систематизации научных статей и реализации кода.
0 0
Денис Королев
- 18 февраля 2022

4/5

очень полезная книга для темы обучения с подкрепление, тут описана как математика для данной области, так и инструменты для ее применения, минусом могу отметить что у оглавления нет ссылок из-за этого навигация по книги сильно усложняется
0 0
Рейдер Эдуард
- 30 сентября 2020

4/5

Познакомился с кодом к главе 8. Заметное число критических ошибок. Код с листа не проходит, нужны исправления. Подключение некоторых, необходимых для выполнения кода пакетов опущено. Приходится восстанавливать по факту ошибок и с поиском в сети. Запуск кода из командной строки приведен только для одного скрипта. Все остальные аргументы параметры запуска пришлось вычислять анализом кода. Удивило, что критерием остановки цикла принят np.inf и в коде train_model.py и в коде train_model_conv.py. Содержание файла requirements.txt, которое определяет необходимый софт для работы с книгой - некорректно. Приходится достаточно долго подбирать вручную, без шансов для новичков. Предоставленные скрипты в неудовлетворительном состоянии. Текстовая часть книги сжата, но представляет интерес принятой манерой изложения. В английском варианте книги этот пример уже в главе 10 количество недочетов никак не меньше, прежние сохранились.
0 0