Methods of learning with reinforcement in the control problems of mechanical systems

Барабанова Александра Сергеевна; Barabanova Aleksandra Sergeevna

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: http://hdl.handle.net/11701/26209

Полная запись метаданных

Поле DC	Значение	Язык
dc.contributor.advisor	Фуртат Игорь Борисович	ru_RU
dc.contributor.advisor	Furtat Igor Borisovic	en_GB
dc.contributor.author	Барабанова Александра Сергеевна	ru_RU
dc.contributor.author	Barabanova Aleksandra Sergeevna	en_GB
dc.contributor.editor	Ананьевский Михаил Сергеевич	ru_RU
dc.contributor.editor	Ananevskij Mihail Sergeevic	en_GB
dc.date.accessioned	2021-03-24T15:09:34Z	-
dc.date.available	2021-03-24T15:09:34Z	-
dc.date.issued	2019
dc.identifier.other	064483	en_GB
dc.identifier.uri	http://hdl.handle.net/11701/26209	-
dc.description.abstract	Барабанова Александра Сергеевна Методы обучения с подкреплением в задачах управления механическими системами Математика и механика Кафедра теоретической кибернетики Кандидат физико-математических наук М.С.Ананьевский Целью данной работы является изучение методов машинного обучения с подкреплением для задач управления механической системой на примере робота-велосипедиста. Результат данной работы: Изучена литература по рассматриваемому вопросу и сделано заключение о необходимости развития работы на прикладной уровень, для облегчения построения алгоритма управления по параметрам объекта без глубокого анализа теоремы. Реализована программа моделирования движения робота-велосипедиста без обучения. Реализована программа моделирования движения робота-велосипедиста с обучением, написана программа позволяющая вычислять оценку ε^2 β. Сделаны выводы о сложности применения этой теории и получены замечания для специалистов в смежных областях. Работа основана на статье В. А Якубовича «Адаптивные системы с многошаговыми целевыми условиями». Статья является довольно старой по написанию и структуре, поэтому при ее разборе возникает большое количество вопросов и затруднений. Поэтому было решено разобрать данную статью и написать прикладную часть, чтобы человеку, который хочет применить данный алгоритм, не пришлось сталкиваться свыше обозначенными проблемами. Количество использованных источников: 13 Библиографическое описание ВКР: 1. Стюарт Рассел, Питер Норвиг(2017) Искусственный интеллект, Вильямс, 2 2. Машинное обучение /http://tcyber.ru/tk/research/machine_learning.html 3. Фомин В. Н, Фрадков А.Л, Якубович В.А(1981) “Адаптивное управление динамическими объектами”, Наука 4. В. А. Якубович, “Адаптивные системы с многошаговыми целевыми условиями”, Докл. АН СССР, 183:2 (1968), 303–306 5. Марк Лутц, «Программирование на Python» 6. Python 2.7.3 /https://www.python.org/ (Дата обращения: 12.03.2019) 7. NumPy 1.8.1 /http://www.scipy.org/ (Дата обращения: 15.03.2019) 8. Якубович В. А., ДАН, 166, №6 (1966) 9. Якубович В. А. , “Об одной задаче самообучения целесообразному поведению”, Автомат. и телемех., 1969, № 8, 119–139 10. Якубович В. А. , “К теории адаптивных систем”, Докл. АН СССР, 182:3 (1968), 518–521 11. Лойцянский Ф. Г., Лурье Е. И., Курс теоретической механики, 3, 1934. 12. Неймарк Ю. И., Фуфаев М. А., Механика твердых тел, № 2, 12 (1967) 13. Гелиг А. Х., Матвеев А. С., Введение в математическую теорию обучаемых распознающих систем и нейронных сетей, Спб (2014)	ru_RU
dc.description.abstract	Barabanova Alexandra Sergeevna Methods of learning with reinforcement in the control problems of mechanical systems mathematics and mechanics Department of Theoretical Cybernetics Candidate of Physical and Mathematical Sciences MSAnanyevsky The goal of this paper is to study machine learning methods with reinforcement for the tasks of controlling a mechanical system using the example of a robot cyclist. The result of this work: The literature on the issue under study was studied and a conclusion was made on the need to develop work at the application level to facilitate the construction of the control algorithm for the object parameters without a deep analysis of the theorem. Implemented a program for modeling the movement of a robot cyclist without training. A program for simulating the movement of a robot cyclist with training has been implemented, a program has been written that allows to calculate the estimate ε ^ 2 β. Conclusions about the complexity of the application of this theory were made and comments were received for specialists in related fields. The work is based on the article by V. A Yakubovich “Adaptive systems with multi-step target conditions”. The article is quite old in terms of writing and structure, so when it is analyzed a large number of questions and difficulties arise. Therefore, it was decided to disassemble this article and write the application part so that the person who wants to apply this algorithm would not have to face any more than the indicated problems. Number of used sources: 13 Bibliographic description: 1. Stuart Russell, Peter Norvig (2017) Artificial Intelligence, Williams, 2 2. Machine learning / http://tcyber.ru/tk/research/machine_learning.html 3. Fomin V.N., Fradkov A.L., Yakubovich V.A. (1981) “Adaptive control of dynamic objects”, Science 4. V. A. Yakubovich, “Adaptive systems with multi-step target conditions”, Dokl. AN SSSR, 183: 2 (1968), 303–306 5. Mark Lutz, “Python Programming” 6. Python 2.7.3 /https://www.python.org/ (Released: 12.03.2019) 7. NumPy 1.8.1 /http://www.scipy.org/ (Contact Date: 03/15/2019) 8. Yakubovich V. A., DAN, 166, No. 6 (1966) 9. Yakubovich V. A., “On a problem of self-study for expedient behavior”, Avtomat. and Telemekh., 1969, No. 8, 119–139 10. Yakubovich, V. A., “On the theory of adaptive systems,” Dokl. AN SSSR, 182: 3 (1968), 518–521 11. Loitsyansky F. G., Lurie E. I., The course of theoretical mechanics, 3, 1934. 12. Neimark Yu. I., Fufaev MA, Mechanics of solids, No. 2, 12 (1967) 13. Gelig A. Kh., Matveev A. S., Introduction to the mathematical theory of learning recognition systems and neural networks, St. Petersburg (2014)	en_GB
dc.language.iso	ru
dc.subject	Алгоритм "Полоска"	ru_RU
dc.subject	обучение с подкреплением	ru_RU
dc.subject	адаптивные системы	ru_RU
dc.subject	моделирование движения	ru_RU
dc.subject	управление механическими системами	ru_RU
dc.subject	методы обучения	ru_RU
dc.subject	"Strip" Algorithm	en_GB
dc.subject	reinforcement learning	en_GB
dc.subject	adaptive systems	en_GB
dc.subject	motion simulation	en_GB
dc.subject	control of mechanical systems	en_GB
dc.subject	learning methods	en_GB
dc.title	Methods of learning with reinforcement in the control problems of mechanical systems	en_GB
dc.title.alternative	Методы обучения с подкреплением в задачах управления механическими системами	ru_RU
Располагается в коллекциях:	MASTER'S STUDIES

Файлы этого ресурса:

Файл	Описание	Размер	Формат
Diplomnaa_rabota.pdf	Article	1,14 MB	Adobe PDF	Просмотреть/Открыть
reviewSV_Barabanova__ruk._.pdf	ReviewSV	63,23 kB	Adobe PDF	Просмотреть/Открыть

Показать базовое описание ресурса Просмотр статистики

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.

Архив открытого доступаСанкт-Петербургского государственного университета

Архив открытого доступа
Санкт-Петербургского государственного университета