В Google Brain учат робота оценивать последствия своих действий

В Google Brain учат робота оценивать последствия своих действий

Обучение с подкреплением во многом напоминает процесс обучения ребенка – регулярное повторение оттачивает технику. Однако, для того чтобы преимуществами этого метода мог воспользоваться робот, ему требуется вернуть в исходное состояние среду, в которой проходит обучение, а это трудоемкая задача, на выполнение которой у людей может уходить по несколько часов.

По словам авторов исследования, озаглавленного “Leave no Trace” («Не оставляя следов») и опубликованного в онлайн-архиве Корнеллского университета, они пытались развить у машин «интуицию», чтобы они могли классифицировать все, что подлежит восстановлению, как безопасные действия. Путем проб и ошибок робот открывает все больше и больше действий, которые можно обратить, отделяя их от необратимых, а значит – непригодных для обучения.

Обучение с подкреплением часто выполняется в реальных условиях испытательного полигона, например, когда беспилотный автомобиль движется по горному серпантину, и такие условия не прощают серьезных ошибок. Поэтому многие исследователи предпочитают виртуальные симуляции, но даже им рано или поздно приходится проводить реальные испытания, а с помощью нового алгоритма этот процесс станет быстрее и безопаснее, пишет MIT Technology Review.

Эта работа перекликается с другим исследованием, вышедшем в прошлом месяце и принадлежащем специалистам Facebook AI Research. В нем у одной машины есть два различных режима, Элис и Боб, один из которых пытается вернуть в исходное состояние то, что сделал другой. Такая система позволяет ИИ планировать заранее свои действия, уберегая себя (и нас) от разрушительных последствий.

Когда обучение с подкреплением не дает желаемых результатов, в ход идет любознательность. Такую модель разработали для ИИ специалисты Университета Беркли, научив его действовать не ради вознаграждения, а для удоволетворения любопытства.

Подпишитесь на наши новости
Лого www.SiteHere.ru
1970-01-01 03:00 http://news.xtipe.com/ru/news/9199

Смотрите так же

ICO Triple Alpha снимет ограничения на управление инвестициями 1970-01-01 03:00

27 ноября стартовало Pre-ICO проекта Triple Alpha. Он намерен устранить любые ограничения доступа к индустрии управления активами для частных инвесторов по всему миру. Triple Alpha революционизирует международный рынок управления активами, заняв нишу с минимальным - от 100$ - порогом входа для инвесторов и доходностью значительно выше 10% годовых.

Технологии умного дома повышают стоимость жилья при перепродаже 1970-01-01 03:00

Эксперты уверены - в ближайшем будущем продать жилье, не оборудованное IoT-устройствами, будет сложно. Технологии умного дома не только привлекут внимание потенциальных покупателей, но и увеличат стоимость жилища на 5%.

За неделю на Coinbase открыли 300 тысяч биткойн-кошельков 1970-01-01 03:00

Общее число аккаунтов на сервисе обмена, хранения и торговли криптовалютой Coinbase достигло 13,3 млн. Последние 300 тысяч пользователей пришли на сервис всего за одну неделю, пишет CNBC. Связывают это в первую очередь с особенно быстрым ростом, который биткойн показывает последнее время.

Создан фотоэлемент из водорослей, который работает даже ночью 1970-01-01 03:00

С помощью простого струйного принтера специалисты Имперского колледжа Лондона и Кэмбриджского университета создали биофотогальванический элемент, напечатав его чернилами из бактерий на проводящей поверхности. Цианобактерия, в отличие от солнечного элемента, способна вырабатывать электричество и в темноте.