یادگیری تقویتی یکی از شاخههای یادگیری ماشینی است که در این مدل، روانشناسی رفتارگرایی به کار رفته است و به صورت کاملا ساده، از روش پاداش برای حرکت دادن عوامل هوش مصنوعی به سوی اهداف مشخص استفاده میکند.
این نوع از یادگیری، یکی از بهترین و قابل اطمینانترین ابزارها برای بهبود قابلیت تصمیمگیری در عوامل مذکور است و اطلاعات و زمان خوبی را در اختیار آنها قرار میدهد.
به گزارش
ایتنا از
رایورز به نقل از ونچربیت، روشها و رویکردهای بدون مدل میتواند عوامل هوش مصنوعی را به سمت پیشبینی اقدامات از روی مشاهدات در مورد جهان هدایت کند.
یادگیری تقویتی مبتنی بر مدل، یکی از راهکارهای مناسب است که میتواند بر اساس طرح مشخصی عمل کند و اقداماتی که ممکن است در محیطهای ناآشنا صورت گیرد را پیشبینی کند.
این برنامه، قوانین را بر اساس تجربه خود فرموله میکند.
گوگل با همکاری DeepMind” اقدام به معرفی یک شبکه طرحریزی عمیق تحت عنوان PlaNet” کردند.
این برنامه میتواند مدل جهان را از ورودیهای تصویری یاد بگیرد و از آن برای برنامهریزی استفاده کند.
گوگل اعلام کرد که این برنامه میتواند اقدامات مبتنی بر تصویر را با کارایی 5000 درصدی یاد بگیرد.
کد منبع این برنامه در GitHub” موجود است.
PlaNet” با مدلهای دینامیک یادگیری کار میکند و با استفاده از تصاویر، تجربههای جدیدی را به اطلاعات خود اضافه میکند و بر اساس این تجارب، برنامهریزی میکند.
PlaNet” تا حدود زیادی بر اساس یک مدل دینامیک نهان کار میکند که میتواند حالات بعدی را پیشبینی و در هر مرحله از حالت پنهان یک تصویر جدید تولید کند.
این برنامه میتواند خلاصهای از اطلاعات محیط مانند سرعت اشیاء را درک کند و به سرعت برنامهریزی کند.
در فضای فشرده حالت پنهان، تنها چیزی که مورد نیاز است، پاداش آینده پروژه است و نیازی به تصویر برای ارزیابی توالی اقدامات نیست.
درباره این سایت