استخدام تقنيات التعليم المعزز في بناء أنظمة للتحكم في توازن الروبوت مشابهة للأنظمة البشرية

منظر جانبي للروبوت فالكيري Valkyrie وبجانبه نموذج لرجل آلي شبيه بالبشر تم تصميمه اعتماداً على نموذج فالكيري. حقوق الصورة يانغ، كومورا، ولي Yang, Komura & Li

تمكن الباحثون في جامعة أدنبرة University of Edinburgh من تطوير تصميم هرمي يعتمد آليات التعلم المعزز العميق deep reinforcement learning قادر على إعطاء إمكانية تطبيقأساليب متعددةللتحكم في توازن الروبوتات. هذا التصميم،والذي تم نشر تفاصيله في مسودة بحثيةعلىموقعأركايف arXive كما تمّت مناقشته في المؤتمر العالمي للروبوتات الشبيهة بالإنسان في عام 2017 ، بإمكانه أن يعطي سلوكيات للتحكم في التوازن مشابهة بدرجة كبيرة لسلوكيات البشر، بالمقارنة مع أنظمة السيطرة التقليدية المتبعة حالياً.

يستخدم الإنسان عند الوقوف أو المشي بعض الأساليب الفعالة التي بإمكانها مساعدته في المحافظة على التوزان. تشمل تلك الأساليب إمالة أصابع القدم وتدوير الكعب، حيث أن لها القدرة على تحقيق توزان أكثر فاعلية. هذه الأساليب، في حال تمّ تبنيها،فسيكون لها القدرة على تحسين حركة وتنقل تلك الروبوتاتبشكل كبير.

يقول الدكتور زيبين لي Zhibin Li، المحاضر في علم الروبوتات والتحكم في جامعة أدنبرة، والذي أجرى هذه الدراسة: "يركّز بحثنا الحالي على استخدام طريقة التعليم المعزز العميق من أجل حل المشاكل المتعلقةبحركة تلك الروبوتات. في السابق، كانت تتم معالجة مشكلة حركة الروبوتات باستخدام النماذج التي تعتمد على الطرق التقليدية في التحليل،والتي هي معروفة بمحدودية كفاءتهالأنها تتطلب جهداً ومعرفة بشرية أكبر، كما أنهاتحتاج إلىقدرة حاسوبية عالية لتصبح قادرةً على العمل على الإنترنت".

من خلال استخدام جهد بشري وتدخل يدوي أقل، تستطيع تقنيات تعلم الآلة machine learning أنْتقود عملية تطوير وحدات للتحكم تكون أكثر فاعلية وأكثر دقة بالمقارنة مع الأساليب الهندسية المستخدمة حالياً. فمن المزايا الأخرى لاستخدام أدوات التعليم المعزز هو إمكانية الاستعانة بمصادر خارجية غير متصلة بالأنترنتلغرض تقليل متطلبات الحوسبة المتعلقة بعمل تلك الأدوات، وبمايسمح لأنظمة التحكم المعقدة (مثل تلك الروبوتات الشبيهة بالإنسان) بتحقيق أداءً أسرع عبر الإنترنت.


محاكاة لحركةالروبوت " فالكيري" في ثلاثة حالات: تدوير الكعب (على اليسار)، الوضع الأصلي (في المنتصف)، وإمالة الأصابع (على اليمين). حقوق الصورة يانغ، كومورا، ولي Yang, Komura & Li))
محاكاة لحركةالروبوت " فالكيري" في ثلاثة حالات: تدوير الكعب (على اليسار)، الوضع الأصلي (في المنتصف)، وإمالة الأصابع (على اليمين). حقوق الصورة يانغ، كومورا، ولي Yang, Komura & Li))


ويضيف الدكتور لي: "مع ازدياد القوة التي بدأت تتمتع بها خوارزميات التعليم المعزز، ازداد عدد الدراسات البحثية التي تستخدم التعليم المعزز العميق لحل مهام التحكم. فمثلاً،أتاحت التحسينات الأخيرة التي لحقت بتلك الخوارزميات في مجال العمل المتواصل، إمكانيةتنفيذ مختلف مهام التحكم المتواصلة والتي تعتمد على استخدام التعليم المعزز وتنطوي أيضاًعلى عمليات ديناميكية معقدة.كان الهدف الرئيس من البحث الذي قمنا به هو استشكاف إمكانية استخدام التعليم المعزز العميق في الحصول على أساليب متعددة لعمليات التحكملها قدراتمماثلةأو أكبرمنتلك التي تتمتع بها الطرق التحليلية المستخدمة حالياً،ومن خلال استخدام جهد بشري أقل".

يعتمد التصميم الذي عمل عليه الدكتور لي بالتعاون مع الدكتور تاكو كومورا Taku Komura وطالبة الدكتوراه شوانيو يانغ Chuanyu Yang على استخدام التعليم المعزز العميق للحصول على أساليب عالية المستوى للتحكم. فمن خلال التحديثات المستمرة التي تصل والمتعلقة بحالة الروبوت، يصبح بإمكان تلك الأساليبالحصول على الزوايا المشتركة المطلوبة وضمنتردد أقل.

في هذا السياق، تقول طالبة الدكتوراه شوانيو يانغ: "يتم في المستوى المنخفض استخدام وحدات التحكم التناسبية والاشتقاقية (والتي تسمى اختصاراً بـ PD) وبترددات أعلى بكثير من أجل ضمان الحصول على حركات مفصليةأكثر ثباتاً.فما يدخل الى وحدات السيطرة في المستوى المنخفضهو عبارة عن زوايا المفاصل المرغوبة التي تنتجها الشبكات العصبية في المستوى العلوي. أما ما يخرجُ فهو قيم عزم الدوران التي ترغب بهاالموتورات المشتركة".

قام الباحثون باختبار أداء تلك الخوارزمية،حيث حققت نتائج تبشر بالخير. فمن الأشياء التي توصلوا إليها أن نقل الخبرة البشرية (المتمثلة بالأساليب الهندسية في التحكم) الى التصاميم الخاصة بخوارزميات التعليم المعزز يفسح المجال لبناء استراتيجيات للتحكم في التوازن تشبه تلك التي يستخدمها البشر. علاوةً على ذلك، وحيث أنّ خوارزميات التعليم المعزز لها القدرة على التحسّن من خلال عمليات التجربة والخطأ، ومن خلال التكيف التلقائي مع المواقف الجديدة، فإنّتصميمها لا يتطلب الكثير من التعديل اليدوي أو غيره من التدخلاتالمباشرة من قبل المهندسين البشريين.


:  إحدى الأوضاع الحركية للروبوت. حقوق الصورة يانغ، كومورا، وليYang, Komura & Li
: إحدى الأوضاع الحركية للروبوت. حقوق الصورة يانغ، كومورا، وليYang, Komura & Li


ويضيف الدكتور لي: "أثبتت الدراسة التي قمنا بها أن بإمكان التعليم المعزز العميق أنّ يكون أداةً قويةً قادرة على إعطاء نتائج تتعلق بالسيطرة على التوزانفي الروبوتات مماثلة للنتائج التي تعطيها وحدات التحكم التي صنعها البشر، كما أنها تتطلب جهداً بشرياً أقل ووقتاً أقصر. تمتلك الخوارزمية التي قمنا بتطويرها القدرة على تعلم سلوكيات شبيهة بسلوكيات البشر مثل حني أصابع القدم أو تدوير الكعب، وهي ما تعجز عن القيام به معظم الطرق الهندسية التي تم تطويرها حتى الآن".

يعكفُ الدكتور لي وبقية الزملاء حالياً على تطوير تلك الدراسة وبما يسمح بتطبيقها على كامل جسم الروبوت " فالكيري Valkyrie" من خلال محاكاة ثلاثية الأبعاد. حيث سيمكنهم هذا المنحىالبحثي الجديد من تطبيق كل استراتيجيات التوازنالتييطبقها البشر،على المشي وبقية المهام الأخرى المتعلقة بحركة الروبوتات.

وفي النهاية، يضيف الدكتور لي: "نرغب في نهاية المطافأن نطبق التصميم الهرمي الذي عملنا على بناءه، والذي يجمع خوارزميات التعلم والتحكم بالروبوت، على الروبوتات الشبيهة بالبشر، علاوةً على الأنظمة الروبوتية الأخرى".

إمسح وإقرأ

المصادر

شارك

المصطلحات
  • تعليم الآلة (machine learning): تعلم الآلة هو أحد أنواع الذكاء الاصطناعي، يمكّن التطبيقات البرمجية من التنبؤ بنتائج أكثر دقة دون برمجتها بشكل صريح. ويتم ذلك عن طريق بناء خوارزميات تتلقى بيانات الإدخال وتستخدم التحليل الإحصائي للتنبؤ بقيمة المخرجات ضمن نطاق مقبول.

المساهمون


اترك تعليقاً () تعليقات