هل أنظمة الذكاء الصناعي التجارية متحيزة للجنس ولون البشرة؟

وجدت الدراسة التي قام بها الباحثون أن نسبة الخطأ في البرامج الثلاثة الخاصة بتحديد جنس الرجال من ذوي البشرة البيضاء لم تزد عن 0.8%. بينما ارتفعت نسبة الخطأ بالنسبة للنساء ذوي البشرة الداكنة لتصل إلى أكثر من 20% في واحدةٍ من الحالات وإلى أكثر من 34% في الحالتين الأخرتين.

تطرح نتائج هذه التجارب بعض الأسئلة عن كيفية تدريب وتقييم أداء الشبكات العصبية، والتي تتعلم كيفية القيام بعمليات الحوسبة من خلال البحث عن الأنماط الموجودة في مجموعاتٍ ضخمةٍ من البيانات. فعلى سبيل المثال، وعلى ضوء تلك الدراسة، فقد ادعى الباحثون في إحدى شركات التكنولوجيا الأمريكية الكبيرة أنّ نسبة دقة نظام التعرّف على الوجوه الذي صمموه وصلت إلى 97%. ومع هذا، فقد بلغت نسبة الذكور من مجموعة البيانات التي استُخدِمت لتقييم أداء النظام أكثر من 77%، ونسبة ذوي البشرة البيضاء أكثر من 83%.

تقول جوي بولامويني Joy Buolamwini، من الباحثين في مجموعة وسائل الإعلام المدنية التابع لمعهد ماساتشوستس للتكنولوجيا MIT Media Lab's Civic Media group، والمؤلف الأول في الدراسة الجديدة: "ما يهمنا هنا هو الطريقة، وكيفية استعمال تلك الطريقة مع بقية التطبيقات. التقنيات القائمة على البيانات التي تُستخدم لتحديد جنس شخصٍ ما هي ذاتها التقنيات المستخدمة عند محاولة التعرف على شخصٍ ما في حالات البحث عن المشتبه بهم جنائيًا أو فتح قفل الهواتف المحمولة. لا يتعلق الأمرُ فقط بنظام الرؤية الحاسوبية، فأنا آمل في الحقيقة أن يتيح هذا الكشفُ المجال لمزيدٍ من البحث عن وجود أوجه تباين أخرى".

شارك بولامويني بالبحث تيمنيت جيبرو Timnit Gebru الذي كان طالب دراساتٍ عليا في جامعة ستانفورد عندما أُنجِز العمل، والآن هو طالب ما بعد الدكتوراه في مركز أبحاث مايكروسوفت Microsoft Research.

اكتشافات بمحض الصدفة


كانت البرامج الثلاثة، التي عمل كلٌّ من جوي بولامويني وجيبرو على التحقق منها، عبارةً عن أنظمةٍ عامةٍ لتحليل الوجه، من الممكن استخدامها لغرض مطابقة الوجوه في صورٍ مختلفةٍ وأيضًا في تقييم بعض الخصائص التي تخصُّ البشر من مثل الجنس، والعمر، والمزاج. تتعامل جميع البرامج الثلاثة مع مسألة تحديد الجنس على أنه قرارٌ ثنائيٌّ (بمعنى إما ذكر أو أنثى) مما يجعل التحقق من أداء تلك البرامجيات سهلًا من الناحية الإحصائية. ولكن، من المحتمل أيضًا أن يحصل نوعٌ من التحيز في تقييم أداء تلك البرامج حين يتعلق الأمر بمهامَّ أخرى.

في الحقيقة، فقد اكتشفت بولامويني وجود نوعٍ من التحيز في برامج تحليل الوجه عن طريق الصدفة، وكان ذلك ما دفعها إلى إجراء تحقيقٍ في عمل تلك البرامج.

بدأت القصة قبل سنواتٍ مضت، حين كانت بولامويني طالبة دراسات عليا في مختبر الإعلام Media Lab، أثناء عملها على أحد البرامج واسمه أبيت والز Upbeat Walls، وهو برنامجٌ تفاعليٌّ متعدد الوسائط يسمح للمستخدمين بالتحكم في الأنماط الملونة المسلّطة على سطحٍ عاكسٍ عن طريق تحريك رؤوسهم. يستخدم النظام برنامجًا تجاريًّا خاصًّا بتحليل الوجوه من أجل متابعة حركة المستخدمين.

تكوّن الفريق الذي جمعته بولامويني لمساعدتها في عملها في المشروع من عدّة عرقيات. ولكنْ وجد الباحثون أنّه من أجل تقديم الجهاز أمام الناس توجّب عليهم الاستعانة بأحد أعضاء الفريق من ذوي البشرة الفاتحة، حيث إن البرنامج لم يعمل بشكلٍ موثوقٍ مع الأشخاص ذوي البشرة الداكنة.

حرّك ذلك فضول بولامويني، وهي ذات بشرة داكنة، فبدأت باستخدام صورها الخاصة في برامج التعرف على الوجوه التجارية. في العديد من الحالات، فشلت البرامج في تحديد وجهٍ بشريٍّ في الصور، وفي الحالات الأخرى فشلت في تحديد جنس بولامويني.

المعايير الكميّة


ولكي تأخذ عملية التحقق من وجود التحيز في تلك البرامج شكلًا ممنهجًا، قامت بولامويني أولًا بتوفير مجموعةٍ من الصور التي تضم تمثيلًا للنساء وللأشخاص من ذوي البشرة الداكنة بشكلٍ أفضل مما هو الحال في مجموعة البيانات التي استُخدمت في تقييم أداء أنظمة تحليل الوجه، حيث احتوت المجموعة النهائية هذه المرة على أكثر من 1200 صورةٍ.

تعاونت بولامويني بعد ذلك مع جراحٍ متخصصٍ في الأمراض الجلدية من أجل ترميز الصور اعتمادًا على مقياس فيتسباتريك Fitzpatrick scale المكون من ست درجاتٍ والمتخصص في تحديد لون البشرة، من الفاتح وحتى الداكن، والذي طُوِّر في الأساس على يد أخصائيين في الأمراض الجلدية كوسيلةٍ تساعدهم في تقييم مدى خطورة الحروق الشمسية.

جربت بولامويني بعد ذلك ثلاثة من البرامج التجارية الخاصة بتحليل الوجه والتي هي من إنتاج شركاتٍ تكنولوجيةٍ كبيرةٍ، وبالاعتماد على مجموعة البيانات التي قامت هي بجمعها. كانت نسبة الخطأ في تحديد الجنس في جميع البرامج الثلاثة أكبر بالنسبة للإناث مما هي للذكور، وللأشخاص ذوي البشرة الداكنة أكبر مما هي بالنسبة للأشخاص ذوي البشرة الفاتحة.

كانت نسبة الخطأ بالنسبة للإناث ذوي البشرة الداكنة (النساء من الفئة 4، أو 5، أو 6 على مقياس فيتسباتريك) 20.8%، 34.5%، و 34.7%. وفي اثنين من البرامج، كانت نسبة الخطأ بالنسبة للنساء ذوات البشرة الداكنة بأعلى درجة (النساء من الفئة 6) في مجموعة البيانات كانت الأسوء على الإطلاق: 46.5% و46.8%. أي بالنسبة لهؤلاء السيدات، فإنّ البرنامج عمل وكأنه يخمّن نوع الجنس بشكلٍ عشوائيٍّ.

تقول بولامويني: "حين تفشل البرامج التجارية بمعدل 1\3 في أمرٍ بسيطٍ كمهمة تصنيفٍ ثنائيٍّ عليك أن تسأل: هل كان سيتم التغاضي عن ذلك لو كانت معدلات الخطأ تلك تابعةً لمجموعةٍ عرقيةٍ فرعيةٍ أخرى؟ إن الدرس الكبير الآخر الذي نتعلمه هو أن معاييرنا، وهي المعايير التي نعتمدها في قياس النجاح، هي نفسها التي قد تعطينا إحساسًا زائفًا بأننا أحرزنا تقدمًا ما".

إمسح وإقرأ

المصادر

شارك

المساهمون


اترك تعليقاً () تعليقات