Решение проблем в гендерном позиционировании моделей AI

Проблема взаимоотношения полов и толерантности все чаще поднимается в машинном обучении. В июне 2020 институт MIT удалила набор данных, который приводит к женоненавистнической модели ИИ.

Особенности проблемы

 

MIT принесла извинения и отключила набор данных, который обучает модели искусственного интеллекта с женоненавистническими и расистскими тенденциями.

 

Данный набор данных называется «80 миллионов крошечных изображений» и был он создан в 2010 году. Разработанный для обучения ИИ по обнаружению объектов, набор данных представляет собой огромную коллекцию изображений, каждое из которых имеет индивидуальную маркировку в зависимости от социальных и технических особенностей.

 

Модели машинного обучения действуют с использованием этих изображений и их меток. Например, изображение улицы — при подаче в ИИ, обученный на таком наборе данных интеллект, может рассказать вам о таких вещах, как автомобили, уличные фонари, пешеходы и велосипеды.

 

Два исследователя — Винай Прабху, главный научный сотрудник UnifyID, и Абеба Бирхейн, кандидат PhD в Университетском колледже Дублина в Ирландии — проанализировали изображения, и нашли тысячи потрясающих обозначений.

 

В учебном наборе MIT, связанном с гендерным социальным общением, женщины были названы непристойными словами и привязаны к определенным сообществам, которые поддерживают объективизацию женского тела. Анализ показал, что набор данных также содержит изображения женских половых органов крупным планом, помеченные буквой C.

Прабху и Бирхейном предупредили MIT о проблемах, обнаруженных с набором данных, и институт быстро отключил его. MIT пошел еще дальше и призвал всех, кто использует этот набор данных, прекратить его использование и удалять любые копии.

 

В заявлении MIT утверждается, что институт не знал об оскорбительных ярлыках, и они были «следствием автоматической процедуры сбора данных, которая опиралась на существительные из WordNet».

 

Далее представитель MIT  добавил, что наличие таких предвзятых изображений мешает усилиям по формированию культуры инклюзивности в сообществе машинного обучения. Это крайне неудачно и противоречит ценностям, которые стремятся отстаивать сторонники идеального машинного обучения.