Только левое изображение искусственный интеллект идентифицирует как "невесту" или "свадьба". Правое для него - "костюмированный перформанс".
Это лишь несколько из многих примеров того, как искусственный интеллект систематически дискриминирует различные группы людей.
Предвзятость трудно назвать специфической чертой искусственного интеллекта. Впрочем, исследователи считают, что расширение сферы его применения делает ее особенно актуальной. То, что искусственный интеллект теперь всюду, требует системных решений. Ниже мы обозначили несколько возможных стратегий.
И в академической среде, и в индустрии компьютерных ученые стремятся получать славу (от публикаций сообщениям в СМИ) за тренировку усложняющихся алгоритмов. Зато значительно меньше внимания уделяют тому, как данные для этих тренировок собирают, обрабатывают и организуют.
А именно тренировочные данные и является главным фактором предубеждений искусственного интеллекта. Большинство задач для машинного обучения тренируются на больших, аннотированных базах данных. Например, нейросети, используемые для классификации изображений, тренируются на ImageNet - наборе из более 14000000 фотографий. А алгоритмы, работающие с естественными языками, тренируются на корпусах как из миллиардов слов. Эти данные, как правило, получают из открытых источников в Интернете, в частности с таких ресурсов, как Google Images, Google News или "Википедия". Собранную информацию обозначают специальными аннотациями - часто это делают студенты или через краудсорсинг платформы, такие как Amazon Mechanical Turk.
Такие методы невольно генерируют данные, содержащие расовые, гендерные или этнические стереотипы.
Например, некоторые группы людей является надрепрезентовани, а другие - недорепрезентовани. Скажем, более 45% изображений на ImageNet происходят из Соединенных Штатов, где проживает лишь 4% мирового населения. Между тем в Индии и Китае, где вместе живет 36% всего населения земного шара, были сделаны только 3% фотографий. Как следствие, алгоритмы, тренирующихся на этих изображениях, распознают фотографию традиционной американской невесты в белом платье как "женщину", "невесту", "платье" и "свадьба", а фотографию с невестой из Северной Индии программа идентифицирует как "искусство перформанса" и "костюм".
В медицине алгоритмы машинного обучения особенно уязвимы к предвзятым баз данных, ведь продуцирования и распознавания медицинской информации стоит ли дорого. В прошлом году исследователи использовали глубинное обучения, чтобы идентифицировать рак кожи с помощью фотографий. Алгоритмы тренировали на наборе с 129 450 изображений, 60% которых были взяты из Google Image. Однако темнокожие люди присутствовали менее чем на 5% этих изображений. Итак, работа алгоритма может быть очень разной среди различных человеческих популяций.
Другой источник предубеждения можно проследить в самых алгоритмах.
Типичная программа машинного обучения пытаться максимизировать общую точность предсказания для тренировочных данных. Поэтому, если специфическая группа индивидов встречается в тренировочных данных чаще, то программа самостоятельно подстраивается под эту группу, чтобы увеличить общую точность.
Через петли обратной связи алгоритмы с ошибками лишь умножают стереотипы. Скажем, Google Translate, который предпочитает местоимениям мужского года, каждый раз увеличивает процентное соотношение маскулинизм в интернете, перекладывая "он сказал" вместо "она сказала". Это обусловлено соотношением мужских местоимений в женских в английском языке на уровне 2 к 1.
Характерно, что с 1960-х это соотношение снизилось с 4 до 1 благодаря масштабным социальным трансформациям.
Смещение данных часто отражают глубокие социальные и властные дисбалансы. Википедия, например, выглядит как богатый и разнообразный источник информации. Но только 18% биографических статей в ней о женщинах. А статьи о женщинах содержат больше информации о семье или романтических партнеров и больше ссылаются на статьи о мужчинах, чем наоборот, что делает мужчин более видимыми для поисковых систем.
Следовательно, нужно обратить гораздо больше внимания на то, как формируются базы данных, на которых тренируется искусственный интеллект, а также принять меры, чтобы эти базы были разнообразными и не дискриминировали одной группе по полу или цветом кожи.
Некоторые исследователи уже начали работать над этим. Например, компьютерные ученые недавно обнаружили, что искусственный интеллект, который распознает лицо, допускается гораздо больше ошибок, когда ему попадаются черные женщины, чем белые. Соотношение ошибок составило аж 35% до 0,8%. Чтобы решить эту проблему, исследователи создали новую базу данных с 1270 человек и заставили программу "переучиться".
Все тренировочные данные обязательно должны содержать информацию о том, по каким критериям их собрали и обозначили. Если эти данные касаются людей, то непременным есть информация о географии, пол, этническую принадлежность и другие существенные демографические характеристики. Если обозначения происходит через краудсорсинг, тогда нужны базовые данные об участниках краудсорсинга вместе с точными инструкциями, которые им предоставили. Некоторые журналы уже требуют эти данные от авторов, которые хотят опубликовать свои статьи. Например, Nature уже заставляет авторов загружать микромасивы данных на репозиторий с открытым доступом Gene Expression Omnibus. Владельцы баз данных, таких как OpenML или Kaggle, должны делать то же самое.
В конце концов, ИТ-специалисты должны стремиться к тому, чтобы их алгоритмы были устойчивы к человеческим предубеждений. Для этого можно использовать разные подходы. Один из них заключается в том, чтобы закодовуваты эти змищенняи "подталкивать" программы идти от противного. Другой - это изменение самого алгоритма таким образом, чтобы он меньше зависел от чувствительных параметров, в частности пола, этничности, расы или уровня дохода, а также любой информации, коррелируется с этими характеристиками.
Такие подходы являются весьма перспективными, но их еще нужно протестировать в реальном мире. Нужно также, чтобы разработчики алгоритма четко себе осознали, каких именно предубеждений они хотят избегать.
Пока программисты вместе со специалистами по этике и социальных наук пытаются улучшить объективность искусственного интеллекта, мы должны задуматься над несколькими ключевыми вопросами. Данные, используемые искусственный интеллект, должны отражать мир таким, какой он есть, таким, каким мы бы хотели, чтобы он был? Если искусственные алгоритмы используют для оценки кандидата на работу, то что приоритетнее: его таланты или, возможно, вероятность того, что он будет хорошо работать в коллективе? Кто должен решать, какому из этих аспектов следует предоставлять первоочередное предпочтение?
Сегодня уже существуют инициативы, которые изучают эти вопросы. Например, в Стэнфордском университете в Калифорнии действует инициатива "Искусственный интеллект с человеческим лицом" (Human-Centered AI). Важно, чтобы студенты изучали эти проблемы еще в своих аудиториях. Социальные проблемы искусственного интеллекта должны стать такой же интегральной частью образования о нем, как и то, как его алгоритмы работают.
Цифровые устройства, программы и процессы определяют нашу повседневную жизнь, поведение и культуру. Искусственный интеллект трансформирует экономику и общество, меняет то, как мы общаемся, работаем и отдыхаем, порождает новые формы политики и управления. Наши общества очень долго терпели неравенство. Искусственный интеллект не должен ее продолжать или даже углу блядь.
Все(5) |
---|
Сексизм и расизм искусственного интеллекта. | ИГРОВАЯ ЛЕНТА #82 - CD PROJEKT ОБВИНИЛИ В СЕКСИЗМЕ | Павел Воля - О будущем, очках виртуальной реальности и роботах-проститутках | НЕМНОГО О BLACK LIVES MATTER (черный расизм) | Негры-расисты выгоняют белых с университетского кампуса! |
Комментарии на отзыв: