Масштабный ИИ использует низкий уровень

У крупнейших разработчиков искусственного интеллекта Кремниевой долины проблема с языком. Инструменты генеративного искусственного интеллекта, такие как ChatGPT, широко распространены на английском и испанском языках. Но ранние исследования показывают, что эти же самые инструменты хронически неэффективны на языках с «низкими ресурсами», которые менее представлены в Интернете. Теперь один из крупнейших поставщиков обучающих данных, похоже, решает эту проблему напрямую.

Scale AI, одна из самых известных компаний по обучению данных в Кремниевой долине, в настоящее время нанимает почти 60 вакансий авторов контрактов на десятках языков. В каждом списке вакансий утверждается, что работа предназначена для проекта по обучению «генеративных моделей искусственного интеллекта, чтобы стать лучшими писателями». Языки включают хауса, пенджаби, тайский, литовский, персидский, коса, каталанский, зулу и многие другие. Шесть вакансий в категории «эксперты» ищут писателей, специализирующихся на региональных языках Южной Азии, включая каннада, гуджарати, урду и телугу.

Между языками существует значительная разница в оплате труда: западные языки занимают в 15 раз больше, чем языки стран Глобального Юга. Например, за объявление о вакансии для немецких писателей платят 21,55 доллара в час, тогда как за объявление о вакансии эксперта на телугу предлагается всего 1,43 доллара в час.

Многие из низкооплачиваемых языков считаются «малоресурсными» — то есть языками, которые менее распространены в Интернете, что оставляет модели ИИ с скудными и зачастую плохими данными. Некоторые из наиболее распространенных языков в мире, такие как урду и бенгали, по-прежнему считаются малоресурсными из-за их скудного присутствия в Интернете. По словам Джулиана Посады, доцента Йельского университета и участника проекта «Информационное общество» юридического факультета, масштабное использование ИИ человеческих работников для улучшения языковых навыков «с низким уровнем ресурсов» является заметным сдвигом.

«Вы уже очистили весь интернет. Теперь вам нужно получить данные где-то еще», — сказал Посада «Остальному миру». «Это может говорить о необходимости не каких-то случайных данных, которые вы можете получить от 4chan, а фактически данных, которые создаются кем-то с опытом».

По мнению Дилана Хэдфилда-Меннелла, доцента кафедры искусственного интеллекта и принятия решений в Массачусетском технологическом институте (MIT), есть несколько распространенных объяснений того, почему генеративные системы искусственного интеллекта так плохо справляются с языками с ограниченными ресурсами.

«Одна из [теорий] заключается в том, что неконтролируемых данных недостаточно для построения хороших моделей. скажем, лингвистические модели бенгали», — рассказал Хэдфилд-Меннелл «Остальному миру», отметив, как мало подобный язык представлен в Интернете. На бенгали говорят 270 миллионов человек — почти 3% населения мира — но он используется лишь в 0,013% всех веб-доменов.

Одной из задач, изложенных в описаниях найма Scale AI, может быть попытка решить эту проблему: написание короткого рассказа. Попросить работников обработки данных написать творческое письмо по заданной теме на таком языке, как бенгальский, — это способ создать новый массив оцифрованных текстов, не привязанный к существующим интернет-доменам.

По мнению Посады, использование этих оригинальных историй, которые в основном не содержат разжигания ненависти и полностью принадлежат разработчикам, может иметь дополнительное преимущество в виде снижения необходимости модерации контента в дальнейшем. Это также может помочь избежать потенциально дорогостоящих судебных исков, подобных тому, который рассматривает The New York Times против OpenAI.

Хотя генерация новых данных является одним из решений, очевидно, что существуют и другие стратегии. В другом задании в объявлениях о вакансиях авторам предлагается «ранжировать серию ответов, полученных с помощью модели ИИ».

Для Хэдфилд-Меннелла это яркий пример RLHF, или «обучения с подкреплением на основе отзывов людей». RLHF — это метод, который фокусируется на уточнении выходных данных модели, а не только на изменении ее входных данных. Это касается еще одной распространенной теории о том, почему модели испытывают трудности с языками с низким уровнем ресурсов. «Другая возможность заключается в том, что вам принципиально не хватает обратной связи о том, как хорошо писать на этих [малоресурсных] языках», — сказал он.