Компаниям, занимающимся искусственным интеллектом, грозит расплата за сбор данных

Привет и добро пожаловать на сайт AI. На прошлой неделе 12 органов по защите данных со всего мира собрались вместе, чтобы опубликовать совместное заявление, касающееся сбора данных и его влияния на конфиденциальность.

Заявление, подписанное ответственными за конфиденциальность из Австралии, Канады, Мексики, Китая, Швейцарии, Колумбии, Аргентины и Великобритании, и это лишь некоторые из них, нацелено на операторов веб-сайтов, в частности на компании, занимающиеся социальными сетями, и заявляет, что у них есть обязательства по защите данных. и законы о конфиденциальности для защиты информации на своих платформах от незаконного сбора данных. В заявлении утверждается, что даже общедоступная личная информация подпадает под действие этих законов в большинстве юрисдикций. Примечательно, что в заявлении также отмечается, что инциденты, связанные со сбором личной информации, могут представлять собой утечку данных, о которой необходимо сообщать, во многих юрисдикциях.

Авторы заявления заявляют, что помимо публикации заявления они отправили его непосредственно в Alphabet (YouTube), ByteDance (TikTok), Meta (Instagram, Facebook и Threads), Microsoft (LinkedIn), Sina Corp (Weibo) и X Corp. (X, ранее Twitter). Они также предлагают ряд мер контроля, которые эти компании должны иметь, чтобы защитить пользователей от вреда, связанного со сбором данных, включая назначение группы для мониторинга и реагирования на действия по сбору данных.

К потенциальному вреду относятся кибератаки, мошенничество с личными данными, слежка, несанкционированный политический сбор или сбор разведданных, а также нежелательный маркетинг и спам. Но хотя искусственный интеллект ни разу не упоминается в заявлении, он все чаще становится основной горячей темой в этом вопросе.

Очистка Интернета, в том числе информации на сайтах социальных сетей, — это именно тот способ, с помощью которого такие гиганты ИИ, как OpenAI, Meta и Google, получили большую часть данных для обучения своих моделей. И буквально за последние несколько недель сбор данных стал основным фронтом борьбы в новом ландшафте искусственного интеллекта. Например, газета New York Times ранее в этом месяце обновила свои условия обслуживания, чтобы предотвратить сбор ИИ ее контента, и теперь издатель рассматривает возможность подать в суд на OpenAI по этому поводу. Это последовало за предложенным коллективным иском против OpenAI и инвестора Microsoft, поданным в июне, в котором утверждалось, что фирма тайно удалила личную информацию сотен миллионов пользователей из Интернета без предварительного уведомления, согласия или справедливой компенсации.

Крайне маловероятно, что резко сформулированное письмо повлияет на что-либо, что делают эти технологические гиганты, но судебные иски и правила, запрещающие сбор данных, вполне могут. Например, в ЕС, где конфиденциальность данных, а теперь и регулирование искусственного интеллекта развиваются довольно быстро, сбор данных все чаще подвергается тщательному контролю со стороны государственных органов.

По своей сути ИИ — это данные. Возникает вопрос: если компании не могут свободно собирать данные, где они возьмут данные, необходимые для обучения своих моделей?

Одним из вариантов являются синтетические данные, которые относятся к информации, созданной искусственно, а не в результате реальных событий. Этот процесс часто, но не всегда, включает в себя использование самого ИИ для создания большого набора синтетических данных из меньшего набора реальных данных, при этом полученные синтетические данные отражают статистические свойства реальных данных.

Пока исходные данные не очищены, это может быть жизнеспособным решением. По оценкам Gartner, к 2030 году синтетические данные обгонят реальные данные в моделях ИИ. Но у синтетических данных есть свои недостатки. Например, он может пропускать выбросы, вносить неточности и, в идеале, включать дополнительные этапы проверки, которые замедляют процесс. И хотя некоторые компании утверждают, что синтетические данные устраняют предвзятость, многие эксперты опровергают это и видят, как некоторые формы синтетических данных могут фактически привнести дополнительные предвзятости в наборы данных.

Еще одно потенциальное решение — предоставление собственных данных. В отличие от того, как исторически данные из реального мира собирались, использовались без разрешения и даже распродавались пользователями, эти данные из реального мира доступны по согласию и предоставляются добровольно.