Голоса ИИ трудно распознать, даже если вы знаете, что звук может быть дипфейком.

Звук дипфейка может обмануть людей, даже если они знают, что слышат голос, сгенерированный искусственным интеллектом. Возможно, потребуется усилить детекторы на базе искусственного интеллекта, чтобы помочь людям отличать дипфейки от подлинной человеческой речи.

Джереми Сюй

2 августа 2023 г.

Не могли бы вы сказать, слушали ли вы голос, сгенерированный искусственным интеллектом?

Shutterstock/физкес

Даже когда люди знают, что, возможно, слушают речь, сгенерированную искусственным интеллектом, носителям английского и китайского языков по-прежнему сложно надежно обнаружить дипфейковый голос. Это означает, что миллиарды людей, понимающих большинство языков мира, потенциально подвергаются риску, когда подвергаются фейковому мошенничеству или дезинформации.

Кимберли Мэй из Университетского колледжа Лондона и ее коллеги попросили более 500 человек распознать дипфейки речи среди множества аудиоклипов. Некоторые клипы содержали подлинный голос женщины, читающей общие предложения на английском или китайском языке, в то время как другие представляли собой дипфейки, созданные генеративным искусственным интеллектом, обученным на женских голосах.

Читать далее:

Энергосберегающий бетон может стать основой для домов, работающих на солнечной энергии

Участники исследования были случайным образом распределены по двум различным возможным экспериментальным установкам. Одна группа прослушала 20 образцов голоса на своем родном языке и должна была решить, настоящие эти клипы или фейковые.

Люди правильно классифицировали дипфейки и аутентичные голоса примерно в 70 процентах случаев как для образцов английского, так и китайского голоса. Это говорит о том, что обнаружение дипфейков человеком в реальной жизни, вероятно, будет еще хуже, потому что большинство людей не обязательно знают заранее, что они могут слышать речь, сгенерированную ИИ.

Второй группе было предоставлено 20 случайно выбранных пар аудиоклипов. В каждой паре использовалось одно и то же предложение, произнесенное человеком и дипфейком, и участников просили отметить фейк. Это повысило точность обнаружения более чем до 85 процентов, хотя команда признала, что такой сценарий дал слушателям нереальное преимущество.

Подпишитесь на нашу ежедневную рассылку

Последние новости науки доставляются на ваш почтовый ящик каждый день.

«Эта установка не полностью соответствует реальным сценариям», — говорит Май. «Слушателям не сообщат заранее, реально ли то, что они слушают, и такие факторы, как пол и возраст говорящего, могут повлиять на эффективность обнаружения».

Исследование также не поставило перед слушателями задачу определить, похожи ли дипфейки на человека, которого имитируют, говорит Хани Фарид из Калифорнийского университета в Беркли. Идентификация подлинного голоса конкретных ораторов важна в реальных сценариях: мошенники клонировали голоса бизнес-лидеров, чтобы обманом заставить сотрудников переводить деньги, а кампании по дезинформации загружали в социальные сети дипфейки известных политиков.

Читать далее:

Искусственный паучий шелк может помочь нам получать питьевую воду из воздуха

Тем не менее, Фарид описал такое исследование как помогающее оценить, насколько хорошо созданные искусственным интеллектом дипфейки «движутся по зловещей долине», имитируя естественный звук человеческих голосов, не сохраняя при этом тонких речевых различий, которые могут показаться слушателям жуткими. По его словам, исследование обеспечивает полезную основу для автоматизированных систем обнаружения дипфейков.

Дополнительные попытки научить участников улучшить обнаружение дипфейков, как правило, не увенчались успехом. Это говорит о том, что важно разработать детекторы дипфейков на базе искусственного интеллекта, говорит Май. Она и ее коллеги хотят проверить, смогут ли большие языковые модели, способные обрабатывать речевые данные, справиться с этой задачей.

Ссылка на журнал: