Модель OpenAI GPT-4o имитирует голос пользователя на шумном фоне, потому что он сбивается с толку, но проблема решена на «системном уровне».

Что вам нужно знать

OpenAI недавно выпустила функцию расширенного голосового режима, позволяющую избранным подписчикам ChatGPT Plus собирать отзывы и улучшать взаимодействие с пользователем.
Производитель ChatGPT недавно опубликовал сообщение в блоге, в котором освещаются наблюдаемые риски, влияющие на производительность GPT-4o, а также меры по смягчению последствий, которые он использует для решения проблем конфиденциальности и безопасности.
На фоне массового ухода топ-менеджеров из команды OpenAI по обеспечению безопасности и супер-согласованности, компания, похоже, снова сделала безопасность своим приоритетом, в то время как блестящие продукты отошли на второй план.

Как опытный исследователь с многолетним опытом работы в области искусственного интеллекта и его приложений, я заинтригован последними разработками OpenAI, в частности внедрением расширенного голосового режима для подписчиков ChatGPT Plus. Интересно наблюдать, как такие компании, как OpenAI, постоянно развивают свои технологии, решают проблемы и стремятся к совершенствованию.

Пока крипто-инвесторы ловят иксы и ликвидации, мы тут скучно изучаем отчетность и ждем дивиденды. Если тебе близка эта скука, добро пожаловать.

Купить акции "голубых фишек"

В мае запуск GPT-4 компанией OpenAI привел к беспрецедентному росту доходов ChatGPT и количества мобильных загрузок. Эта тенденция сохранилась: в июле компания сообщила о выручке в размере 28 миллионов долларов. Эти цифры, вероятно, еще больше улучшатся после выпуска долгожданной функции Advanced Voice Mode в ChatGPT.

Первоначально OpenAI решила отложить выпуск этой функции на месяц, чтобы гарантировать ее соответствие требуемым стандартам качества и безопасности. Важно отметить, что в настоящее время эта функция доступна только определенным пользователям ChatGPT, и она скрыта за подпиской Plus за 20 долларов. OpenAI объясняет, что ограничение использования этой функции несколькими избранными пользователями позволяет им собирать ценные отзывы и расширять ее функциональность.

OpenAI, создатели ChatGPT, поделились новым сообщением в блоге, в котором обсуждаются проблемы безопасности, связанные с расширенным голосовым режимом. Одной из важных проблем, которую они решают, является несанкционированная генерация голоса. Чтобы предотвратить это, они ограничивают модель использованием только «заранее выбранных голосов». Кроме того, они будут использовать выходной классификатор для выявления случаев, когда модель может вести себя неожиданно.

Есть проблемы, но OpenAI над ними работает.

Как энтузиаст, я узнал, что OpenAI признает, что могут быть случаи, когда GPT-4o отклоняется от предполагаемого поведения. Например, упоминалось, что модель может имитировать голос пользователя в шумной обстановке. Говорят, что это необычное явление происходит потому, что модели иногда бывает сложно расшифровать подсказку из-за фонового шума.

Важно отметить, что проблема, которая когда-то затрагивала модель, больше не существует. Во время интервью TechCrunch представитель OpenAI упомянул, что они реализовали «общесистемное решение» в GPT-4o специально для предотвращения повторения этой надоедливой проблемы.

Часто обсуждаемой проблемой является идентификация говорящего, что вызывает опасения по поводу безопасности и конфиденциальности в ИИ. OpenAI объясняет, что их модель откажется идентифицировать людей по голосовым выводам. Тем не менее, он может распознавать людей, связанных с известными цитатами.

За последние несколько лет OpenAI и Microsoft неоднократно подвергались обвинениям в нарушении законов об авторском праве. Было замечено, что их инструменты, такие как Microsoft Copilot и ChatGPT, подозреваются в том, что они берут контент из различных публикаций без предоставления кредита или финансовой компенсации.

Те же проблемы были выявлены и в GPT-4o. OpenAI утверждает, что модель теперь обучена отклонять запросы на контент, защищенный авторским правом, в аудио и многом другом. По данным OpenAI:

«Чтобы обеспечить возможность GPT-4o взаимодействовать через аудио, мы внесли изменения в некоторые текстовые фильтры, чтобы они могли обрабатывать разговоры в аудиоформате. Мы создали фильтры для идентификации и предотвращения вывода музыкального контента, а также для первоначального выпуска ChatGPT Advanced В голосовом режиме мы сказали модели не петь».

Похоже, что обеспечение безопасности стало ключевым моментом для таких компаний, как OpenAI и Microsoft. Интересно отметить, что они решают серьезные проблемы, затрагивающие их известные модели ИИ, прежде чем выпускать их в более широком масштабе, потенциально предотвращая потенциальные проблемы конфиденциальности и безопасности.

Смотрите также

2024-08-09 14:09