Chat Bot Deepseek with a bang failed all safety tests

ЗЛЫЕДЕНЬГИ666 · Jan 30, 2025

Нашумевшая китайская модель искусственного интеллекта DeepSeek R1, претендующая на лидерство в сфере генеративного ИИ, продемонстрировала впечатляющие способности в решении сложных логических задач, программировании и математике. Однако тестирование показало, что вместе с выдающимися возможностями модель несёт в себе серьёзные риски безопасности.

Аналитики KELA обнаружили, что DeepSeek R1 обладает повышенной уязвимостью к взлому. По сравнению с ChatGPT и другими аналогами, модель гораздо легче поддаётся джейлбрейку — методу, позволяющему обходить защитные механизмы и заставлять ИИ генерировать запрещённый контент.

Используя устаревшие, но все ещё эффективные техники, эксперты KELA сумели заставить DeepSeek R1 создавать вредоносное ПО, давать детальные инструкции по *****анию денег и даже по сборке смертоносных дронов. Последующие запросы успешно сгенерировали инструкции по созданию бомб, взрывчатых веществ и неотслеживаемых токсинов.

В одном из тестов эксперты запросили у модели создание вредоносного кода, предназначенного для кражи данных пользователей. DeepSeek R1 не только сгенерировал такой код, но и предложил методы его распространения среди жертв. Более того, модель даже рекомендовала конкретные теневые площадки, такие как Genesis и RussianMarket, где можно продавать похищенные данные.

DeepSeek R1 работает на основе модели DeepSeek-V3, обученной с применением масштабного обучения с подкреплением (RL). Благодаря этому модель показывает выдающиеся результаты на платформе Chatbot Arena, обгоняя ведущие открытые модели, такие как Llama 3.1-405B, а также закрытые модели, включая OpenAI o1 и Claude 3.5 Sonnet. В тестах DeepSeek R1 даже превзошла ChatGPT4o в решении некоторых задач, связанных с логическим анализом . Но, как мы выяснили выше, высокие когнитивные способности не сопровождаются надёжными механизмами безопасности.

Дополнительный риск представляет механизм объяснения хода рассуждений, встроенный в DeepSeek R1. В отличие от ChatGPT4o, который скрывает логику своих решений, китайский ИИ показывает пользователю все этапы анализа. Это открывает злоумышленникам доступ к уязвимым местам модели, позволяя им разрабатывать более эффективные атаки.

Ещё один тревожный аспект — способность DeepSeek R1 выдавать ложные и потенциально опасные данные. В одном из тестов модель сгенерировала таблицу с якобы личными данными сотрудников OpenAI, включая вымышленные адреса, телефоны и зарплаты. Хотя информация оказалась недостоверной, подобные ответы подрывают доверие к модели и демонстрируют её неспособность фильтровать ложные данные.

Китайский ИИ также нарушает принципы конфиденциальности, применяемые западными компаниями. Политика DeepSeek позволяет использовать пользовательские запросы и ответы для обучения модели без возможности отказа, а китайские законы обязывают компании делиться данными с властями.
Специалисты KELA подчёркивают, что организациям следует тщательно оценивать риски перед внедрением таких технологий. Генеративные ИИ-модели должны проходить тщательное тестирование на безопасность перед внедрением в рабочие процессы. В противном случае компании рискуют не только столкнуться с утечкой данных, но и невольно способствовать распространению вредоносного контента.

Foxy · Jan 30, 2025

Вчера скачал и такой ответ выдала

kappaPride · Jan 30, 2025

ЗЛЫЕДЕНЬГИ666 эксперты KELA сумели заставить DeepSeek R1 создавать вредоносное ПО, давать детальные инструкции по *****анию денег и даже по сборке смертоносных дронов. Последующие запросы успешно сгенерировали инструкции по созданию бомб, взрывчатых веществ и неотслеживаемых токсинов.
Click to expand...

плохо что ли? хорошо

The post was merged to previous Jan 30, 2025

ЗЛЫЕДЕНЬГИ666 Китайский ИИ также нарушает принципы конфиденциальности, применяемые западными компаниями
Click to expand...

лол, ну пусть заплачат. в спортлото пишите, ёпт

RTX4070 · Jan 30, 2025

А разговоров то было...

cedro · Jan 30, 2025

а кому не похуй как бы на то что у тебя историю запросов спиздят?

inletah · Jan 30, 2025

Ну насчёт ложных данных.
Так тут всегда страдали галлюцинациями. Тот же гпт, после определенных запросов начал выдавать бред и ТД.

А насчёт защиты. Что хотите от модели, стоимостью пару кк$ и только. Я думаю упор был на решение задач, а не безопасность.
Тот же WormGPT так же не даёт что нужно, пока не попросишь нормально через шаблоны

How do employers 80/20 earn on you? I came to change everything

The danger of Windows systems and its hidden threats

Best *** Services in 2022

Create your Bulletproof VDS for any purpose with a domain

Intelligence and consolidation in Linux | How to protect yourself?

How can you be hacked just because you distributed Wifi?

Create an anonymous email for personal use

Networks are for lizards. Part 1 [Dudos]

Breakthrough - Breakthrough services and telegram bots

Bots for breaking through telegram

Lets talk about agendas and the army

Your digital fortress: a full guide for security from A to Z

Как защититься от деанонимизации? // Сваттинг // Доксинг

How to protect your servers and applications from DDOS attacks

A new way to delete tiktok accounts

Disconniament of Google surveillance on Android. Starting tuning of a combat phone.

GOOGLE 0AUTH TOKEN RESTORE method

Deception when selling gifts in TG, how not to get

Learn how not to become a victim of hackers

COISP 1 | Level 1 Security Certificate

Private Ethical Hacking Course| English

Login via TDATA on MacOs

Deep immersion in the world of *** protocols: comparison and choice

Take care of your gifts Telegram

Dont be fooled | Telegram Reporters / Demolishers

What is SMS bomb and how will it protect against it?

Hacking Hackus/HMC servers

We bypass video verification using face swapping. 5 methods

Internet safety for young users.

Fully encrypted. VeraCrypt and virtual machines

Chat Bot Deepseek with a bang failed all safety tests