Foro Wanako1
¿Quieres reaccionar a este mensaje? Regístrate en el foro con unos pocos clics o inicia sesión para continuar.

Foro Wanako1

Programas Gratuitos, Desatendidos y Mucho más!!!
 
PortalPortal  ÍndiceÍndice  BuscarBuscar  Últimas imágenesÚltimas imágenes  ConectarseConectarse  RegistrarseRegistrarse  
Buscar
 
 

Resultados por:
 
Rechercher Búsqueda avanzada
Los posteadores más activos del mes
missyou123
ArtPrompt: un jailbreak que permite eludir los filtros de las IA’s  Vote_lcapArtPrompt: un jailbreak que permite eludir los filtros de las IA’s  Voting_barArtPrompt: un jailbreak que permite eludir los filtros de las IA’s  Vote_rcap 
tano1221
ArtPrompt: un jailbreak que permite eludir los filtros de las IA’s  Vote_lcapArtPrompt: un jailbreak que permite eludir los filtros de las IA’s  Voting_barArtPrompt: un jailbreak que permite eludir los filtros de las IA’s  Vote_rcap 
ПΣӨƧӨFƬ
ArtPrompt: un jailbreak que permite eludir los filtros de las IA’s  Vote_lcapArtPrompt: un jailbreak que permite eludir los filtros de las IA’s  Voting_barArtPrompt: un jailbreak que permite eludir los filtros de las IA’s  Vote_rcap 
大†Shinegumi†大
ArtPrompt: un jailbreak que permite eludir los filtros de las IA’s  Vote_lcapArtPrompt: un jailbreak que permite eludir los filtros de las IA’s  Voting_barArtPrompt: un jailbreak que permite eludir los filtros de las IA’s  Vote_rcap 
ℛeℙ@¢ᴋ€r
ArtPrompt: un jailbreak que permite eludir los filtros de las IA’s  Vote_lcapArtPrompt: un jailbreak que permite eludir los filtros de las IA’s  Voting_barArtPrompt: un jailbreak que permite eludir los filtros de las IA’s  Vote_rcap 
Engh3
ArtPrompt: un jailbreak que permite eludir los filtros de las IA’s  Vote_lcapArtPrompt: un jailbreak que permite eludir los filtros de las IA’s  Voting_barArtPrompt: un jailbreak que permite eludir los filtros de las IA’s  Vote_rcap 
Noviembre 2024
LunMarMiérJueVieSábDom
    123
45678910
11121314151617
18192021222324
252627282930 
CalendarioCalendario
Últimos temas
» Windows Server 2025: Implementing Group Policy
ArtPrompt: un jailbreak que permite eludir los filtros de las IA’s  EmptyHoy a las 3:13 am por missyou123

» Understanding Dark Matter and Dark Energy
ArtPrompt: un jailbreak que permite eludir los filtros de las IA’s  EmptyHoy a las 3:11 am por missyou123

» Temenos Transact (T24) Core Banking System - Customer
ArtPrompt: un jailbreak que permite eludir los filtros de las IA’s  EmptyHoy a las 3:09 am por missyou123

» Temenos Transact (T24) Core Banking System - Basic Concepts
ArtPrompt: un jailbreak que permite eludir los filtros de las IA’s  EmptyHoy a las 3:06 am por missyou123

» Temenos Transact (T24) Core Banking System - Account
ArtPrompt: un jailbreak que permite eludir los filtros de las IA’s  EmptyHoy a las 3:04 am por missyou123

» Taking Good Notes: Simple Essential Methods
ArtPrompt: un jailbreak que permite eludir los filtros de las IA’s  EmptyHoy a las 3:02 am por missyou123

» Social Media Marketing With Chat Gpt: Chatgpt For 2025
ArtPrompt: un jailbreak que permite eludir los filtros de las IA’s  EmptyHoy a las 3:00 am por missyou123

» Securing Microsoft Azure Data Access Endpoints
ArtPrompt: un jailbreak que permite eludir los filtros de las IA’s  EmptyHoy a las 2:58 am por missyou123

» Project Management with Microsoft Copilot
ArtPrompt: un jailbreak que permite eludir los filtros de las IA’s  EmptyHoy a las 2:56 am por missyou123

Sondeo
Visita de Paises
free counters
Free counters

Comparte | 
 

 ArtPrompt: un jailbreak que permite eludir los filtros de las IA’s

Ver el tema anterior Ver el tema siguiente Ir abajo 
AutorMensaje
ПΣӨƧӨFƬ
Miembro Mayor
Miembro Mayor
ПΣӨƧӨFƬ

Mensajes : 19226
Fecha de inscripción : 22/02/2016

ArtPrompt: un jailbreak que permite eludir los filtros de las IA’s  Empty
MensajeTema: ArtPrompt: un jailbreak que permite eludir los filtros de las IA’s    ArtPrompt: un jailbreak que permite eludir los filtros de las IA’s  EmptyJue Mar 21, 2024 6:41 pm

ArtPrompt: un jailbreak que permite eludir los filtros de las IA’s  ArtPrompt-1024x530
ArtPrompt
Método ArtPrompt

Los avances en el desarrollo de inteligencias artificiales cada vez es mayor y requiere de más capas de seguridad para evitar que personas mal intencionadas abusen de estas herramientas que se han convertido en armas dé doble filo.

Y es que el desarrollo de los LLMs que se utilizan en una amplia gama de aplicaciones, la seguridad ya no es algo opcional, ya que en muchas ocaciones hemos visto de lo que es capas su mal uso.

Aun con todas esas técnicas implementadas, siguen surgiendo problemas que se encuentran dentro de los datos de entrenamiento, lo cual a primera vista no resulta nada fuera de lo común o peligroso al no considerar otras interpretaciones posibles de los datos.

La razón de mencionar esto, es que hace poco se dio a conocer información sobre un nuevo ataque denominado «ArtPrompt», el cual se aprovecha de las limitaciones de las IA’s en reconocer imagenes ASCII para eludir las medidas de seguridad y desencadenar comportamientos no deseados en los modelos.

Este ataque fue descubierto por investigadores de las universidades de Washington, Illinois y Chicago, y mencionan que «ArtPrompt» es un método para eludir las restricciones en chatbots de inteligencia artificial tales como GPT-3.5, GPT-4 (OpenAI), Gemini (Google), Claude (Anthropic) y Llama2 (Meta).

Este método de ataque se ejecuta en dos pasos y como tal se aprovecha del reconocimiento exitoso de texto formateado en ASCII. El primer paso consiste en identifican las palabras del prompt que podrían desencadenar rechazos para evadir los filtros que detectan preguntas peligrosas y en el segundo se encubren esas palabras utilizando arte ASCII para crear un prompt camuflado logrando así inducir respuestas perjudiciales en el modelo.

La efectividad de ArtPrompt se evaluó en cinco chatbots, demostrando su capacidad para eludir las defensas existentes y superar a otros tipos de ataques de jailbreak. Para evaluar la capacidad de los chatbots en reconocer consultas en forma de arte ASCII, se propone «Vision-in-Text Challenge (VITC)» como un benchmark.

Este desafío busca poner a prueba la capacidad de los modelos para interpretar y responder a consultas que utilizan arte ASCII, mostrando que los LLMs tienen dificultades para comprender consultas que representan una sola letra o número con arte ASCII. La precisión de los modelos disminuye significativamente a medida que las consultas contienen más caracteres, lo que pone de manifiesto una vulnerabilidad en la capacidad de los LLMs para procesar información visual codificada de esta forma. Además, se revisan otros ataques y defensas contra los jailbreaks en LLMs.

Se menciona que ArtPrompt es notablemente más efectivo que otros métodos conocidos ya que logró la más alta calidad de reconocimiento de gráficos ASCII en modelos como Gemini, GPT-4 y GPT-3.5, con tasas de omisión exitosa del filtro del 100%, 98% y 92% respectivamente en las pruebas. En cuanto a la tasa de éxito del ataque, se registró un 76%, 32% y 76%, y la peligrosidad de las respuestas recibidas se evaluó en 4,42, 3,38 y 4,56 puntos en una escala de cinco, respectivamente.

ArtPrompt destaca de otros ataques de jailbreak para construir las instrucciones dañinas, ya que requieren de un gran número de iteraciones, mientras que ArtPrompt logra el ASR más alto entre
todos los ataques de jailbreak con una sola iteración. La razón es que ArtPrompt puede construir eficientemente el conjunto de indicaciones encubiertas, y enviarlos al modelo en paralelo.

Además, los investigadores demostraron que los métodos comunes de elusión de filtros actualmente en uso (Paraphrase y Retokenization) no son efectivos para bloquear este tipo de ataque llamado «ArtPrompt». Curiosamente, el uso del método de Retokenización incluso aumentó la cantidad de solicitudes procesadas con éxito, lo que resalta la necesidad de desarrollar nuevas estrategias para enfrentar este tipo de amenazas en la interacción con chatbots.

ArtPrompt destaca por su capacidad para eludir las defensas existentes y los investigadores mencionan que seguirá siendo eficaz para atacar modelos de lenguaje multimodal, mientras los modelos continuen tomando imágenes como entradas, confundiendo al modelo y permitiendo que ArtPrompt induzca comportamientos inseguros.

Finalmente si estás interesado en poder conocer más al respecto, puedes consultar los detalles en el siguiente enlace.


https://arxiv.org/pdf/2402.11753.pdf
Volver arriba Ir abajo
 

ArtPrompt: un jailbreak que permite eludir los filtros de las IA’s

Ver el tema anterior Ver el tema siguiente Volver arriba 
Página 1 de 1.

 Temas similares

-
» Un grave bug de FaceTime permite escuchar (y ver)
» Esta extensión te permite mejorar tu privacidad al visitar YouTube
» WhatsApp lleva más de un año sin arreglar un fallo que permite falsificar mensajes
» OpenAI ahora permite personalizar el sistema de generación de texto GPT-3
» El error ‘file jacking’ de WhatsApp permite a los hackers ver e incluso EDITAR

Permisos de este foro:No puedes responder a temas en este foro.
Foro Wanako1 :: Linux :: Ayuda, Tutoriales-