ElDemocrata

España en español es para cualquier persona que viva en España, visite España o cualquier persona interesada en las últimas noticias, eventos y deportes en España. Descubra más ahora.

Los investigadores de IA de Apple cuentan con un útil modelo en el dispositivo que supera significativamente al GPT-4

Los investigadores de IA de Apple cuentan con un útil modelo en el dispositivo que supera significativamente al GPT-4

Siri ha intentado recientemente describir las imágenes recibidas en Mensajes cuando se usa CarPlay o la función Notificaciones publicitarias. Al estilo típico de Siri, la función es inconsistente y tiene resultados mixtos.

Sin embargo, Apple sigue adelante en el cumplimiento de la promesa de la inteligencia artificial. En un artículo publicado recientemente, los expertos en inteligencia artificial de Apple describen un sistema en el que Siri puede hacer más que simplemente intentar reconocer lo que hay en una imagen. ¿La mejor parte? Cree que uno de sus modelos para realizar estos puntos de referencia es mejor que ChatGPT 4.0.

En el papel (ReALM: Reference Accuracy as Language Modeling), Apple describe algo que podría darle un impulso útil a un gran asistente de voz optimizado para modelos de lenguaje. ReALM tiene en cuenta lo que hay en su pantalla y las tareas activas. Aquí hay un extracto del artículo que describe la función:

1. Entidades en pantalla: estas son las entidades que se muestran actualmente en la pantalla del usuario.

2. Entidades de conversación: Son las entidades relacionadas con la conversación. Estas entidades pueden provenir de un turno anterior del usuario (por ejemplo, cuando el usuario dice “Llamar a Mamá”, el Contacto para Mamá será la entidad relevante en cuestión), o del asistente virtual (por ejemplo, cuando el agente proporciona la usuario con una lista de lugares o alertas para elegir).

3. Entidades en segundo plano: Son entidades relacionadas que provienen de procesos en segundo plano que no necesariamente pueden ser parte directa de lo que el usuario ve en su pantalla o interactúa con el agente virtual; Por ejemplo, un despertador que empieza a sonar o música de fondo.

Si funciona bien, suena como una receta para una Siri más inteligente y útil. Apple también parece confiar en que podrá completar esa tarea increíblemente rápido. La comparación es con ChatGPT 3.5 y ChatGPT 4.0 de OpenAI:

Como otra línea de base, ejecutamos las variantes GPT-3.5 (Brown et al., 2020; Ouyang et al., 2022) y GPT-4 (Achiam et al., 2023) de ChatGPT, disponibles el 24 de enero de 2024, con aprendizaje. en Contexto. Al igual que en nuestra configuración, nuestro objetivo es que ambas variables predigan la lista de entidades del conjunto disponible. En el caso de GPT-3.5, que solo acepta texto, nuestra entrada consta únicamente del vector; Sin embargo, en el caso de GPT-4, que también tiene la capacidad de colocar imágenes en contexto, proporcionamos al sistema una captura de pantalla de la tarea de resolución de referencia en la pantalla, lo que consideramos que ayuda a mejorar significativamente el rendimiento.

¿Cómo funciona entonces el modelo de Apple?

Demostramos mejoras significativas con respecto a un sistema existente con funcionalidad similar en diferentes tipos de referencias, y nuestro modelo más pequeño obtuvo ganancias absolutas de más del 5% para las referencias en pantalla. También medimos el rendimiento de GPT-3.5 y GPT-4: nuestro modelo más pequeño logra un rendimiento similar al GPT-4 y nuestros modelos más grandes lo superan significativamente.

¿Estás diciendo que eres significativamente superior a él? El documento concluye en parte de la siguiente manera:

Mostramos que ReaLM supera a los enfoques anteriores, funcionando casi tan bien como el LLM de última generación actual, GPT-4, a pesar de que consta de muchos menos parámetros, incluso para referencias en pantalla a pesar de estar estrictamente en el dominio del texto. También supera a GPT-4 en declaraciones de usuario de dominios específicos, lo que convierte a RealLM en una opción ideal para un sistema práctico de análisis de referencia que puede residir en el dispositivo sin comprometer el rendimiento.

en el dispositivo sin comprometer el rendimiento Parece que la clave es para Apple. Esperamos que los próximos años de desarrollo de la plataforma sean interesantes, comenzando con iOS 18 y la WWDC 2024 el 10 de junio.