| Newsletter Aprendo.ai¡Hola comunidad de Aprendoai! La voz por IA llevaba años atorada en demos. Esta semana saltó. OpenAI subió su tasa de éxito del 69% al 95% y Thinking Machines presentó un modelo que ve, escucha y entiende silencios mientras te habla. Estamos a nada de que agentes de IA por voz empiecen a atender llamadas de servicio al cliente sin que lo notemos. EN ESTA EDICIÓN:- ⚡ Prompt: Crea tu herramienta de Deep work
- 💡 Tip: Cómo obtener respuestas más visuales en Claude
- 🛠️ Apps: Música con IA y portapapeles inteligente
- 📰 Android: Google lanza Gemini Intelligence
- 📰 Agentes: Claude Code estrena Agent View
- 📰 Voz: OpenAI sube voz con razonamiento GPT-5
- 📰 Modelos: Thinking Machines presenta modelo de interacción
|
 AndroidGoogle presentó en el Android Show 2026 Gemini Intelligence, un conjunto de funciones de IA que automatizan tareas multi-paso, resumen contenido web y permiten crear widgets con lenguaje natural. Llega este verano a Samsung Galaxy y Pixel. KEY TAKEAWAYS - Rambler convierte voz natural en texto pulido
- Funciona con varios idiomas en un mensaje
- Autofill llena formularios complejos automáticamente
- Foto de cualquier objeto activa búsquedas accionables
- Llegará a relojes, autos, lentes y laptops
POR QUÉ ES IMPORTANTE:Google entrega hoy lo que Apple prometió en WWDC 2024 y aún no saca al mercado. Esa Siri personalizada que actúa entre apps llegará en otoño con iOS 27 y va a correr con Gemini, el mismo motor que Google integra hoy en Android. Apple paga cerca de mil millones al año por usarlo. Google cobra el ticket, llega primero con la experiencia completa y además capta la atención antes de WWDC el 8 de junio. |
Agentes Anthropic lanzó Agent View en Claude Code, una pantalla única para manejar todas tus sesiones de agentes en paralelo sin tener que abrir múltiples terminales o pestañas a la vez. DATOS CLAVE - Se abre con el comando claude agents
- Muestra qué sesiones esperan tu respuesta
- Peek con espacio para responder sin entrar
- /bg manda una sesión activa al background
- Disponible como research preview en planes pagos
POR QUÉ ES IMPORTANTE:Mientras los agentes se vuelven más capaces, orquestarlos empieza a valer más. Agent View funciona como una sala de control donde supervisas varios agentes en paralelo, cada uno con su tarea. Y no falta mucho para que Codex llegue al mismo nivel. La mayoría de plataformas de IA tendrán que volverse orquestadoras para competir. Primero fue integrar IA, luego volver la interacción conversacional, después agentes, ahora orquestarlos. La vara sigue subiendo.. |
Voz OpenAI presentó tres modelos nuevos de voz en su API: GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper. Y con esto su Realtime API deja la fase beta y queda lista para producción. Priceline y Deutsche Telekom ya los están integrando. DATOS CLAVE - Contexto pasa de 32K a 128K tokens
- Traduce desde 70 idiomas a 13 salidas
- Zillow subió éxito de 69% a 95%
- Cinco niveles de razonamiento configurables al uso
- Llama varias herramientas y narra cada acción
POR QUÉ ES IMPORTANTE:Los agentes de voz por IA llevaban años en demo. Se trababan, no entendían lo que pedías, te pasaban a un humano. Lo que importa de este lanzamiento es ese salto en la tasa de éxito del 69% al 95%. Antes solo contestaban. Ahora resuelven. Los empleos en call centers, servicio al cliente y ventas por llamada llevan tiempo en la lista de "en peligro" (en el límite). Falta conectar "un par" de "cables" para que estos agentes hagan ese trabajo de manera inteligente. Ya estamos muy cerca. |
Modelos Thinking Machines presentó TML-Interaction-Small, lo que llaman un modelo de interacción, una categoría distinta de un LLM o un world model. Es una IA que percibe audio, video y texto en flujo continuo y responde mientras te escucha, como lo haría una persona en una llamada que ve lo que haces y puede interrumpirte. DATOS CLAVE - Liderado por Mira Murati, cofundadora de OpenAI
- Entiende silencios, interrupciones y gestos del usuario
- Reacciona a estímulos visuales sin instrucción previa
- Supera benchmarks de GPT-realtime y Gemini Live
- Research preview limitado antes del lanzamiento abierto
POR QUÉ ES IMPORTANTE:Importa porque OpenAI y Google ya tienen Realtime y Gemini Live, pero esos parchan interactividad sobre modelos que siguen siendo por turnos. Thinking Machines entrenó todo desde cero con la interacción dentro del modelo. Eso cambia el techo de qué tan fluida puede sentirse una IA al hablar contigo. Esto abre paso a asistentes que perciben contexto, presencia y tiempo. Y empuja a otros laboratorios a repensar cómo diseñan productos de voz y video. |
Herramientas Seleccionadas🎧 | Plataforma de ElevenLabs para descubrir, remezclar, crear y monetizar música con IA. Une escucha y creación en un mismo flujo: fans pueden transformar canciones, y artistas pueden publicar y ganar según engagement. |
📋 | Gestor de portapapeles de GenSpark para copiar cualquier cosa y pegarla cuando quieras. Perfecto para administrar TODOS tus screenshots. Guarda historial buscable de textos, imágenes, archivos y capturas. Incluye anotación, grabación de pantalla, traducción y descarga gratuita. |
TIPS / HACKSPídele a Claude que te responda en HTMLHTML es la estructura invisible que da forma a lo que ves en una página web. Y ese mismo formato puede transformar cómo te responde Claude. Seguro te ha pasado: preguntas algo complejo y te devuelve un muro de texto. Lo lees a medias, te pierdes, te abrumas.. y lo valioso queda en algún párrafo que nunca terminas de procesar. Una línea extra en tu prompt lo cambia: pídele que te responda en HTML para que todo se vuelva visual.  |
Una herramienta de deep work que se arma a tu medidaTienes tres horas y un proyecto que no avanza. La diferencia entre un bloque que produce y uno que se diluye no está en la fuerza de voluntad: está en el plan previo y en tener algo a la vista que te sostenga. Este prompt diseña tu sesión con outcomes muy claros, descansos pensados y cierre limpio, y lo mejor es que te lo entrega como herramienta interactiva para ejecutarlo. OBJETIVO: PRODUCTIVIDAD Diseña mi sesión de deep work para hoy.
Tengo [X horas] para trabajar en [proyecto].
Arma un plan con: - Setup previo (5 min): qué dejar listo antes de empezar - Bloques de enfoque con un outcome específico cada uno (no "trabajar en X", sino qué quedará terminado) - Descansos estratégicos (cuándo y de qué tipo) - Ritual de cierre: cómo dejarlo guardado para retomar mañana sin fricción
Antes de armar el plan, pregúntame lo que necesites sobre el proyecto, mi nivel de energía o el estado actual del trabajo. No adivines.
Una vez que tengamos el plan claro, entrégamelo en un artifact interactivo que pueda usar como herramienta durante la sesión: con cada bloque visible, su outcome esperado, un timer por bloque, los descansos marcados y un check para ir cerrando lo que voy completando. Que sea funcional, no decorativo. |
| 🎬 | Gemini Omni: Se filtra información de Gemini Omni, un agente multimodal para crear videos con imágenes, texto, clips y avatares personalizados. Se espera se presente en el Google I/O 2026, la próxima semana. |
| 🛍️ | Pomelli: lanzaCatalog para convertir productos o servicios en campañas personalizadas y fotos de marca más consistentes. |
| 🎨 | Lovable: actualizó su diseño en vibe coding con preferencias de tipografía, layout y color antes de construir sitios o apps. |
| ✈️ | Gemini Personal Intelligence: te puede ayudar a crear itinerarios personalizados conectando datos autorizados de Gmail, Fotos, YouTube y Búsqueda. |
| 🎓 | HeyGen: mostró cómo crear contenido educativo interactivo con tu avatar, combinando prompts, escenas, movimiento e instrucciones visuales. |
| 🗣️ | Meta: lanzó Voice Conversations con Muse Spark para hablar con Meta AI, cambiar temas e idiomas y recibir recomendaciones contextuales. |
| 🤖 | Claude: presentó mejoras para Managed Agents con dreaming, outcomes, orquestación multiagente y webhooks para tareas complejas con menos supervisión. |
| 💻 | Googlebook: Google presentó Googlebook, una nueva categoría de laptops con Gemini, Magic Pointer, widgets personalizados e integración con Android. |
| 🖱️ | Google DeepMind: presentó un puntero de mouse experimental con Gemini que entiende contexto visual para pedir acciones sobre objetos, texto o páginas sin prompts largos. |
| 🪐 | Warwick: Una universidad descubrió con IA decenas de exoplanetas ocultos en datos espaciales. |
| 🏠 | Centros de datos caseros: emergen como una opción explorada para instalar mini nodos de IA en casas o comercios. |
|
¿Te gustaría implementar IA, pero no sabes por dónde empezar? ¡Escríbenos!© 2026 aprendoai.ai - Todos los derechos reservados. Darse de baja |
| |
|
|
|
| |
|