Cafeteria a orillas del mar en Akcaabat: el cliente sostiene un cono de helado con las dos manos y no puede usar el telefono. Dice "pideme un ayran y un pan" y el navegador se encarga — sin instalar app, solo QR y permiso de microfono.
ASR en el navegador
Chrome y Safari traen SpeechRecognition con lang="es-ES" o "tr-TR". El texto crudo llega en 1,2 segundos sin descargas. Una onda animada da feedback visual.
Ese texto va a LLaMA 3.1 8B en Cloudflare Workers AI con un esquema JSON estricto. Las frases repetidas vuelven en menos de 50 ms gracias al cache KV.
Casos de ambiguedad
"Ayran" la bebida frente a "ayran corbasi" la sopa: el NLU pregunta una sola vez y muestra dos tarjetas. Una palabra o un toque cierra la duda.
- Acentos regionales con fuzzy match 0,85
- Alergenos: "sin cacahuetes" se detecta como slot negativo
- Cantidades: "media racion" se normaliza a 0,5
Accesibilidad y fallback
Las personas con baja vision ganan mucho: aria-live="polite" lee el carrito en voz alta. Si el navegador no soporta WebSpeechAPI, el menu vuelve al modo tactil sin romper nada.
La voz es un extra, no una dependencia critica — todo lo demas sigue funcionando incluso en tablets Android viejas.
FAQ
Cuanto cuesta? WebSpeechAPI es gratis; Workers AI cuesta unos 0,01 USD por cada 1000 peticiones.
Que plan? Pro y Platinum incluyen pedidos por voz.
Funciona con ruido? Por encima de 65 dB cae la precision, por eso el toque siempre esta disponible.
¿Te resultó útil? Compártelo.
Artículos relacionados
QR estático vs QR dinámico: coste total a 3 años comparado
Un bistró de 24 mesas detalla 36 meses: 21 000 TRY en reimpresiones frente a 11 …
Omotenashi y QR: Hospitalidad japonesa sin perder el toque humano
Por qué el Sukiyabashi Jiro de Tokio rechaza los menús QR mientras el 68% de las…
Vista previa AR de platos vía WebXR: 3D en navegador sin app
Cómo Dishoom Soho logró +22% en ticket medio con model-viewer. Optimización .glb…