Skip to content
FuncionalidadesPreciosAfiliadosBlogAyudaNosotrosContacto
ComenzarIniciar sesión
Volver al Blog
industry2026-08-266 min de lectura

Pedidos por voz desde el navegador con WebSpeechAPI para cafes

Cafe en la playa: cliente con helado en la mano pide por voz desde el navegador. Guia tecnica de WebSpeechAPI mas Cloudflare AI NLU.

th

thMenu Team

thmenu.com

Cafeteria a orillas del mar en Akcaabat: el cliente sostiene un cono de helado con las dos manos y no puede usar el telefono. Dice "pideme un ayran y un pan" y el navegador se encarga — sin instalar app, solo QR y permiso de microfono.

ASR en el navegador

Chrome y Safari traen SpeechRecognition con lang="es-ES" o "tr-TR". El texto crudo llega en 1,2 segundos sin descargas. Una onda animada da feedback visual.

Ese texto va a LLaMA 3.1 8B en Cloudflare Workers AI con un esquema JSON estricto. Las frases repetidas vuelven en menos de 50 ms gracias al cache KV.

Casos de ambiguedad

"Ayran" la bebida frente a "ayran corbasi" la sopa: el NLU pregunta una sola vez y muestra dos tarjetas. Una palabra o un toque cierra la duda.

  • Acentos regionales con fuzzy match 0,85
  • Alergenos: "sin cacahuetes" se detecta como slot negativo
  • Cantidades: "media racion" se normaliza a 0,5

Accesibilidad y fallback

Las personas con baja vision ganan mucho: aria-live="polite" lee el carrito en voz alta. Si el navegador no soporta WebSpeechAPI, el menu vuelve al modo tactil sin romper nada.

La voz es un extra, no una dependencia critica — todo lo demas sigue funcionando incluso en tablets Android viejas.

FAQ

Cuanto cuesta? WebSpeechAPI es gratis; Workers AI cuesta unos 0,01 USD por cada 1000 peticiones.

Que plan? Pro y Platinum incluyen pedidos por voz.

Funciona con ruido? Por encima de 65 dB cae la precision, por eso el toque siempre esta disponible.

¿Te resultó útil? Compártelo.