Puede parecer algo futurista, pero lo cierto es que probablemente el teclado y ratón tal como los conocemos hoy en día tenga sus días contados gracias al espectacular avance sufrido estos años en el apartado de reconocimiento de voz usando redes neuronales y las técnicas de aprendizaje automático
En efecto ,gracias a la tecnología del aprendizaje automático ,se aplican los algoritmos más avanzados de redes neuronales del aprendizaje profundo al audio de sus ficheros o del procedente de un micrófono para conseguir un reconocimiento de voz de máxima precisión.
Mencionar que en todos los sistemas de aprendizaje con redes neuronales la precisión de la API Speech mejora con el tiempo, es decir conforme perfeccionan la tecnología interna de reconocimiento de voz que usa los diferentes productos que vamos a ver , lo cual significa que en realidad usando estos servicios estamos «entrenado»a estos sistemas para que su porcentaje de aciertos sea cada vez mayor
Veamos algunas soluciones de reconocimiento de voz liderados por grandes proveedores como pueden ser Google ,Microsoft o IBM.
Reconocimiento de voz de bing
En efecto, mediante la nube de Microsoft ( Azure) y el servicio Bing Search se puede convertir audio con voz en texto mediante streaming en tiempo real mediante la cual, al mismo tiempo que se envía el audio al servidor, se devuelven resultados parciales de reconocimiento.
De igual modo podría reconocer el texto a partir del audio almacenado en un archivo pero desde la pagina de demostración no es posible,pero como “truco” casero para probar la funcionalidad se puede inyectar el audio ya grabado desde un dispositivo externo por medio de un cable de audio que lo introduciría en el pc pero no olvide seleccionar como dispositivo grabador la entrada de audio donde conecte la señal de audo externa .De este modo regulando adecuadamente el nivel de esta señal debería funcionar exactamente igual que si habláramos por un micrófono
Para probar el servicio vaya a la url https://azure.microsoft.com/es-es/services/cognitive-services/speech/
No olvide seleccionar el idioma de destino en Language, haga clic en el micrófono en Iniciar grabación y empiece a hablar.
También tiene la opción de hacer clic en las dos frases de voz de ejemplo para ver cómo funciona el reconocimiento de voz.
Como en todos estos tipos de servicios ,si usa esta demostración, significa que consiente ofrecer datos de entrada de voz a Microsoft para fines de mejora del servicio.De hecho al cargar datos para esta demostración, acepta que Microsoft puede guardarlos y usarlos para mejorar los servicios Microsoft, entre los que se encuentra el API. A fin de facilitar la protección de la privacidad, se adoptan medidas para desperzonalizar los datos y protegerlos. Los datos no se publicarán ni se permitirá que terceros los usen.
IBM
También esta disponible para efectos de pruebas la version de IBM por Watson que permite igualmente el dictado de voz a texto
El servicio IBM Watson Speech to Text utiliza capacidades de reconocimiento de voz para convertir el árabe, el inglés, el español, el francés, el portugués de Brasil, el japonés y el mandarín en texto.
Lo mas destacable de Watson es asimismo la capacidad de transcribir audio done se puede usa su micrófono para grabar audio o cargar audio pregrabado (.mp3, .mpeg, .wav, .flac o .opus solamente).
Incluso puede subir archivos de audio o probar ficheros de muestra para probar el servicio , ( los archivos de audio de muestra son en inglés de EE. UU y están cubiertos por la licencia de Creative Commons.)
El resultado devuelto incluye el texto reconocido, las alternativas de palabras y las palabras clave moteadas. Algunos modelos pueden detectar múltiples altavoces; lo cual puede ralentizar el rendimiento.
A continuación esta es la url para probar el servicio en modo demo: https://speech-to-text-demo.ng.bluemix.net/
No olvide seleccionar el idioma de destino(Voice Model ) , haga clic en el micrófono(record Audio) y empiece a hablar.
En unos instantes en tiempo real debería ir viendo las transcripciones directamente desde esta pagina
Este sistema por el momento se usa para fines de demostración y no está destinado a procesar datos personales ,así que no se deben ingresar datos personales en este sistema, ya que puede no tener los controles necesarios para cumplir con los requisitos del Reglamento general de protección de datos (UE) 2016/679.
En teoría los primeros 1000 minutos al mes son gratis en el servicio estándar, así que el limite es muy superior de uso gratuito al de Google o al de Microsft .
Reconocmiento de voz de Google
Tambien Google dispone de su propio servicio de reconocimiento de voz , el cual por cierto es el usado por ejemplo desde los terminales Android.
En el caso de que este validado contra Google y tenga cuenta en Google Cloud , incluso se pueden subir directamente los ficheros que deseamos transcribir mediante la opción File Upload teniendo en cuenta la limitación de 60 minutos en caso de no querer pasar por caja.
Si quiere probar esta funcionalidad esta es la url : https://cloud.google.com/speech-to-text/
No olvide seleccionar el idioma de destino(Languaje ) ,seleccione el micrófono(Microphone) y empiece a hablar.
En unos instantes ,en tiempo real debería ir viendo las transcripciones directamente desde esta pagina:
Como no podía ser de otra manera, también es posible reconocer el audio subido en la solicitud e integrarlo en su almacenamiento de audio de Google Cloud Storage
¿Pero cual elegimos?
Como hemos podido ver todos estos servicios de reconocimiento de voz están en fase de pruebas para demostrar por ahora incluso en el estado inicial lo que pueden llegar a poder hacer.
De todas las opciones ,en caso de tener necesidad de usarlo por mucho tiempo, el servicio de IBM tiene una oferta mas que generosa de 1000 minutos frente a los 100 de Google , pero no olvidemos que si queremos integrar este servicio con una aplicación albergada en Azure o en la infraestructura de Google entonces necesitaremos usar sus propios servicios .
Debe estar conectado para enviar un comentario.