El ‘machine learning’ ya iguala o, incluso supera al ser humano. Microsoft asegura que las máquinas son capaces de reconocer con más facilidad el habla conversacional ordinaria. La tasa de error humana está entre un 5.9% y un 11.3% en este área.
El ‘machine learning‘ ya supera a los humanos, puesto que reconoce con más facilidad el habla conversacional ordinaria, tal y como sugieren los resultados de un software de Microsoft. El reconocimiento del habla parecía más complejo para los robots, aunque el reconocimiento facial estaba creciendo a pasos agigantados. En cambio, parece que esto ha cambiado según Microsoft Research, » ahora los algoritmos ya superan a los humanos al reconocer el habla coloquial ordinaria».
En 1950 comenzaron las primeras investigaciones de reconocimiento por voz, las primeras computadoras podían reconocer hasta diez palabras por un solo comunicador. En 1990 se progresó a grabaciones de una persona que leía el Wall Street Journal, las computadoras reconocían cada una de las palabras citadas. Pero el habla ordinaria es mucho más compleja, las oraciones no siempre están bien construidas, es más coloquial y el vocabulario cambia con cada persona y está cubierto de connotaciones.
Los humanos son muy competentes en esta clase de reconocimiento. El consenso general es que tienen una tasa de error de alrededor del 4%. Microsoft dice que finalmente se ha igualado el rendimiento humano.
Los investigadores de Microsoft comenzaron por volver a evaluar el rendimiento humano en las tareas de transcripción. Hicieron esto enviando grabaciones telefónicas a un servicio de transcripción profesional. Para su sorpresa, descubrieron que este servicio tenía una tasa de error de 5.9% para las conversaciones entre individuos sobre un tema asignado y 11.3% para las conversaciones entre amigos y familiares. Una tasa más elevada de lo que se creía anteriormente.