ASR:
Son las siglas de Automatic Speech Recognition (reconocimiento automático de voz). Hace referencia a la capacidad de una máquina para reconocer voz humana. Generalmente se distinguen dos tipos de ASR: reconocimiento de voz independiente del locutor y reconocimiento de voz dependiente del locutor.
BpT:
Banca por Teléfono. Éste es el producto estrella de Natural Vox. La amplia experiencia de Natural Vox en aplicaciones relacionadas con la banca por teléfono, ha permitido desarrollar sistemas basados en el reconocimiento de voz de elevada calidad para el sector financiero. El sistema BpT integrado en los centros de llamadas proporciona una serie de características avanzadas que superan de manera excepcional a las ofrecidas por otros sistemas de banca por teléfono. Natural Vox ha implantado este producto en clientes de reconocido prestigio como Caja Madrid, BBVA, Banco Atlántico, OpenBank, etc.
Call Center:
Un Call Center o centro de llamadas es un lugar que centraliza todos o algunos de los servicios de asistencia telefónica de una o varias empresas. En un Call Center puede existir un elevado número de operadores telefónicos o gestores que se encargan de atender los servicios técnicos telefónicos de una empresa, servicios de marketing, o cualquier otro tipo de servicios de atención a usuarios, proveedores, etc. Cada vez más Call Centers están integrando en sus instalaciones sistemas de telefonía interactiva. Por medio de un STI es posible reducir en gran medida las necesidades de personal del Call Center permitiendo ofrecer a los usuarios del mismo un servicio de elevada calidad las 24 horas del día, lo que supone una importante reducción de costes. Natural Vox dispone de una amplia experiencia en la integración de STIs en Call Centers, habiendo implantado varios en clientes de reconocido prestigio.
Confirmación:
En determinadas partes de la conversación un sistema de telefonía interactiva, puede pedir confirmaciones al usuario si no es capaz de distinguir con un alto nivel de confianza la respuesta dada. Un ejemplo de confirmación sería:
* Sistema: "¿Qué día de la semana desea concertar cita?"
* Locutor: "Este Lunes"
* Sistema: "Perdone, ¿Ha dicho Lunes?"
* Locutor: "Sí, Lunes"
* Sistema: "De acuerdo, el Lunes puede reservar cita a partir de las 3 de la tarde...etc."
* Etc.
Natural Vox pretende en todo momento, que las confirmaciones sean lo más naturales posibles, de modo que se aproximen a las que pediría un operador humano.
COS:
Nivel de Consecución de Objetivos de los usuarios de un Servicio. El indicador COS proporciona una medida de la facilidad para la consecución del objetivo perseguido, cuando se llama a un sistema de telefonía interactiva (STI).
Un usuario que llamase a un sistema de banca por teléfono para consultar el saldo de una de sus cuentas y fuese atendido por una operadora humana, obtendría un COS del 100%. Esto quiere decir que el cliente ha conseguido su objetivo sin ningún problema, y la operadora humana ha informado al cliente su saldo en un primer intento.
Los sistemas de telefonía interactiva desarrollados por Natural Vox, disponen de un COS muy elevado (en comparación a otros proveedores de sistemas de telefonía). El COS observado en instalaciones consolidadas en diferentes clientes de Natural Vox, ha sido del 98% frente a un 65% existente en sistemas proporcionados por otros proveedores. De cada 100 veces que se accede a un sistema de telefonía interactiva desarrollado por Natural Vox con el fin de utilizar alguno de los servicios disponibles, 98 obtienen su objetivo sin ningún problema y al primer intento, frente a sólo 65 en el caso de que el sistema estuviese desarrollado por otro proveedor de sistemas de telefonía automática.
CPT:
Cita Previa Telefónica. Los sistemas de cita previa telefónica permiten reservar citas para determinados servicios. Buenos ejemplos de sistemas de CPT basados en reconocimiento de voz son los implantados por Natural Vox en la Diputación Foral de Guipuzkoa para reservar cita para la campaña de renta, o los implantados en los centros de inspección técnica de vehículos IVESUR e Iteuve Euskadi. Estos sistemas posibilitan dar citas a un gran número de personas simultáneamente, utilizando los mínimos recursos humanos.
CTI:
Computer & Telephony Integration. El término CTI engloba a toda una tecnología que permite integrar las ventajas que ofrecen los sistemas automáticos y ordenadores al mundo de la telefonía. Esta tecnología comprende, además del reconocimiento de voz, la gestión y control de líneas mediante ordenadores, síntesis texto-voz, etc.
DINUM:
DINUM es un algoritmo software exclusivo de Natural Vox que permite la reproducción de datos numéricos de una forma muy efectiva y natural, asemejándose a la que reproduciría un humano. Este algoritmo es capaz de reproducir mediante técnicas de síntesis, semi-síntesis, y concatenación de audios, una cantidad como 1.384.295 (PTA), de la misma forma que la reproduciría un operador humano: "Un millón trescientas ochenta y cuatro mil doscientas noventa y cinco (pesetas)".
DTMF:
Dual Tone Multi Frecuency. Los tonos DTMF son tonos utilizados en los terminales telefónicos que permiten el marcado por tonos. Los tonos DTMF son la suma de dos tonos sinusoidales a diferentes frecuencias. Por ejemplo, las frecuencias asociadas a la tecla 3 de un terminal telefónico que funciona mediante tonos, son 697Hz (como baja frecuencia) y 1477 Hz (como alta frecuencia).
DUR:
El indicador DUR ofrece una medida de la duración de la conversación necesaria para cumplir un determinado objetivo. En el caso de que un usuario llamase, por ejemplo, a un sistema telefónico de cita previa con el fin de reservar cita para realizar la declaración de la renta, y fuese atendido por una operadora humana, la duración media de la conversación sería del 100% o tendría un valor de referencia de 100. Si en vez de una operadora humana, el cliente hubiese reservado la cita por medio de un sistema telefónico de cita previa, desarrollado por Natural Vox la duración media hubiese tenido un valor de 78 o 78%. El DUR asociado a esa operación en el sistema de Natural Vox sería: (100/78)*100 = 128 %
(Cálculo: (Duración media con personal humano / duración media con sistema automático) * 100 %). La calidad en cuanto a duración media de llamada, o rapidez para conseguir el objetivo deseado, es por tanto un 28% mejor que la que se obtendría con una operadora humana. Esto significa que la media de duración de una llamada para realizar una misma tarea, hubiese sido menor con un sistema de telefonía interactiva de Natural Vox, lo que incide directamente en la satisfacción del cliente a la hora acceder a los servicios ofrecidos por el sistema telefónico implantado.
Feed-back:
Este término hace referencia a los audios enviados por el sistema de telefonía interactiva al llamante, para que éste se sienta escuchado y atendido en todo momento. El objetivo de estos mensajes es conseguir que la conversación se asemeje aún más a la mantenida entre dos humanos. Mientras el sistema recopila la información que debe dar al cliente o usuario, le comunica mediante mensajes del tipo "un momento por favor...", que se le está atendiendo y se está realizando la tarea demandada, evitando la reproducción de algún tipo de música o similar. Natural Vox incorpora en sus sistemas feed-backs inmediatos para el tratamiento de silencios, lo que permite que el cliente se sienta atendido por el sistema y aumente su satisfacción en relación al mismo.
Fonemas, difonemas, y trifonemas.:
Los difonemas son pequeños segmentos de voz que contienen la transición acústica entre dos fonemas (normalmente conocida como co-articulación). Un trifonema es un fragmento de co-articulación que enlaza tres fonemas.
GAP:
El editor gráfico GAP (Generador de APlicaciones) es una herramienta desarrollada íntegramente por Natural Vox, que permite desarrollar de forma gráfica y muy sencilla, aplicaciones de tecnología vocal con una gran calidad conversacional que incorporan reconocimiento del habla con apoyo de la Operadora Transparente y síntesis de voz de alta calidad.
I.V.R. / IVR:
Interactive Voice Response. Un sistema de Respuesta Vocal Interactiva es un sistema automático en el que se puede interactuar mediante voz. Suelen ser en general sistemas muy rígidos debido a que no se cuida el interfaz persona – máquina, y también a la situación actual de la tecnología de reconocimiento de voz. Sin embargo, el objetivo de los IVRs desarrollados por Natural Vox es emular la conversación telefónica persona a persona. Para ello, es fundamental que se permita una interacción a modo de diálogo entre la máquina y el usuario. Un STI que sólo permitiese una comunicación mediante menús y pulsación de tonos multifrecuencia, no sería un sistema IVR ya que no trata de emular una conversación persona a persona.
Se debe desarollar por tanto, una conversación natural (y no un monólogo) en la que el usuario alcance su objetivo, quede satisfecho y vuelva a utilizar el servicio. Para conseguir esto, es necesario tener en cuenta que el lenguaje oral tiene unas características propias (hablar atropelladamente, asumir cosas que todavía no se han dicho, etc...). Además, es necesario suplir el lenguaje gestual con una serie de expresiones de asentimiento y aprobación. En definitiva, es necesario que el usuario se sienta escuchado y comprendido. Por otra parte, es preciso tener en cuenta que se habla con una máquina que sigue unas pautas establecidas pero que no racionaliza y objetiva la información que recibe.
Natural Vox ofrece sistemas que preguntan al usuario ¿Qué desea?, que es lo que preguntaría un operador humano. Por tanto, los IVRs desarrollados por Natural Vox persiguen en todo momento, que la conversación con el sistema sea lo más humana y natural posible.
Interfaz Natural:
Natural Vox incorpora en todos sus sistemas lo que se denomina interfaz natural. Una conversación normal en un sistema BpT podría iniciarse de la siguiente:
* Sistema: "Buenos día, bienvenido a banca por teléfono, ¿Qué desea?"
* Locutor: "Hola,...humm,..., me gustaría saber cuál es el saldo de mi cuenta corriente"
Con este tipo de interfaz, Natural Vox intenta en todo momento que la conversación usuario máquina se asemeje a la conversación que tendría el cliente con un operador humano.
Key-ahead:
La técnica denominada key-ahead se utiliza en algunos sistemas de telefonía interactiva que permiten la detección de tonos multifrecuencia para navegar entre las opciones disponibles. El key-ahead permite acceder directamente por tonos hasta la opción deseada, sin esperar a que el sistema solicite la pulsación de uno u otro número para elegir una determinada opción. De esta forma si en un sistema de telefonía interactiva sabemos que primero debemos introducir el DNI y una clave para identificarnos y después hay que pulsar un "1" para conocer el saldo de alguna cuenta, podremos acceder directamente tecleando en nuestro terminal telefónico: DNI + clave numérica + 1. Los sistemas de telefonía interactiva desarrollados por Natural Vox, además de utilizar reconocimiento de voz para permitir el acceso al sistema a aquellos usuarios que prefieran hacerlo por voz, o cuyos terminales no permitan la utilización de tonos DTMF y ofrecer un interfaz más humano, dan la posibilidad de acceder mediante key-ahead a la opción deseada.
Nivel de confianza:
El nivel de confianza es una medida de la seguridad con la que el sistema de telefonía reconoce una expresión dicha por el locutor o usuario. Si por ejemplo el reconocedor indica un nivel de confianza del 99%, entonces el sistema acepta la respuesta como válida. Si el reconocedor devuelve un 90% como nivel de confianza se le pide al usuario confirmación.
Natural Vox utiliza en sus aplicaciones distintos niveles de confianza dependiendo del tipo de expresión. Todos los niveles de confianza utilizados por Natural Vox son muy elevados, de forma que se acepten expresiones que se han reconocido con un alto grado de seguridad, haciendo que la tasa de errores sea la más baja del mercado, prácticamente despreciable.
NUME:
NUME, al igual que DINUM, es un algoritmo software creado por Natural Vox para simular la pronunciación de números telefónicos, números de cuenta, etc. Por medio de este algoritmo un sistema de telefonía interactiva (STI) es capaz de reproducir un número de teléfono de una forma tan natural como la reproducida por un operador humano. Ejemplo: "906 385 386" -> "Nueve cero seis...tres ocho cinco...tres ocho seis". En este algoritmo se utilizan técnicas de semi-síntesis y concatenación de audios.
OPA:
El concepto de OPA u Operadora Transparente es exclusivo, y está patentado por Natural Vox. La OPA es un complemento al reconocimiento, mediante el cual una operadora recibe en su puesto fragmentos de conversaciones sostenidas por el sistema con varios usuarios simultáneamente. Cada fragmento corresponde indistintamente a una u otra conversación, lo que conlleva un tratamiento confidencial de los datos transcritos. El proceso es ajeno y transparente al usuario, que no detecta en ningún momento la presencia de la operadora.
La OPA posibilita la racionalización de expresiones libres y una mayor interactividad con los usuarios. Implica menos riesgos en el reconocimiento, ya que permite umbrales más estrictos ante la duda, todo ello con el fin de evitar transposiciones. A través de ella, es posible objetivar protestas, solicitar operaciones no habilitadas en el servicio, etc., utilizando incluso teclas de función con las que puede transferir las llamadas a operadores manuales.
PAD:
Puesta a Disposición del cliente. Durante el periodo de desarrollo de un sistema de telefonía interactiva, y después de que se han realizado todas las pruebas necesarias para asegurar el buen funcionamiento del sistema creado, Natural Vox realiza en sus instalaciones la PAD o puesta a disposición del cliente. En este encuentro, el cliente puede comprobar en Natural Vox el correcto funcionamiento del sistema, y constatar que el sistema cumple todos los requisitos y especificaciones acordadas.
Prosodia:
Para que la conversión texto-voz que realiza un sintetizador se asemeje a la voz de un humano, no sólo es necesario que articule las palabras una tras otra, sino que éstas deben ser emitidas con la entonación adecuada. Así por ejemplo, la entonación de un "Sí" afirmativo, debe ser distinta de la de un "Si quieres que..." condicional, es por ello que Natural Vox ha puesto especial énfasis en el estudio de la prosodia natural de los locutores.
RCC:
El Reporting Call Center es un software exclusivo desarrollado por Natural Vox que está integrado en todos sus sistemas de telefonía interactiva. Es un software de estadística que permite controlar en tiempo real el funcionamiento del sistema implementado. Permite controlar el número de líneas ocupadas, buscar conversaciones y transacciones realizadas por clientes en un determinado día, clientes que han colgado, tiempos de espera, servicios por los que ha accedido, etc. El RCC, por tanto, hace la gestión completa de los recursos del sistema de telefonía interactiva integrado en un determinado Call Center.
Reconocimiento Avanzado:
Este es el último reconocimiento desarrollado por Natural Vox. Basado en técnicas de reconocimiento fonético, utiliza las últimas tecnologías en este área para lograr las más altas tasas de reconocimiento del mercado.
El Reconocimiento Avanzado de Natural Vox ha sido adaptado especialmente para aplicaciones de banca por teléfono (BpT), mediante el desarrollo del servidor servidor BpT Reconocimiento Avanzando, que puede incorporarse en las aplicaciones BpT creadas por Natural Vox. Este servidor, dotado de varios procesadores de alto rendimiento y velocidad trabajando en paralelo, puede dar servicio simultáneo a una gran cantidad de líneas. El servidor BpT Reconocimiento Avanzado es totalmente escalable, siendo posible colocar tantos servidores en paralelo como sea necesario.
Reconocimiento Continuo:
El reconocimiento continuo es capaz de distinguir una palabra o frase determinada dentro de una conversación. Estos reconocedores requieren CPUs y procesadores digitales de señal más potentes que el reconocimiento discreto, utilizan técnicas de Word Spotting y requieren de algoritmos software y técnicas de inteligencia artificial para que la precisión en el reconocimiento sea de elevada calidad. Este tipo de reconocimiento es independiente del locutor y está basado en modelos ocultos de Markov (HMM). Los HMM construyen un modelo probabilístico de la serie de fonemas que componen la palabra a localizar. La búsqueda de dicha serie se lleva a cabo en el flujo continuo de voz entrante del reconocedor.
Reconocimiento dependiente del locutor:
El reconocimiento dependiente del locutor tiene como fin el reconocimiento de una voz determinada. Este tipo de reconocimiento requiere de un período de entrenamiento por parte de su usuario, durante el cual éste deberá de repetir una serie de palabras y expresiones.
Reconocimiento Discreto:
Un reconocedor discreto es capaz de reconocer una palabra o frase concreta como: Sí, No, Lunes, Parar, Salir, Operador Comercial, etc. Para ello los sistemas pedían al usuario que dijese una palabra concreta en un determinado momento o incluso después de un beep. Es el reconocimiento que se ha utilizado tradicionalmente y el más sencillo de los tres (discreto, continuo y fonético) que se suelen distinguir.
Reconocimiento Fonético:
Las últimas tendencias en tecnologías del habla se basan más en la búsqueda de unidades fonéticas que de palabras sueltas. Entre las ventajas que ofrecen estos nuevos sistemas están su alta tasa de reconocimiento y la facilidad de configuración de vocabularios. Natural Vox ha incorporado estas técnicas de reconocimiento en su Reconocimiento Avanzado.
Reconocimiento independiente del locutor:
El reconocimiento independiente del locutor no precisa entrenamiento y puede reconocer expresiones o palabras pronunciadas por cualquier locutor. Existen tres tipos de reconocimiento independiente del locutor: discreto, continuo y fonético.
Síntesis texto-voz:
La conversión texto-voz, también llamada síntesis ( TTS o Text-To-Speech), es un proceso mediante el cual un sistema automático transforma una secuencia de caracteres, es decir un fichero de texto genérico, en una señal de voz. Las técnicas de síntesis posibilitan la "lectura", gracias a la generación de ficheros de audio, de un fax, un e-mail o cualquier tipo de texto.
Natural Vox dispone de un conversor texto a voz de reconocida calidad que incorpora los últimos avances en este campo.
SIP:
Sistema de Información Pública. Un sistema de información pública basado en técnicas de reconocimiento de voz es un sistema que puede ofrecer, por ejemplo, información sobre el tráfico, meteorológica, o de muy diversos tipos. Los SIPs desarrollados por Natural Vox permiten ofrecer este tipo de servicios utilizando los mínimos recursos humanos, y son capaces de atender a un gran número de llamadas simultáneamente. Un buen ejemplo de este tipo de sistemas es el SIP implantado en la Dirección General de Tráfico para información sobre el estado de las carreteras.
STI:
Sistema de Telefonía Interactiva. Un STI es un sistema de telefonía, que basándose en tecnologías de reconocimiento vocal o detección de tonos multifrecuencia (DTMF), es capaz de ofrecer un servicio telefónico que pueda ser automatizado y que tradicionalmente es proporcionado por operadores humanos.
La tecnología utilizada en este tipo de sistemas ha evolucionado enormemente en los últimos años, permitiendo ofrecer servicios bancarios, de cita previa, o de muy diversos tipos de información.
Muchos de los STI implantados en el mercado ofrecen a los usuarios una serie de menús por medio de los cuales el usuario va eligiendo opciones, mediante la pulsación de tonos multifrecuencia o diciendo palabras concretas como "Sí" o "No".
El gran logro de Natural Vox en este tipo de sistemas, y uno de los aspectos que lo diferencian de otros proveedores, es que no se limita al usuario a elegir determinadas opciones de un menú, y esperar hasta que se oiga la deseada, sino que preguntando al usuario "¿Qué desea?" se le ofrece la posibilidad de expresarse libremente y se le guía a través de los servicios disponibles en el sistema.
Telemantenimiento:
Todos los sistemas de telefonía interactiva implantados por Natural Vox pueden ser gestionados por telemantenimiento. El telemantenimiento permite resolver de forma remota muchos de los problemas técnicos que puedan surgir en las instalaciones del cliente, realizar actualizaciones de determinados módulos del sistema, recoger información sobre el sistema, etc. El telemantenimiento posibilita que los técnicos de Natural Vox trabajen en el sistema implantado remotamente, tal y como lo harían si estuviesen en las instalaciones del cliente. Esto supone enormes ventajas para el cliente ya que cualquier duda o problema que surgiese, podría ser resuelta en un corto período de tiempo. Todos los telemantenimientos son iniciados por el cliente, no siendo posible acceder a la información o datos del sistema si éste no da su autorización.
UTI:
Unidad de Telefonía Interactiva. Una UTI es una parte o módulo fundamental de un Sistema de Telefonía Interactiva desarrollado por Natural Vox, que formado por componentes tanto Hardware como Software es capaz de actuar de interfaz entre el usuario del sistema o llamante y la información a la cual se intenta acceder. Realiza tareas de reconocimiento, gestión de líneas, emisión de audios, etc. Cada UTI realiza todas estas tareas para un número determinado de líneas, existiendo la posibilidad de que éstas sean analógicas o digitales.
Vocabulario:
Es el conjunto de palabras y/o expresiones que pueden ser reconocidas en una frase por el reconocedor (ej: "saldo", "extracto por correo", "con el departamento de seguros", etc.). Su extensión es muy variable y puede ir desde las dos palabras hasta las 6000 palabras y/o expresiones.
VoiceXML:
VoiceXML es un estándar basado en el lenguaje XML que permite acceder a contenidos Web mediante voz o vía telefónica. Este estándar ha sido impulsado inicialmente por IBM, AT&T, Motorola, y Lucent Technologies y es apoyado actualmente por un gran número de compañías del área de las tecnologías del habla. Por medio de este estándar es posible, por ejemplo, que los empleados de una empresa accedan telefónicamente a la información de ventas existente en la intranet corporativa. Además permite acceder vía telefónica a información de bolsa, meteorológica, etc. , contenida en una determinada página web.
VoIP:
Voice over IP (Internet Protocol). La telefonía sobre IP posibilita a los usuarios establecer llamadas de voz y fax sobre redes IP (Internet, intranets, etc.). Esta tecnología permite obtener una importante reducción de costes en lo que a factura telefónica se refiere ya que las llamadas entre teléfonos de la misma empresa (incluso en provincias distintas) no generan coste adicional alguno, y las enviadas a abonados externos a la empresa se realizan al precio de llamadas urbanas. Está dirigida principalmente a empresas que con delegaciones en diferentes provincias, soportan un tráfico de llamadas interprovinciales muy elevado.
VRU:
Voice Response Unit. El término VRU surgió al incluir en un ACD (Automátic Call Distributor) un pequeño módulo que permitiese realizar determinadas funciones de reconocimiento (ejemplo: reconocimiento de "Si", "No"). Actualmente el término VRU se encuentra muy extendido entre los fabricantes o proveedores de sistemas de telefonía interactiva, y hace referencia a un módulo dentro de éstos, que dispone de capacidades de reconocimiento vocal. Natural Vox ha ampliando el concepto de VRU, creando lo que se denomina UTI (Unidad de Telefonía Interactiva), que no sólo permite realizar tareas de reconocimiento, sino que constituye un auténtico interfaz entre el locutor y el sistema telefónico del cual se pretende extraer información.
WAP:
Wireless Application Protocol. El Protocolo de Aplicaciones Inalámbricas es un estándar de facto a nivel mundial para el desarrollo, implantación y oferta de servicios de información en terminales móviles digitales y dispositivos inalámbricos. Ha sido creado gracias a la investigación y esfuerzo de algunas de las compañías más importantes del sector de la telefonía móvil (Nokia, Ericsson, Motorola, Phone.com, etc.) y actualmente multitud de empresas de todo el mundo siguen dicho estándar.
Se apoya técnicamente en estándares plenamente consolidados provenientes del mundo Internet como IP en lo que respecta al transporte de información y XML para la creación de contenidos. WAP posibilita acceder a las ventajas, facilidades e información que ofrece Internet desde cualquier teléfono móvil y desde cualquier lugar sin necesidad de líneas telefónicas, cables, ni ordenador.
Word Spotting:
La técnica del Word Spotting permite identificar una palabra concreta dentro de una frase. de esta manera, a partir de una respuesta del tipo "Quiero saber cuál es el saldo de mi cuenta corriente" y al reconocer "saldo", puede ofrecer al cliente la información solicitada. Esta técnica de reconocimiento continuo permite crear sistemas de reconocimiento de voz de mayor calidad que la proporcionada por los reconocedores discretos.
Sin embargo, es una técnica que puede resultar arriesgada ya que tiene grandes limitaciones. Al reconocer, por ejemplo, la palabra "transferencia", un sistema que no tiene e cuenta el contexto puede equivocar la intención del usuario y deducir que éste quiere realizar una transferencia, cuando lo que quiere es anularla.