聲音用三個構面(參數)轉成文字,第一要考慮語音方面的特質,語音的基本發音單元(如國語的注音符號ㄅㄆㄇㄈ);再來要考慮可辨識詞彙量(3萬或70萬個詞);及語言的統計模型(今天天氣很好機率比今天明天很好的機率高);接著就進入語言理解(language understanding), 以二個構面來了解,使用文法剖析(grammar parsing)和語意分析(semantic analysis)。然後由對話管理模組(Dialogue manager):從本句的語意和之前的對話內容分析(discourse analysis),決定要回應的內容,再產生句子(Language generation),最後是語音合成(TTS, text to speech); TTS有二種方式:Rule base 祗用基本發單元去組合成要發音的文句,效果較不自然;另一種是Corpus base方式,藉由大量的錄製一些常用的語料,合成時再從當中挑選合適的發音單元串接,效果較為自然。
一般Call center的成本佔比,以人力成本佔了60%~80%的直接成本最高,而高流失率也是Call center最難解決的議題,在美國有30%的流失率,而中國大陸則高達50%。如果採用台達電子語音催款系統,在使用一台PC server 的情況下,可取代102個客服人員,可將節省之人力移往對企業更有價值的工作,也可以節省之經費用於高績效員工的激勵方案,將高手長期留於企業內,產生更高的價值,也解決客服人員高流失率的情形。其催款後之繳款情形與真人催款,差異不大。一般而言,大約一年內可回收此一系統的導入成本。