搭配東海大學高教深耕計畫工學院電機系特別邀請國立成功大學博士候選人蘇柏豪準博士舉辦專題講座:電腦說說話-口語對話系統主題,人工智慧在近年來再度掀起一波浪潮,自然語言處理更是在其中扮演了重要的一環。蘇博士將簡介自然語言處理在這波正在改變現在與未來的人工智慧技術浪潮中所扮演的角色,並介紹傳統自然語言處理方法與以深度學習為基礎之自然語言處理分析的轉變。期望藉由這場講座啟發學生的學習意願及引導學生重視程式語言能力之素養,並借此訓練學生運算思維與邏輯能力。
蘇博士和學生解釋,對人類來說,語言的理解是自然的,但要讓電腦擁有自然語言處理 (Natural Language Processing,縮寫 NLP)能力來理解人類的意有所指卻非常不容易,那為什麼電腦需要理解人類的詞彙,自然語言處理的目標是設計演算法來讓電腦「理解」自然語言以執行一些任務,已便人類生活可以更為便利,和程式語言不同的在於,自然語言的目標,在於讓電腦理解、並運用人類語言;而程式語言是人類為了與計算機溝通,而設計的人工語言。
語音是口語對話系統中最主要的輸入方式,語音辨識模組可以將音訊輸入轉換為對應的文字資訊。然而原始的文字資訊只能被電腦記錄,而不能被電腦所“理解”。因此我們需要有一個理解模組,讓電腦正確地理解使用者(人)所說的話以及後續能夠做出適當的回答。口語理解(Spoken Language Understanding,SLU)作為語音辨識和對話狀態跟蹤之間的連接模組,將使用者輸入的文字資訊轉換成結構化的語義資訊。比如,用戶說了一句“幫我查詢明天下午從高雄飛往臺北的機票”,其中包含了三個關鍵的資訊:“出發時間=明天下午”,“出發地=高雄”,“到達地=臺北”。
蘇博士利用影片與同學介紹應用實例
語音辨識並不能保證百分百正確。語音辨識在過去的時間裡已經取得了非常不錯的進展,採用深度學習實現的語音辨識系統利用雲端的計算優勢已經給人們帶來了可用的語音辨識技術。雖然在單一通道和安靜環境下,語音辨識系統在非特定人的連續朗誦情況下的識別率已經大於95%,但是在複雜雜訊環境下語音辨識率不高:人工加雜訊的資料下小詞彙語音辨識目前也只有80%左右,在真實雜訊場景下的大詞彙連續語音辨識的識別率有時甚至都不到50%,離實際的需求還有很大差距。同時,對於新的噪音環境和對話領域的表現也不夠理想。
不確定性(或非精確性、不準確性),是人機對話通道的本質屬性之一。語音辨識本身由於雜訊幹擾、說話人語速口音等問題具有不可避免的錯誤。多通道輸入的情況下,各個通道都有幹擾產生不確定性。在語音辨識中的編碼轉換過程中的誤差,再傳遞到口語理解層,就引發了口語理解的不確定性。另一方面,從認知角度,人類也自然的傾向於用非精確的資訊進行交流,因為這會大大的增加資訊傳輸的速度。在資訊傳輸和語義本身具有不確定性的條件下,由機器對用戶意圖進行理解就成為認知技術的重要範疇之一。它與傳統的“語義理解”或“自然語言處理”的根本不同就是將不確定性納入到研究範疇之內。
最後蘇博士說明,在口語理解中,資料的收集和標注是非常困難的,同時隨著使用者對口語對話領域的需求增加,難度也提高,因此利用已有資源對話口語理解演算法進行快速的領域擴展和遷移的研究變得非常重要。