第4部分(第3/4 頁)
名為“三年級”的小程式,造句的能力上差不多是能和三年級的小學生相比,只是不具備常識判斷的能力,雖然造出的句子在語法上都沒有任何問題,但有時候含義卻很搞笑。這種造句,很想有些人喜歡玩的一個遊戲,幾個人,每人寫一個句子的一個部分,然後隨機組合起來,變成一堆搞笑材料之類的。
但是,方治強和路音,還有均兒則興致勃勃地一遍又一遍地輸入各種詞彙,看下面的框裡變幻出非常有趣的句子。
“這個東西要使真的讓小學生拿到手,那就麻煩了,糊弄語文老師應該是沒問題了。”方治強評論道。
“這個小程式的作用僅僅是檢驗一下我的階段性成果而已,不會再有副本了。”
“其實,你能做到這個地步,已經是非常厲害了,你覺得我在什麼地方能幫上你的忙?”
“伯父,市面上也有不少語音輸入和語言輸出的軟體。語音輸出就不提了,基本上是按照每個字的音,連續生成而已,比較好的軟體或許還有虛詞的輕讀,但語氣語調方面都沒有什麼變化。而語音輸入的問題更加複雜,一方面是對於語音的識別率,目前最好的還是幾年前開的viavoice,而且對於輸入裝置的要求也不低,而且,語音輸入後,即時字詞方面都沒問題,斷句,標點也都一塌糊塗,基本上,語音輸入之後,還要靠人工改寫一遍,效率比手打還要差。原來我覺得,透過了解一些語言學,可以找到解決這個問題的辦法,但是,語言學實在是個很怪的學說,看的資料越多,反而越不知道該怎麼下手了。”呂振羽說。
“這樣說吧,從語言學的角度要解決這個識別的問題,這個大家都明白,我也參與過一個叫‘言語的產生、識別與編碼’的專案。目前,所有的機器識別,都是基於字詞和語音的,語法是一個從屬的地位,因為漢語的語法和其他語種區別太大了,規律性並不明顯,雖然按照西方的語法正規化,能夠總結出現代漢語使用的大部分規律,但是這並不足夠。字詞的語音識別,產生的素材,被語法模組排列組合起來。而標點符號,機器自己是無法新增的,因為沒有斷句的功能。這也就是基於語音的機器語言學。”
“那又沒有什麼解決方法呢?”呂振羽問。
“索緒爾在《普通語言學教程》裡有一句話,聲音脫離了書寫符號,就只是一些模模糊糊的概念。但又有另外一句話,文字越是不表示它所應該表現的語言,人們把它當作基礎的傾向就越是增強。……這兩句話有同一個核心,那就是文字,而位於文字兩邊的則是語音和語義。我想,現在主要的瓶頸在於,語言的識別智慧停留在語音到文字的階段,而從文字到語義,則需要一個人自己去進行操作。語義是一個很複雜的東西,憑著你現在掌握的這個人工智慧,你肯定可以做出能比較好的理解語義,從而對文字進行修正的軟體,你剛才也說了,你的這個造句程式,缺乏的就是常識層面的東西。如果加上這一塊,對於語音辨識的判讀是不是就完整了呢?也不是,因為這個常識本身就是有彈性的東西,很多不合乎常識的表達方式平時我們一直在用,你說那是修辭手法也可以,但我們平時都是能理解的,為什麼?因為我們使用語言,無論文字形式還是語音形式,都是基於一個基本的使用環境,也就是所謂的語用。在語用的前提下,語義才會完整。”方治強的說法已經非常非常淺顯,大部分的概念都沒有解釋,但中文的強大適應性也從這些名詞上體現了出來,不需要解釋,相信呂振羽也能夠理解大致的含義,而在這個局面下,大致理解也就足夠了。
呂振羽回味著方治強的話,反反覆覆地想著,突然說:“那是不是說,如果這樣一個引擎能基於語義學和語用學來進行開,然後結合語音識別現有的成果,就能夠比較完善了?”
方治強讚賞地說:“說得
本章未完,點選下一頁繼續。