漢語系數位化 有音就有字
【聯合報╱記者林宜靜/台北報導】
2008.01.06 10:39 pm
德國女婿高盛華(右)和李健秋花兩年時間,每周固定一天帶著筆電輸入或造字,為閩南、客家話建立數位平台。
記者林宜靜/攝影
德國女婿高盛華和在法律事務所資訊部工作的李健秋,花了兩年時間,完成楊青矗編纂的台華雙語辭典所收錄字詞的字形與輸入,並計畫建立日、韓、港、越南通用漢字的字形與輸入,以數位化保存口語傳誦的語言。
他們因緣際會在linux系統認識,兩人對自由軟體有共同的信仰,還號召一群志工共同協助造字,未來研發出來的軟體完全免費,供使用者自由運用。
愛穿著唐裝的高盛華,名片上寫著「台北開放原始碼軟體使用者社群」Taipei Open Source Software User
Group,簡稱Tossug發音就是台語的土虱。
來台灣之前,高盛華有機會和在台灣、大陸兩地的人連繫,大陸使用的簡體編碼BG2312,台灣的正體字以BIG5編碼,在電腦上必須轉來轉去;另一種文鼎發展的unicode,繁簡兩種字體都可通用,但很多字都打不出來。
高盛華的太太是客家人,結婚後定居台灣。他發現,台灣有超過七成以上的人使用閩南語與客家話,現有電腦文字編碼,設計時都沒有將兩種語言考慮進去,因為語言無法書寫保存,面臨消失的危機。
高盛華試圖從unicode結合中文、日文、韓文、越南語使用的漢字,分別進行造字與輸入編碼,發展出一套CJKUnifont字形,目前他們已完成兩萬五千多字,但距離unicode總共七萬多字還有段距離。
高盛華進一步去研究漢字,同一個字經過歷代、手寫或印刷傳遞,形、音都不同,例如「骨」、「令」中文和日文的寫法就有差異,香港廣東話有一些特殊的音字,和台灣的中文又不一樣。
在建立漢字或語系電子化平台前,必須先統一字形,遇到不同地區相同的字,他以列表方式呈現,採用楊青矗的注音方式輸入,只要可以打得出音,就能找到字。
兩年來高盛華和李健秋每周固定一天約在餐廳或咖啡廳分工,最近更採擷原住民語系,透過朋友的協助或者直接造訪部落的耆老。
高盛華希望有更多人加入自由軟體的社群,共同協助完成。
意者可寫email和他連繫:arne@linux.org.tw,http://www.freedesktop.org/wiki/software/CJKUnifonts
沒有留言:
張貼留言