臺灣客語語料庫試用版上線  鍾孔炤邀全民共下迎接客語數位新時代

客語數位化,臺灣客語語料庫試用版上線了!客家委員會自106年開始建置臺灣客語語料庫,迄今已收錄超過600萬字(含書面、口語)客語語料,語料庫系統於今(24)日正式上線開放各界試用,客委會副主任委員鍾孔炤表示,客語數位化的語料庫,不僅有助於客語研究及教學推展,更可以應用到日常生活中的各種大小事,讓學習客語變得很簡單,歡迎大家多多利用

今日的臺灣客語語料庫試用版上線記者會,國立政治大學英國語語文學系教授賴惠玲親自示範如何線上使用「臺灣客語語料庫試用版」,希望大家一起利用這些超過600萬字(含書面、口語)的珍貴客語語料,進行更多元面向的應用,另外,這次將語料庫結合人工智慧技術的團隊「華碩雲端有限公司」總經理吳漢章指出,語音資料庫最大的特色是,擁有各腔調客語語音辨識與語音合成語料,未來可結合人工智慧技術,發展客語數位應用,讓客語迎接時代潮流。

客委會表示,客委會委託國立政治大學規劃建置「臺灣客語語料庫」,以全臺灣客語書寫的文本、發音內容作為語料來源。在書面語料方面,蒐羅已出版或對外發表的書面文本,並盤點臺灣從早期到近年,已出版的各種珍貴客語出版品;而口語語料部分,來源包含電視節目,或是由執行團隊親自採錄的客語口說內容,如訪談、演講、日常生活對話、說故事等。此外,語料蒐整工作號召了許多客語薪傳師協助,共同為保存客語盡一份心力。語料庫所收錄之語料都經過轉寫(轉檔),以及請專家進行文字校訂,並由系統斷詞;口語語料則再經專家人工聽取音檔、標記時間碼,以供系統辨識並串接語料文字及音訊區段。

臺灣客語語料庫系統具有多項功能,第一,資料視覺化與多媒體展示,於入口網頁設置客語常用詞文字雲、客語特色詞彙展示,將相關資訊視覺化,方便民眾快速瀏覽客語常用詞彙;同時設有「口語人物誌」,以多媒體形式展示本語料庫所收錄之口語語料。第二,語言典藏與保存,透過書面語料及口語語料的蒐集,完成臺灣客語六腔(四縣、海陸、大埔、饒平、詔安、南四縣)的基礎保存,其內涵包括保存語言資產、展現語言多樣性、記錄語言生命等多面向。第三,教學研究與數位化應用,語料檢索系統及客語斷詞及詞性標注器之設置,不僅能作為客語學術研究、教學推廣使用,更是完成臺灣客語的數位接軌,建立語言資料與資訊科技介接的管道,提供大數據分析能力,亦為後續臺灣客語數位應用的重要素材。

此外,隨著數位時代的來臨,客委會在臺灣客語語料庫基礎之上,進一步規劃並建置「臺灣客語語音資料庫」,由華碩雲端股份有限公司執行團隊以分年分階段逐步執行,語音資料庫最大的特色為擁有各腔調客語語音辨識與語音合成語料,未來可結合人工智慧技術,發展客語數位應用,歡迎大家點選連結:https://corpus.hakka.gov.tw/ 一同徜徉珍貴的客語資料雲海,迎接全新客語時代。

今日的臺灣客語語料庫試用版上線記者會,由金鐘影后吳奕蓉擔任主持人。

 

客委會副主任委員鍾孔炤表示,客語數位化的語料庫,不僅有助於客語研究及教學推展,更可以應用到日常生活中的各種大小事,讓學習客語變得很簡單,歡迎大家多多利用!

 

國立政治大學英國語語文學系教授賴惠玲親自示範如何線上使用「臺灣客語語料庫試用版」,希望大家一起利用這些超過600萬字(含書面、口語)的珍貴客語語料,進行更多元面向的應用。

 

這次將語料庫結合人工智慧技術的團隊「華碩雲端有限公司」吳漢章總經理指出,語音資料庫最大的特色為,擁有各腔調客語語音辨識與語音合成語料,未來可結合人工智慧技術,發展客語數位應用,讓客語迎接時代潮流。