愛丁堡大學:人工智能計劃使蓋爾語在數字時代站穩腳跟
語言學家和人工智能專家正在開展一項雄心勃勃的計劃,旨在幫助蘇格蘭蓋爾語在數字時代蓬勃發展。
愛丁堡大學和格拉斯哥大學的專家已獲得蘇格蘭225,000英鎊的資助,用于制作適合BBC的蓋爾語字幕系統。
資金還將使該團隊能夠開始為蘇格蘭蓋爾語使用者制作一個類似于ChatGPT的大型語言模型。創建該系統的努力是應對蘇格蘭蓋爾語和其他少數民族語言面臨的數字滅絕威脅的更廣泛舉措的一部分。
當一種語言的使用者由于語言技術不足而無法參與數字交流時,就會出現這種現象。
研究小組還在幫助開發加拿大土著語言之一Ojibwe的語音識別系統。
障礙
由于數據稀缺,蓋爾語在開發和維護其語言技術方面面臨重大障礙。
人工智能程序通常在大型數據集上進行訓練,這些數據集通常是從互聯網上搜索的,然后通過人類反饋進行微調。
研究人員將收集大量蓋爾語數據,并用它來生成高質量的自動語音識別(ASR)系統,用于媒體,教育和研究。
深度學習
該項目將提供急需的蓋爾語字幕技術,并啟動的蓋爾語模型的開發。
研究人員表示,這將有助于保護數字領域的語言,并為振興工作做出重大貢獻。
所謂的深度學習方法對訓練數據是貪婪的,對于像蓋爾語這樣的少數民族語言來說,缺乏大規模數據是一個重大障礙。
該項目旨在通過生成大量口語蓋爾語訓練數據來正面解決這一障礙。該團隊已經在 2021 年通過為蓋爾語開發個公開可用的語音識別系統實現了重要的里程碑。
這是關于匯編大量知識 - 過去從蓋爾語使用者那里收集 - 并在現在以各種形式將其歸還給蓋爾語使用者。
源材料
盡管需要額外的開發來提高其準確性,但該技術已經幫助為教學視頻創建字幕。
一些現有的數字項目將為支持此處提議的擴大努力所需的知識庫奠定基礎。
其中包括15,000頁轉錄的蓋爾語敘事,來自愛丁堡大學的蘇格蘭研究檔案學院。
該團隊還將訪問蘇格蘭蓋爾語數字檔案館(DASG)的材料。這將包括來自格拉斯哥大學Corpas na Gàidhlig的約30萬字的文本和來自DASG的Cluas ri Claisneachd音頻檔案的白話錄音。
這將大大增加蓋爾語語言技術的發展。令人欣慰的是,DASG的資源正在以這種方式部署并得到進一步發展。
蘇格蘭很自豪能夠支持這一項目,這將有助于蓋爾語在數字時代蓬勃發展,并保護我國豐富的語言和文化遺產。
參加會議的還有另外兩名愛丁堡大學的研究人員——文本挖掘講師比阿特麗斯·亞歷克斯博士和語音技術讀者彼得·貝爾博士。
該項目正在與BBC Alba合作進行。它還涉及DASG,歷史詞典Faclair na Gàidhlig,蓋爾語媒體服務MG ALBA和Tobar an Dualchais/Kist o Riches - 蘇格蘭豐富的口頭遺產的獨特在線記錄。