【特訊】澳門大學機器翻譯研究再一次取得重大突破!澳大團隊在粵語和普通話的機器翻譯上實現技術創新,能有效和準確翻譯,大大提升了譯文品質。目前,澳大「粵語普通話翻譯系統」已經上線,對促進粵港澳大灣區區內經濟、文化、旅遊等各領域深度融合與發展具重要意義。
該系統由澳大自然語言處理與中葡機器翻譯實驗室(NLP2CT)研發,因應「一帶一路」、粵港澳大灣區建設等國家戰略的需要,以及澳門經濟文化的獨特優勢,以「跨語言共性與多樣性聯合建模的無監督深度學習方法」為題進行研究,相關研究更獲國際頂級的人工智能會議AAAI2020錄用(會議論文達八千八百多篇,歷屆最高,最終僅錄取一千五百九十一篇)。目前,「粵語普通話翻譯系統」已在實驗室上線,同時NLP2CT也正在進一步開發粵語與葡語之間的口語翻譯和同傳系統,為澳門三文四語優勢創造更有利的創新融合條件,是繼「在線中葡英輔助翻譯平台」(UM-CAT)利用全球領先技術提升中、葡、英雙語或三語互譯效率的創新突破。
「粵普翻譯」屬方言翻譯一種,兩者雖存在一定程度的相似性,但兩者語法有別,同時粵普之間的平行語料異常缺乏,難以使用現有的機器翻譯方法來構建理想的翻譯模型。因此,澳大提出嶄新的神經機器翻譯模型,運用「Pivot-Private詞嵌入矩陣」,同時把模型編碼端與解碼端深度相同的語義表示對齊,利用兩者的共性和異性,藉此抽取粵語和普通話在詞法、句法及語義級別的對齊信息。在僅依賴單語數據的情況下,利用無監督機器學習方法實現技術突破。此方法大大提升了翻譯品質,機器自動評價和人為評價結果均證實了此方法的有效性和準確性。
實驗室的跨學科團隊曾憑「葡中機器翻譯系統技術與應用」項目獲特區政府頒發澳門科學技術獎科技進步獎二等獎;研究人員更憑藉在中葡機器翻譯的豐富經驗,開發出多套基於神經網絡的英中機器翻譯系統,於第十三屆全國機器翻譯研討會主辦的「英中機器翻譯評測」大賽中奪得多個獎項,成績備受肯定。實驗室將繼續緊隨時代發展趨勢,在機器翻譯領域尋求突破,進一步掃除粵港澳葡四地間的語言障礙,滿足澳門與大灣區及葡語國家間不斷增長的文化交流需求。◇