直播實時翻譯軟件免費下載(直播實時翻譯軟件免費版)
9月25日,火山引擎開發(fā)者社區(qū) Meetup 第五期在線上成功舉辦,為大家介紹了智能語音、機器翻譯、自然語言處理等技術的最新進展及其在語音交互、內(nèi)容推薦等場景的應用實踐。

本次直播出席的嘉賓包括字節(jié)跳動語音信號處理算法工程師徐寧、OPPO 高級數(shù)據(jù)挖掘工程師鄧拯宇、字節(jié)跳動火山翻譯團隊資深算法工程師程昱等,他們從不同角度帶大家探秘字節(jié)跳動和 OPPO 背后的算法前沿實踐,干貨滿滿。
由于篇幅限制,本次僅為大家簡略介紹程昱的主題演講《多媒體時代的機器翻譯及在字節(jié)跳動的應用》。有興趣觀看完整直播回放的同學可以在火山翻譯公眾號后臺回復「直播回放」獲得鏈接。

程昱稱,機器翻譯在字節(jié)跳動的應用主要體現(xiàn)在以下幾個方面:解決語言障礙、信息發(fā)布、信息獲取、信息交流等。
火山翻譯為字節(jié)跳動提供各類翻譯服務,如文檔翻譯、拍照翻譯、實時聊天翻譯,給視頻、線上線下會議、直播提供字幕支持。相關功能已經(jīng)在字節(jié)跳動旗下的飛書、西瓜視頻、今日頭條等多個產(chǎn)品上線。

機器翻譯在字節(jié)跳動的應用
關于機器翻譯在多媒體時代下的發(fā)展方向與實踐,程昱為大家介紹了幾項前沿機器翻譯技術。
Q: 視頻和語音翻譯中,如何減輕語音識別輸出的不規(guī)范性帶來的影響?
A: 通過智能標點斷句模型,恢復語音識別輸出的完整語義和斷句信息。
關于多媒體機器翻譯的方向和實踐,程昱表示,需求最大的多媒體場景是視頻語音場景——語音翻譯及視頻翻譯。為了減小級聯(lián)式語音翻譯中 ASR 輸出的不規(guī)范性對語音翻譯的影響,火山翻譯團隊提出了解決方案:結合文本和語音信息的多模態(tài)標點斷句。

結合文本和語音信息的多模態(tài)標點斷句
網(wǎng)絡黑話越來越多,怎樣保證翻譯質量?
結合記憶庫的機器翻譯,利用相似例子校正機翻結果。
機器翻譯的核心是翻譯質量。對于如何提升翻譯質量,程昱表示,可以利用用戶反饋實時提升質量。現(xiàn)今業(yè)界通用的處理不規(guī)范的輸入或黑話的翻譯結果的方法是「加數(shù)據(jù)重新訓練」、「加緩存」及「加短語干預」等,但會分別存在「訓練時間過長」、「緩存數(shù)量過多」、「影響其他正常翻譯」等問題。如下圖:

處理不理想翻譯結果的方案一覽
為了解決此類問題,火山翻譯團隊提出了「結合記憶庫的機器翻譯」的方案。
簡單來說,第一步,在記憶庫里檢索出相似的例子作為指導樣本;第二步,利用帶寬估計器和權重估計器分別計算檢索出來的樣本的概率分布和概率分布的權重;第三步,把樣本的概率分布和模型的概率分布做結合。最后就能達到在不影響正常翻譯的情況下,把“便宜出,可以小刀”翻譯成"Cheap out, you can bargain."
技術細節(jié)可以關注火山翻譯團隊在 EMNLP 2021 發(fā)表的論文(論文地址:https://arxiv.org/abs/2109.09991),論文將會在后期為大家詳細介紹。
翻譯漏洞無窮無盡,怎么辦?
新技術 Graformer 可以保留 GPT 的所有信息。
程昱還提出提升機器翻譯質量的另外一個思路:與其去修補一個個漏洞,是否能直接從無窮無盡的單語入手?
本次火山翻譯團隊從 NMT(神經(jīng)機器翻譯)的三大組件之一語言模型(decoder)方向進行研究。與 BERT/GPT 不同,機器翻譯的 decoder 為了能和 encoder 交互,除了 self-attention 之外,還需要 cross attention。機器翻譯中常見的利用 GPT 作為 decoder 的工作,多是強行在 GPT 中插入 cross attention,這就破壞了 GPT 的信息。為了能夠保證在 decoder 中加入 cross attention 時,不會破壞 GPT 的知識,火山翻譯利用新技術 Graformer 來保留 GPT 的所有信息,從而讓模型能夠獲得更好的翻譯結果。
如下圖所示,通過 Graformer 翻譯出來的表達更符合「信達雅」,這個例子雖然不能作為結論,但是也足以看見機器翻譯的浪潮勢不可擋。

Graformer 翻譯結果更符合「信達雅」
技術細節(jié)可以關注火山翻譯團隊在 EMNLP 2021 發(fā)表的論文(論文地址:https://arxiv.org/abs/2109.05256),論文將會在后期為大家詳細介紹。
在程昱演講期間,為了讓大家感受機器翻譯帶來的魅力,直播間添加了火山同傳提供的“黑科技”——實時同傳雙語字幕,幫助觀眾更好地理解演講內(nèi)容。
火山同傳現(xiàn)今支持在主控端添加熱詞及替換詞,從而適配不同級別及領域的會議,優(yōu)化識別效果,提升翻譯質量及效率。

火山同傳詞庫管理頁面
隨著智能算法的研究日益深入,各類技術的應用實踐都在陸續(xù)落地,成為現(xiàn)代生活的一部分?;鹕椒g作為機器翻譯——AI 中極具前景的方向之一的鉆研者,將繼續(xù)致力機器翻譯的技術優(yōu)化及應用,順應智能時代的潮流。

如若轉載,請注明出處:http://www.qjsdgw.cn/91663.html