扫除人类语言障碍！Meta发布全新 AI 模型，支持近百种语言的翻译和转录

时间：2023-08-24 04:32:22 来源：头部科技

文丨Congerry、Blink162

推倒人类世界的巴别塔！

Meta发布了一个名为SeamlessM4T的人工智能（AI）模型，可以翻译和转录近百种语言。

(资料图片)

同时，SeamlessM4T将与新的翻译数据集SeamlessAlign一同开源，它代表了人工智能驱动的“语音到语音”和“语音到文本”领域的“重大突破”。

对于语音转语音和文本转语音的操作，它可以识别100种输入语言，并将其转换为35种输出语言。

是不是，以后就不可以不用学外语了？

这个AI模型可以支持语音翻译转语音，比如英语语音直接转俄语语音：

还可以支持语音翻译直接转文字：

当然还有最简单文本之间的互译：

训练SeamlessM4T，打造SeamlessAlign数据集

SeamlessM4T 不是一蹴而就的。

SeamlessM4T 是Meta公司的"No Language Left Behind "（文本到文本机器翻译模型）和 "Universal Speech Translator "（支持闽南语的少数直接语音到语音翻译系统之一）的精神继承者。

同时，它还建立在Massively Multilingual Speech（Meta提供的一种支持超过1100种语言的语音识别、语言识别和语音合成技术的框架）之上。

Meta 解释了如何利用重新设计的 Fairseq 序列建模工具包，结合多任务 UnitY 模型架构，构建 SeamlessM4T。

其中，多任务 UnitY 模型由三个主要序列组件组成：

文本和语音编码器：负责识别近100种语言的语音输入，并将其转换为内部表示。文本解码器：负责将编码后的语音表示或文本表示转换为目标语言的文本输出。文本到单元（T2U）模型：负责将文本输出解码为36种语言的离散声学单元。多语言HiFi-GAN单元声码器：负责将离散单元转换为音频波形。

为了提高模型的质量和训练稳定性，Meta还对该模型中的各个组件都进行了预训练。例如，自监督语音编码器w2v-BERT 2.0是w2v-BERT的改进版本，它是通过分析数百万小时的多语言语音来学习查找语音中的结构和含义训练而成的。

当然，这只是工作的一部分。

像 SeamlessM4T 这样的数据驱动模型通常得益于大量高质量的端到端数据，即语音到文本和语音到语音数据，仅依靠人工转录和翻译的语音扩展到处理 100 种语言语音翻译的挑战性任务。

Meta在其先驱性工作上进行了建设，使用联合嵌入空间中的相似度度量进行文本到文本挖掘，并在语音挖掘方面进行了初步工作，以创建额外的资源来训练SeamlessM4T模型。

首先，研究人员为 200 种语言构建了一个新的大规模多语言和模式文本嵌入空间，命名为 SONAR（Sentence-level mOdality- and laNguage-Agnostic Representations），它在多语言相似性搜索方面大大优于 LASER3 或 LaBSE 等现有方法。

然后，研究人员采用教师-学生模型（a teacher-student approach）将SONAR扩展到语音模态，目前已覆盖 36 种语言。

注：a teacher-student approach是一种机器学习方法，它可以利用一个已经训练好的模型（teacher）来指导另一个模型（student）的学习过程。这种方法的目的是让student模型能够学习到teacher模型的知识和技能，从而提高student模型的性能和效率。

这项工作是在公开的网络数据（数百亿句子）和语音（400 万小时）资源库中进行的，研究人员总共自动对齐了超过 443,000 小时的语音和文本和约 29,000 小时的语音对语音对齐。

这个语料库被称为 SeamlessAlign，它“教会”SeamlessM4T 如何将语音转录为文本、翻译文本、从文本生成语音，甚至将一种语言中的单词翻译成另一种语言中的单词。

SeamlessAlign也是迄今为止最大的开放式多模态翻译数据集。

此外， BLASER 2.0 测试结果显示SeamlessM4T在语音转文本任务中针对背景噪声和说话人变化的表现更好（平均分别提高了 37% 和 48%），且性能也优于之前最先进的竞争对手。

Meta 首席人工智能科学家Yann LeCun也转发了与SeamlessAlign相关的信息。

不过评论区的网友对此似乎并不“买账”。

也有网友提出了自己的疑问和建议。

还有网友认为，SeamlessM4T 会让我们在5年时间内拥有一台通用翻译器。

与此同时，Meta 也表示，下一步的任务是探索 SeamlessM4T 如何作为新通信能力的基础，让我们更接近一个人人都能被理解的世界。（终于消除语言隔阂了吗）

如果您有什么想说的，欢迎屏幕前你们在评论区留言讨论！我们将为点赞、评论、关注的同学们送上红包不限量哟~

扫除人类语言障碍！Meta发布全新 AI 模型，支持近百种语言的翻译和转录

扫除人类语言障碍！Meta发布全新 AI 模型，支持近百种语言的翻译和转录

江西省红十字会向新疆阿克陶县捐赠爱心款物

怎么添加公众号 微信公众号怎么添加公众号

怎样聊天才能让人喜欢（怎样聊天才能让人有兴趣聊下去）

中国人寿保单贷款利率是多少（中国人寿保单贷款）

从男足到女足！西班牙足球演绎一场跨越13年的接力

止痒清爽洗发水控油去屑?专家品鉴

大枪装备选择_大枪装备

8月22日中国汽、柴油平均批发价格分别为9211、8154元/吨

乌克兰总统泽连斯基会见塞尔维亚总统武契奇 具体是怎么回事？

欢乐佤谷门票多少钱

国电电力于秦皇岛设子公司，含海洋能系统与设备制造业务

美腾科技上半年营收增长37.31%，股权激励计划擘画高增长蓝图

2023年全国早稻产量同比增长0.8% 单产小幅增长

一岁孩子怎么教育

判给母亲抚养费是多少

硅业分会：本周N-P价差进一步拉大 后市仍有上涨空间

江苏兴化发现距今约7000年的新石器遗址

青海发布公告：私自探险、穿越无人区等被困救援费用由相关人员全额承担

中华优秀传统文化内容成为中国出版集团参加2023上海书展的突出亮点

闵行医疗专家“组团式”帮扶，从门诊到手术，从看病到科普……丨一家亲

追梦：我选秀试训统治级表现，大部分总经理太蠢了不选我

全省首家“民营企业服务站”挂牌成立

14本已完结轻松欢乐风奥特曼元素小说，相信光的力量，这真是光？

梅西：还没有考虑退役，在巴黎时特别想念在巴萨的时光

青云科技：8月22日融资净买入327.5万元，连续3日累计净买入700.54万元

进口大众abs传感器故障，大众abs传感器故障症状

白色的花有哪些品种名称 白色的花有哪些

《第八个嫌疑人》曝“正邪交锋”预告，执着警察21年拼命追凶

英国政府拟邀请马斯克与贝索斯出席11月全球投资峰会

河北丰南：情牵红线 “夕”结良缘

景顺投资公司表示美联储在杰克逊霍尔会议上可能会偏向鹰派立场

这个七夕，一起看四团的爷叔、嬢嬢们集体“穿越”！

一图了然|接到96110来电千万不要挂！还有这些电话也要关注......

斗罗：雪清河闪亮登场，非常钟意唐三，一见面就先给足了面子

根本舍不得吃！村民种出长59厘米重超4斤黄瓜

缓释资金压力 给房企更多定价空间

2023中国肥胖地图发布：近半成年男性超重

泰国11个政党宣布联盟组建新政府 具体什么情况？

三变科技：目前公司经营情况正常

千行百业可低门槛使用AI：调用一次大模型不到5分钱

西延铁路西安枢纽联络线：以实战演练提升防洪能力

“网格化”服务，让乌达电力“满格”！

安集科技（688019）8月22日主力资金净卖出183.87万元

英语我爱你怎么写大写（英语我爱你怎么写）

哪种早教机最适合我的孩子？ 速看

食梦者结局（关于食梦者结局的介绍）

天气预报 | 未来三天局地阵雨“打酱油” 17日全市最高气温或达40

【智能驾驶】面向2025年智能底盘平台定义框架内容发布|源文件附下载

3000点保卫战将打响，保大保小？

兔 宝 宝：8月22日融资买入1269.55万元，融资融券余额1.83亿元

物流板块异动下跌 长久物流触及跌停

东北制药上半年实现净利润1.35亿元 同比增长近两成

泉阳泉上半年营收超6亿元，矿泉水板块增长超16%

加油！男篮将乘坐今日13点55分的航班直飞马尼拉 开启世界杯征程

范子铭签四年顶薪缘由出炉！今夏减重20斤+强化投篮，却存在2隐患

瑞丰银行半年报出炉！上半年净利润同比增长16.8%

地下城气功师带什么武器_气功带什么武器

野坂参三原 野坂参三

赛力斯：融资净买入368.01万元，融资余额13.89亿元（08-22）

豪鹏科技：接受鹏华基金管理有限公司等机构调研

宝能地产所持百亿股权被冻结

法律护成长，普法我先行！“小记者”走进商丘市人民检察院青少年法治教育基地

玉渊谭天丨夏威夷的不幸，在于做美国第50个州

直播预告｜8月24日（周四）12:00，普陀专家带你了解近视防控

OpenAI 爬虫GPTBot被知名出版物屏蔽

事业型小枣！刘诗雯出席国际乒联会议

七夕佳节 贵州各地政务服务中心结婚登记处“甜度”爆表

俄安全部门高官：日本正在美国的带领下走上一条军事化路线

1:2.5水泥砂浆和1:3水泥砂浆的区别_水泥砂浆和混凝土的区别

儿童文学《我们如此勇敢》诠释勇敢的多重含义

信隆健康：截止2023年8月18日股东总数为20,525名

小米6x怎么打开usb调试模式（小米6x怎么打开usb调试）

推进“三北”等重点生态工程建设 内蒙古东部草原沙地综合治理二期项目启动

《孤注一掷》有4处删改，票房会破39亿，陈思诚的预言，正在成真

这，是无锡的另一面~

湖北省首个超大型城市综合体污水源供冷供热项目即将投入使用 每年可减排二氧化碳15678吨

乙二醛商品报价动态（2023-08-22）

桃子为什么被称为肺之果？为什么桃子能加强肺功能？一文读懂

怎么添加公众号微信公众号怎么添加公众号

乌克兰总统泽连斯基会见塞尔维亚总统武契奇具体是怎么回事？

硅业分会：本周N-P价差进一步拉大后市仍有上涨空间

白色的花有哪些品种名称白色的花有哪些

缓释资金压力给房企更多定价空间

泰国11个政党宣布联盟组建新政府具体什么情况？

哪种早教机最适合我的孩子？速看

兔宝宝：8月22日融资买入1269.55万元，融资融券余额1.83亿元

物流板块异动下跌长久物流触及跌停

东北制药上半年实现净利润1.35亿元同比增长近两成

加油！男篮将乘坐今日13点55分的航班直飞马尼拉开启世界杯征程

野坂参三原野坂参三

七夕佳节贵州各地政务服务中心结婚登记处“甜度”爆表

推进“三北”等重点生态工程建设内蒙古东部草原沙地综合治理二期项目启动

湖北省首个超大型城市综合体污水源供冷供热项目即将投入使用每年可减排二氧化碳15678吨

博菲电气(001255.SZ)：上半年净利润3015.9万元同比下降19.42%

中国商联直播电商委吴卫红会长走访调研网盛大厦及热度电商天玑会展考古加芝士文化等杭州直播电商企业

长龄液压：敬的截至2023年8月18日，公司的股东数14864

中国铝业上半年实现净利润34.17亿元主要产品氧化铝、原铝价格均有下跌

北京周六福8月21日消息：黄金594元/克铂金393元/克

小面花大梦想

【理论】挖掘历史文化资源推动天水文旅发展

火车票要取票吗火车票要取票吗现在

北交所优化新股发行上市流程整体用时缩减约20%

热带风暴“希拉里”将登陆美国加州可能引发强风及洪水

二郎山风景名胜区二郎山

如懿传中凌云彻加官进爵是什么刑法加官进爵是什么刑法凌云彻遭蒙面窒息而死

因能源价格大跌德国7月PPI降幅超预期

徐州把子肉的做法最正宗的做法（把子肉的做法最正宗的做法）