今天给大家简单介绍阿里巴巴旗下最新的8大AI大模型,它们包括文本转语音模型、病毒基础大模型、同传大模型、视觉语言模型、安全防护模型等等!
Qwen3-Omni 是阿里通义团队推出的业界首个原生端到端全模态 AI 模型,具备无缝处理文本、图像、音频和视频等多种模态数据的能力。在 36 项音频及音视频基准测试中,该模型在 22 项上达到当前最优(SOTA)水平,展现出卓越的多模态理解与生成性能。同时,Qwen3-Omni 支持 119 种语言的文本处理,具备全球化语言支持能力,满足多语种应用场景需求。
模型响应延迟低至 211 毫秒,具备高度可控性,支持系统提示词自定义,并内置强大的工具调用功能,提升实际应用中的灵活性与扩展性。为推动技术共享与生态发展,Qwen 团队已开源多个版本,包括 Qwen3-Omni-30B-A3B-Instruct、Qwen3-Omni-30B-A3B-Thinking 和 Qwen3-Omni-30B-A3B-Captioner,助力科研与产业创新。
1、项目官网:https://qwen.ai/blog?id=65f766fc2dcba7905c1cb69cc4cab90e94126bf4&from=research.latest-advancements-list
2、GitHub仓库:https://github.com/QwenLM/Qwen3-Omni
3、HuggingFace模型库:https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe
4、技术论文:https://github.com/QwenLM/Qwen3-Omni/blob/main/assets/Qwen3_Omni.pdf
Qwen3-TTS-Flash 是阿里通义推出的旗舰级语音合成模型,支持多音色、多语言及多方言,具备卓越的语音稳定性与表现力。模型在中文与英文语音合成方面表现尤为出色,同时在多语言场景下也展现出优异性能。
Qwen3-TTS-Flash 提供 17 种高品质音色,每种音色支持 10 种语言,并覆盖多种中文方言,包括普通话、粤语、闽南语等,满足多样化语音合成需求。模型具备智能语气调节能力,可根据输入文本自动适配语调与情感,对复杂语境文本保持高度鲁棒性。
在性能方面,Qwen3-TTS-Flash 首包延迟低至 97 毫秒,响应迅速,生成高效,适用于实时语音交互场景。目前,模型已通过 Qwen API 开放访问,为开发者和企业提供自然、流畅且富有表现力的语音合成服务。
1、项目官网:https://qwen.ai/blog?id=b4264e11fb80b5e37350790121baf0a0f10daf82&from=research.latest-advancements-list
2、在线体验Demo:https://huggingface.co/spaces/Qwen/Qwen3-TTS-Demo
Qwen3-LiveTranslate 是阿里通义团队打造的基于大语言模型的多语言实时音视频同传模型,支持 18 种主流语言及粤语、闽南语等多种方言。模型采用视觉增强技术,可融合口型、动作、画面文字等多模态信息,在嘈杂、混响等复杂声学环境下依然保持高准确率。凭借最低 3 秒的低延迟与无损同传算法,翻译质量逼近离线水平,同时输出自然音色,让跨语种交流实时、流畅、近乎无感。现已开放接口,直播、会议、课堂一键接入,跨越语言鸿沟,即刻开口即达。
1、项目官网:https://qwen.ai/blog?id=b2de6ae8555599bf3b87eec55a285cdf496b78e4&from=research.latest-advancements-list
2、在线体验Demo:https://huggingface.co/spaces/Qwen/Qwen3-Livetranslate-Demo
Qwen3-VL——阿里通义迄今最强的视觉语言模型,用一套参数同时吃透文本、图像与长视频。旗舰款 Qwen3-VL-235B-A22B 提供 Instruct/Thinking 双形态:Instruct 在视觉感知基准全线刷榜,Thinking 在多模态推理任务领先同级。
模型具备原生空间坐标与长上下文记忆,可像人一样点按界面、把 Figma 草稿秒变前端代码,也能在多语言 OCR、长视频问答、创意文案生成中一键到位。教育批改、RPA 自动化、开发提效等场景即插即用,稳居当前多模态第一梯队。
1、项目官网:https://qwen.ai/blog?id=99f0335c4ad9ff6153e517418d48535ab6d8afef&from=research.latest-advancements-list
2、GitHub仓库:https://github.com/QwenLM/Qwen3-VL
3、HuggingFace模型库:https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe
4、官网体验:https://chat.qwen.ai/
Qwen3-Max——Qwen 系列首个万亿参数巨兽,36 T tokens 预训练打底,文本、代码、推理三维拉满。预览版 Qwen3-Max-Instruct 已登上 LMArena 全球前三,代码生成与工具调用双双反超 GPT-5-Chat;同代 Thinking 形态在高难数学基准拿下满分,推理深度再破天花板。API 现已开放,Qwen Chat 与阿里云平台一键接入,即刻体验迄今最强的 Qwen 火力。
项目官网:https://qwen.ai/blog?id=241398b9cd6353de490b0f82806c7848c5d2777d&from=research.latest-advancements-list
LucaVirus 是阿里巴巴云 LucaGroup 研发的专为病毒设计的统一核酸 – 蛋白质语言模型。在 254 亿个核苷酸和氨基酸标记上训练,涵盖几乎所有已知病毒。模型可学习核苷酸和氨基酸序列间的关系等生物学上有意义的表示,基于此开发的下游模型能应对病毒学关键挑战,如识别基因组“暗物质”中的病毒、表征未知蛋白质酶活性、预测病毒进化能力、发现针对新病毒的抗体药物等,在相关任务上表现出色。其蛋白质嵌入能高分辨率区分蛋白质家族,嵌入距离与遗传距离相关性强,进化信息丰富,在抗体 – 抗原结合预测上性能优异,准确率等指标超过现有模型和基于结构的预测方法。
1、Github仓库:https://github.com/LucaOne/LucaVirus
2、HuggingFace模型库:https://huggingface.co/collections/LucaGroup/lucavirus-689d9382d0cc09780f380958
Qwen3Guard 是阿里通义团队推出的 Qwen 家族中首款专为安全防护设计的护栏模型,基于强大的 Qwen3 基础架构打造。模型针对安全分类任务进行专项微调,能高效识别用户输入提示和模型生成回复中的潜在风险,输出细粒度的风险等级与分类标签。
Qwen3Guard 提供两大专业版本,Qwen3Guard-Gen(生成式版)和 Qwen3Guard-Stream(流式检测版),分别适用离线数据集的安全标注与在线服务的实时安全检测。
Qwen3Guard支持 119 种语言及方言,全面覆盖多语言场景,为人工智能交互提供精准、可靠的安全保障。
1、项目官网:https://qwen.ai/blog?id=f0bbad0677edf58ba93d80a1e12ce458f7a80548&from=research.research-list
2、GitHub仓库:https://github.com/QwenLM/Qwen3Guard
3、HuggingFace模型库:https://huggingface.co/collections/Qwen/qwen3guard-68d2729abbfae4716f3343a1
4、技术论文:https://github.com/QwenLM/Qwen3Guard/blob/main/Qwen3Guard_Technical_Report.pdf
通义万相 2.5-Preview(Wan2.5)——阿里新一代原生多模态生成引擎,一套权重打通文生视频、图生视频、文生图与一键图像编辑四大场景。首次支持 1080P/24 fps 音画同步:画面一出,人声、音效、BGM 自动对齐,中英文艺术字、复杂图表、商业海报即刻成片。文本、音频双驱动,零门槛秒级出片,广告、电商、影视素材即拿即用,现已在通义万相官网与阿里云百炼平台开放体验。
标签:
AI语言翻译二次元漫画AI企业服务思维导图新媒运营AI图像处理AI提示词教育学习AIGC生活服务AI三维生成短剧搜索媒体运营pdf转换电影资源