5个免费的AI大模型工具和软件

1、OmniWeaving视频生成框架 -

标签：腾讯AI,混元AI大模型,浙江大学,南洋理工大学,视频生成框架 OmniWeaving是由浙江大学、腾讯混元、南洋理工大学联合推出的统一视频生成框架，突破传统开源模型单一任务局限，实现多模态自由组合与推理增强生成。

OmniWeaving是由浙江大学、腾讯混元、南洋理工大学联合推出的统一视频生成框架，突破传统开源模型单一任务局限，实现多模态自由组合与推理增强生成，可对交错图文视频进行时序绑定，输出连贯内容，更以“智能导演”模式主动理解复杂创作意图。

框架采用MLLM语义理解、MMDiT生成、VAE编码三大核心组件架构，同步推出IntelligentVBench评估基准，在开源统一视频模型中实现SoTA性能，为缩小开源与商业视频生成技术差距提供重要开源方案。

OmniWeaving视频生成框架-1

OmniWeaving核心功能：

1、统一多模态生成：

单框架无缝融合文本、多图、视频输入，支持交错式自由组合，覆盖多样化视频生成任务，摆脱传统单一任务模型的碎片化问题。

2、时序绑定生成：

对跨模态内容进行时序对齐与绑定，生成逻辑连贯、过渡自然的动态视频。

3、推理增强创作：

依托MLLM“思考模式”主动推断模糊与复杂意图，像专业导演自主规划镜头与叙事，从被动渲染升级为主动创作。

4、高级语义理解：

通过多模态大模型将自由输入映射至高级语义空间，结合扩散Transformer生成精细可控的视频内容。

5、端到端视频生成：

实现从语义理解到视频输出一体化流程，支持角色一致性、风格迁移等复杂需求，在IntelligentVBench上达到开源模型顶尖水平。

OmniWeaving视频生成框架-2

OmniWeaving核心优势：

1、统一全能：

单框架支持文生视频、图生视频、多图组合、视频编辑等六大类任务，替代多专用模型组合，实现全流程统一生成。

2、自由组合：

突破固定输入格式限制，支持1–4张图像、视频片段与文本交错输入，通过时序绑定理解时空关系，实现深度融合而非简单拼接。

3、推理增强：

开启MLLM思考模式后，模型从指令执行器升级为“智能导演”，自动补全镜头与叙事，大幅降低提示词工程难度。

4、深度语义注入：

采用DeepStacking机制提取MLLM多粒度语义特征并注入生成网络，兼顾像素级细节与高层语义对齐，缓解多主体生成细节丢失问题。

OmniWeaving使用方式：

1、环境准备：

从GitHub克隆仓库，安装`requirements.txt`依赖，可选安装Flash Attention / SageAttention加速推理。

2、模型下载：

在HuggingFace下载腾讯混元HY-OmniWeaving模型权重至本地指定目录。

3、文生视频（t2v）：

输入文本描述、设置画幅与输出路径，可开启思考模式，让模型先推理意图再生成。

4、图生视频（i2v）：

传入首帧图片与动作描述，由静态图像生成动态视频。

5、首尾帧插值（interpolation）：

输入起止帧与过渡文本，自动补全中间画面，生成流畅过渡视频。

6、多图组合生成（reference2v）：

上传1–4张参考图（人物、场景、道具等），配合文本实现多元素融合视频创作。

7、视频编辑（editing）：

上传原视频并输入编辑指令（风格转换、物体替换等），完成智能修改。

8、图文视频联合编辑（tiv2v）：

同时输入视频与参考图，将参考视觉元素融合进动态场景。

OmniWeaving视频生成框架-3

OmniWeaving项目网址：

1、项目官网：https://omniweaving.github.io/

2、GitHub仓库：https://github.com/Tencent-Hunyuan/OmniWeaving

3、HuggingFace模型库：https://huggingface.co/tencent/HY-OmniWeaving

4、arXiv技术论文：https://arxiv.org/pdf/2603.24458

OmniWeaving应用场景：

1、影视广告创意：

文本快速生成分镜预演视频，自由组合角色、场景、道具参考图生成完整广告片。

2、电商动态展示：

产品白底图+场景图自动生成使用场景视频，结合用户照片实现虚拟试穿等个性化效果。

3、社媒内容创作：

静态照片转为动态视频，让老照片“动起来”；基于首尾帧插值快速制作循环动画与表情包。

4、游戏动画资产：

角色设计图+动作描述直接生成动画片段，关键帧自动补全中间画，加速过场与场景切换制作。

2、New API

标签：AI大模型,AI网关,AI基座平台网址：https://www.newapi.ai新一代网关与资产管理系统，作为通用AI基座平台，通过统一基础设施，一站式接入全球30+主流AI服务，包括OpenAI、Claude、Gemini、DeepSeek等。

New API是面向AI服务的新一代网关与资产管理系统，作为通用AI基座平台，通过统一基础设施，一站式接入全球30+主流AI服务，包括OpenAI、Claude、Gemini、DeepSeek等。平台具备OpenAI兼容接口、智能路由负载均衡、精细化计费、权限管控与实时数据看板等核心能力，同时支持多格式转换、推理强度控制、缓存计费等高级特性。项目采用AGPLv3开源协议，支持Docker一键部署，可灵活适配个人开发者至企业级多租户场景。

New API官网：新一代AI网关与资产管理平台

New API核心功能：

1、统一接口管理：

提供兼容OpenAI格式的统一API入口，实现全球30+主流AI服务商无缝接入，无需针对不同平台单独适配。

2、智能路由调度：

支持多渠道负载均衡、故障自动容灾切换及加权随机分发，保障服务高可用与稳定调用。

3、精细化计费体系：

支持按次/按量计费、预付费充值、多倍率定价及缓存计费，满足多样化成本管理需求。

4、安全权限管控：

提供令牌分组、模型访问限制、API调用审计与多平台授权登录，实现全链路安全与权限隔离。

5、多格式智能转换：

支持OpenAI、Claude Messages、Google Gemini等主流API格式相互转换，降低接入改造成本。

6、推理强度可控：

通过模型名称后缀灵活配置高、中、低多档推理思考强度，兼顾效果与成本。

7、实时数据看板：

提供可视化控制台、用量统计分析与成本监控，实现调用与消耗数据一站式洞察。

New API部署与使用流程：

1、部署安装：

克隆项目仓库，修改配置文件后通过Docker命令启动服务，访问默认3000端口即可进入管理系统。

2、初始配置：

登录后台设置管理员账号，在渠道管理中添加各AI服务商API Key，并配置权重与故障切换策略。

3、创建访问凭证：

在令牌管理模块生成API Key，可设置额度限制、有效期及可用模型范围，实现不同场景权限独立管控。

4、业务接入：

将应用API基础地址指向New API部署地址，使用生成令牌替换原密钥，保持OpenAI标准格式即可无缝调用多平台模型。

3、《动手学大模型》系列编

标签：实践教程,编程教程,AI大模型,上海交通大学网址：https://github.com/Lordog/dive-into-llms该项目还联合华为昇腾推出了国产化《大模型开发全流程》系列课程，覆盖初级、中级、高级不同阶段，提供PPT、实验手册、视频等多形式教程，基于昇腾基础软硬件讲解大模型全流程开发与调

《动手学大模型》是由上海交通大学《自然语言处理前沿技术》《人工智能安全技术》课程讲义拓展而来的公益性质免费编程实践教程，旨在通过简单易懂的实践内容，帮助学习者快速入门大模型相关技术，为课程设计、学术研究提供入门级编程参考。该项目还联合华为昇腾推出了国产化《大模型开发全流程》系列课程，覆盖初级、中级、高级不同阶段，提供PPT、实验手册、视频等多形式教程，基于昇腾基础软硬件讲解大模型全流程开发与调优。

项目仓库地址：https://github.com/Lordog/dive-into-llms

《动手学大模型》系列编程实践教程

动手学大模型项目特点：

1、内容体系完整且前沿：

教程覆盖大模型全链路核心技术，从基础的模型微调部署，到进阶的提示学习、知识编辑、数学推理，再到前沿的多模态模型、GUI智能体、智能体安全、RLHF安全对齐等方向，还包含模型水印、大模型隐写、越狱攻击等安全相关内容，形成“基础实践+前沿探索+安全研究”的完整体系。

2、实战导向性强：

每个教程模块均配套**课件、详细教程文档、可运行的脚本（IPython Notebook）**，从环境搭建、工具使用到代码实践、效果验证全流程覆盖，例如：

- 微调与部署模块讲解Transformers工具包使用、Gradio Spaces部署Demo；

- 提示学习模块提供通义千问/智谱AI/OpenAI等API调用实操；

- 多模态模型模块拆解NExT-GPT代码框架，讲解训练、推理全流程。

3、国产化适配与公益属性：

- 核心教程完全免费，无商业门槛；

- 联合华为昇腾推出国产化大模型开发教程，适配昇腾软硬件体系，提供从模型迁移到调优的全流程指南；

- 兼容国产大模型接口（通义千问、智谱AI、文心一言等），降低海外工具依赖。

4、结构清晰易导航：

项目README按“项目动机-教程目录-贡献者”逻辑组织，各章节教程目录标注明确的学习目标、前置准备、实践步骤，配套延伸阅读（论文、视频、开源项目），便于不同基础的学习者按需学习。

动手学大模型应用场景：

1、高校教学与学习：

- 作为高校自然语言处理、人工智能安全等课程的配套实践材料，帮助学生理解大模型理论并落地编程实践；

- 适合大模型零基础学习者入门，快速掌握核心技术栈（如微调、提示工程、多模态建模）。

2、开发者技术落地：

- 企业/个人开发者可参考教程完成大模型微调、部署（如基于Gradio搭建在线Demo）、多模态模型构建、GUI智能体开发（点外卖、购物比价等场景）；

- 国产化大模型开发教程可指导开发者基于昇腾平台完成模型迁移、调优与落地。

3、学术研究与创新：

- 覆盖大模型隐写、水印、越狱攻击、智能体安全、RLHF对齐等前沿研究方向，提供基础代码框架与实验思路；

- 多模态模型模块讲解NExT-GPT等前沿架构，为多模态AGI方向研究提供参考。

4、大模型安全相关应用：

- 可用于大模型智能体安全测评、风险监测，例如智能体行为风险识别、越狱攻击防御、RLHF安全对齐验证；

- 模型水印、隐写技术可应用于大模型生成内容的溯源、版权保护。

5、行业解决方案开发：

- GUI智能体模块可拓展至自动化办公（自动回消息、购物比价）、生活服务（AI点外卖）等场景；

- 多模态模型模块可支撑跨模态理解/生成类应用（图文音视频混合交互、多模态内容创作）。

4、AngelSlim压缩工具包模型，

标签：腾讯AI,混元AI大模型,压缩工具,HuggingFace AngelSlim深度集成FP8/INT8/INT4、GPTQ、AWQ等主流压缩策略，支持端到端压缩与无缝部署，产出模型可直接对接vLLM、Sglang等高性能推理框架。

AngelSlim是腾讯混元团队自研并开源的全模态大模型压缩工具套件，通过量化、投机采样、稀疏化、知识蒸馏等技术，为大语言模型（LLM）、视觉语言模型（VLM）及语音模型提供高效、易用、一键式的压缩与推理加速方案。

工具深度集成FP8/INT8/INT4、GPTQ、AWQ等主流压缩策略，支持端到端压缩与无缝部署，产出模型可直接对接vLLM、Sglang等高性能推理框架。本次重磅升级推出首创Eagle3架构，将投机采样首次拓展至全模态场景，实测推理速度最高提升1.4–1.9倍。目前已兼容混元、DeepSeek、Qwen等主流模型生态，开发者可通过pip install angelslim一键安装。

AngelSlim压缩工具包模型，腾讯混元AI自研开源全模态大模型

AngelSlim核心功能：

1、多精度量化压缩：

支持FP8、INT8、INT4量化，集成GPTQ、AWQ等先进算法，显著降低模型显存与存储开销。

2、投机采样推理加速：

首创Eagle3训练架构，由小模型生成多步候选token，大模型并行验证，速度最高提升1.4–1.9倍。

3、全模态统一支持：

覆盖LLM、VLM、语音模型（ASR/TTS），业内首次实现投机采样全模态落地。

4、稀疏化与知识蒸馏：

提供结构化/非结构化稀疏剪枝与知识蒸馏，进一步压缩体积并保持能力。

5、一键式调用与低门槛使用：

提供极简API，屏蔽底层复杂度，大幅降低开发者使用成本。

6、无缝对接推理框架：

压缩后模型可直接接入vLLM、Sglang等生态，实现“压缩→训练→部署”全链路打通。

7、主流模型生态兼容：

全面支持Hunyuan、DeepSeek、Qwen、Qwen2.5VL、Qwen3-Omni等开源模型。

AngelSlim技术原理：

1、量化压缩：

将高精度权重（FP16/FP32）映射到低精度格式（INT4/INT8/FP8），结合GPTQ/AWQ最小化精度损失。

2、投机采样（Speculative Decoding）：

小模型批量起草候选token，大模型一次性并行验证接受/修正，突破串行解码性能瓶颈。

3、Eagle3前瞻架构：

增强草稿模型多步预测能力，提升单次验证接受长度至1.8–3.5倍，进一步提升加速比。

4、知识蒸馏：

将教师模型的输出分布与隐层特征迁移至学生模型，实现小模型继承大模型效果。

5、结构化/非结构化稀疏：

剪除冗余权重与神经元，降低计算量，适配硬件加速。

6、全模态统一压缩框架：

跨文本、图像、语音设计统一压缩接口与适配层，实现技术能力复用。

AngelSlim项目地址：

1、GitHub项目地址：https://github.com/Tencent/AngelSlim

2、Hugging Face模型库：https://huggingface.co/collections/AngelSlim

AngelSlim应用场景：

1、云端大模型推理加速：降低千亿级模型显存占用，提升高并发服务吞吐量。

2、端侧轻量化部署：INT4/INT8量化使模型可在手机、IoT等设备离线运行，保护隐私。

3、多模态AI应用加速：加速图文理解、语音转录/合成，赋能智能客服、审核、实时翻译。

4、AIGC生成提效：显著降低首包延迟与生成时间，提升写作、代码、图文描述体验。

5、企业私有化降本：压缩模型后本地部署，大幅减少算力成本，构建高性价比AI中台。

5、岩芯数智

标签：人工智能,AI大模型网址：https://www.rockai.netDolphin模型则提供智能对话、文章生成、文案摘要等功能，支持私域模型微调，以满足不同行业的需求。

岩芯数智是一家专注于人工智能技术研发与落地的科技企业，聚焦为各行业提供高效、高性价比的智能模型解决方案，核心产品涵盖国产化多模态大模型Yan模型与多功能应用型模型Dolphin模型。Yan模型以“训练周期短、数据集需求小、性价比高”为核心优势，助力产业链快速、低成本完成智能化升级；Dolphin模型则主打智能对话、文章生成、文案摘要等实用功能，支持私域模型微调，精准适配不同行业的个性化需求。

岩芯数智