AI工作站

5个免费的AI大模型工具和软件

1、OmniWeaving视频生成框架 -

OmniWeaving视频生成框架 -

标签: 腾讯AI,混元AI大模型,浙江大学,南洋理工大学,视频生成框架 OmniWeaving是由浙江大学、腾讯混元、南洋理工大学联合推出的统一视频生成框架,突破传统开源模型单一任务局限,实现多模态自由组合与推理增强生成。

OmniWeaving是由浙江大学、腾讯混元、南洋理工大学联合推出的统一视频生成框架,突破传统开源模型单一任务局限,实现多模态自由组合与推理增强生成,可对交错图文视频进行时序绑定,输出连贯内容,更以“智能导演”模式主动理解复杂创作意图。

框架采用MLLM语义理解、MMDiT生成、VAE编码三大核心组件架构,同步推出IntelligentVBench评估基准,在开源统一视频模型中实现SoTA性能,为缩小开源与商业视频生成技术差距提供重要开源方案。

OmniWeaving视频生成框架-1

OmniWeaving核心功能:

1、统一多模态生成

单框架无缝融合文本、多图、视频输入,支持交错式自由组合,覆盖多样化视频生成任务,摆脱传统单一任务模型的碎片化问题。

2、时序绑定生成

对跨模态内容进行时序对齐与绑定,生成逻辑连贯、过渡自然的动态视频。

3、推理增强创作

依托MLLM“思考模式”主动推断模糊与复杂意图,像专业导演自主规划镜头与叙事,从被动渲染升级为主动创作。

4、高级语义理解

通过多模态大模型将自由输入映射至高级语义空间,结合扩散Transformer生成精细可控的视频内容。

5、端到端视频生成

实现从语义理解到视频输出一体化流程,支持角色一致性、风格迁移等复杂需求,在IntelligentVBench上达到开源模型顶尖水平。

OmniWeaving视频生成框架-2

OmniWeaving核心优势:

1、统一全能

单框架支持文生视频、图生视频、多图组合、视频编辑等六大类任务,替代多专用模型组合,实现全流程统一生成。

2、自由组合

突破固定输入格式限制,支持1–4张图像、视频片段与文本交错输入,通过时序绑定理解时空关系,实现深度融合而非简单拼接。

3、推理增强

开启MLLM思考模式后,模型从指令执行器升级为“智能导演”,自动补全镜头与叙事,大幅降低提示词工程难度。

4、深度语义注入

采用DeepStacking机制提取MLLM多粒度语义特征并注入生成网络,兼顾像素级细节与高层语义对齐,缓解多主体生成细节丢失问题。

OmniWeaving使用方式:

1、环境准备

从GitHub克隆仓库,安装`requirements.txt`依赖,可选安装Flash Attention / SageAttention加速推理。

2、模型下载

在HuggingFace下载腾讯混元HY-OmniWeaving模型权重至本地指定目录。

3、文生视频(t2v)

输入文本描述、设置画幅与输出路径,可开启思考模式,让模型先推理意图再生成。

4、图生视频(i2v)

传入首帧图片与动作描述,由静态图像生成动态视频。

5、首尾帧插值(interpolation)

输入起止帧与过渡文本,自动补全中间画面,生成流畅过渡视频。

6、多图组合生成(reference2v)

上传1–4张参考图(人物、场景、道具等),配合文本实现多元素融合视频创作。

7、视频编辑(editing)

上传原视频并输入编辑指令(风格转换、物体替换等),完成智能修改。

8、图文视频联合编辑(tiv2v)

同时输入视频与参考图,将参考视觉元素融合进动态场景。

OmniWeaving视频生成框架-3

OmniWeaving项目网址:

1、项目官网:https://omniweaving.github.io/

2、GitHub仓库:https://github.com/Tencent-Hunyuan/OmniWeaving

3、HuggingFace模型库:https://huggingface.co/tencent/HY-OmniWeaving

4、arXiv技术论文:https://arxiv.org/pdf/2603.24458

OmniWeaving应用场景:

1、影视广告创意

文本快速生成分镜预演视频,自由组合角色、场景、道具参考图生成完整广告片。

2、电商动态展示

产品白底图+场景图自动生成使用场景视频,结合用户照片实现虚拟试穿等个性化效果。

3、社媒内容创作

静态照片转为动态视频,让老照片“动起来”;基于首尾帧插值快速制作循环动画与表情包。

4、游戏动画资产

角色设计图+动作描述直接生成动画片段,关键帧自动补全中间画,加速过场与场景切换制作。

2、New API

New API

标签:AI大模型,AI网关,AI基座平台 网址:https://www.newapi.ai新一代网关与资产管理系统,作为通用AI基座平台,通过统一基础设施,一站式接入全球30+主流AI服务,包括OpenAI、Claude、Gemini、DeepSeek等。

New API是面向AI服务的新一代网关与资产管理系统,作为通用AI基座平台,通过统一基础设施,一站式接入全球30+主流AI服务,包括OpenAI、Claude、Gemini、DeepSeek等。平台具备OpenAI兼容接口、智能路由负载均衡、精细化计费、权限管控与实时数据看板等核心能力,同时支持多格式转换、推理强度控制、缓存计费等高级特性。项目采用AGPLv3开源协议,支持Docker一键部署,可灵活适配个人开发者至企业级多租户场景。

New API官网:新一代AI网关与资产管理平台

New API核心功能:

1、统一接口管理

提供兼容OpenAI格式的统一API入口,实现全球30+主流AI服务商无缝接入,无需针对不同平台单独适配。

2、智能路由调度

支持多渠道负载均衡、故障自动容灾切换及加权随机分发,保障服务高可用与稳定调用。

3、精细化计费体系

支持按次/按量计费、预付费充值、多倍率定价及缓存计费,满足多样化成本管理需求。

4、安全权限管控

提供令牌分组、模型访问限制、API调用审计与多平台授权登录,实现全链路安全与权限隔离。

5、多格式智能转换

支持OpenAI、Claude Messages、Google Gemini等主流API格式相互转换,降低接入改造成本。

6、推理强度可控

通过模型名称后缀灵活配置高、中、低多档推理思考强度,兼顾效果与成本。

7、实时数据看板

提供可视化控制台、用量统计分析与成本监控,实现调用与消耗数据一站式洞察。

New API部署与使用流程:

1、部署安装

克隆项目仓库,修改配置文件后通过Docker命令启动服务,访问默认3000端口即可进入管理系统。

2、初始配置

登录后台设置管理员账号,在渠道管理中添加各AI服务商API Key,并配置权重与故障切换策略。

3、创建访问凭证

在令牌管理模块生成API Key,可设置额度限制、有效期及可用模型范围,实现不同场景权限独立管控。

4、业务接入

将应用API基础地址指向New API部署地址,使用生成令牌替换原密钥,保持OpenAI标准格式即可无缝调用多平台模型。

3、《动手学大模型》系列编

《动手学大模型》系列编

标签:实践教程,编程教程,AI大模型,上海交通大学 网址:https://github.com/Lordog/dive-into-llms该项目还联合华为昇腾推出了国产化《大模型开发全流程》系列课程,覆盖初级、中级、高级不同阶段,提供PPT、实验手册、视频等多形式教程,基于昇腾基础软硬件讲解大模型全流程开发与调

《动手学大模型》是由上海交通大学《自然语言处理前沿技术》《人工智能安全技术》课程讲义拓展而来的公益性质免费编程实践教程,旨在通过简单易懂的实践内容,帮助学习者快速入门大模型相关技术,为课程设计、学术研究提供入门级编程参考。该项目还联合华为昇腾推出了国产化《大模型开发全流程》系列课程,覆盖初级、中级、高级不同阶段,提供PPT、实验手册、视频等多形式教程,基于昇腾基础软硬件讲解大模型全流程开发与调优。

项目仓库地址:https://github.com/Lordog/dive-into-llms

《动手学大模型》系列编程实践教程

动手学大模型项目特点:

1、内容体系完整且前沿

教程覆盖大模型全链路核心技术,从基础的模型微调部署,到进阶的提示学习、知识编辑、数学推理,再到前沿的多模态模型、GUI智能体、智能体安全、RLHF安全对齐等方向,还包含模型水印、大模型隐写、越狱攻击等安全相关内容,形成“基础实践+前沿探索+安全研究”的完整体系。

2、实战导向性强

每个教程模块均配套**课件、详细教程文档、可运行的脚本(IPython Notebook)**,从环境搭建、工具使用到代码实践、效果验证全流程覆盖,例如:

- 微调与部署模块讲解Transformers工具包使用、Gradio Spaces部署Demo;

- 提示学习模块提供通义千问/智谱AI/OpenAI等API调用实操;

- 多模态模型模块拆解NExT-GPT代码框架,讲解训练、推理全流程。

3、国产化适配与公益属性

- 核心教程完全免费,无商业门槛;

- 联合华为昇腾推出国产化大模型开发教程,适配昇腾软硬件体系,提供从模型迁移到调优的全流程指南;

- 兼容国产大模型接口(通义千问、智谱AI、文心一言等),降低海外工具依赖。

4、结构清晰易导航

项目README按“项目动机-教程目录-贡献者”逻辑组织,各章节教程目录标注明确的学习目标、前置准备、实践步骤,配套延伸阅读(论文、视频、开源项目),便于不同基础的学习者按需学习。

动手学大模型应用场景:

1、高校教学与学习

- 作为高校自然语言处理、人工智能安全等课程的配套实践材料,帮助学生理解大模型理论并落地编程实践;

- 适合大模型零基础学习者入门,快速掌握核心技术栈(如微调、提示工程、多模态建模)。

2、开发者技术落地

- 企业/个人开发者可参考教程完成大模型微调、部署(如基于Gradio搭建在线Demo)、多模态模型构建、GUI智能体开发(点外卖、购物比价等场景);

- 国产化大模型开发教程可指导开发者基于昇腾平台完成模型迁移、调优与落地。

3、学术研究与创新

- 覆盖大模型隐写、水印、越狱攻击、智能体安全、RLHF对齐等前沿研究方向,提供基础代码框架与实验思路;

- 多模态模型模块讲解NExT-GPT等前沿架构,为多模态AGI方向研究提供参考。

4、大模型安全相关应用

- 可用于大模型智能体安全测评、风险监测,例如智能体行为风险识别、越狱攻击防御、RLHF安全对齐验证;

- 模型水印、隐写技术可应用于大模型生成内容的溯源、版权保护。

5、行业解决方案开发

- GUI智能体模块可拓展至自动化办公(自动回消息、购物比价)、生活服务(AI点外卖)等场景;

- 多模态模型模块可支撑跨模态理解/生成类应用(图文音视频混合交互、多模态内容创作)。

4、AngelSlim压缩工具包模型,

AngelSlim压缩工具包模型,

标签:腾讯AI,混元AI大模型,压缩工具,HuggingFace AngelSlim深度集成FP8/INT8/INT4、GPTQ、AWQ等主流压缩策略,支持端到端压缩与无缝部署,产出模型可直接对接vLLM、Sglang等高性能推理框架。

AngelSlim是腾讯混元团队自研并开源的全模态大模型压缩工具套件,通过量化、投机采样、稀疏化、知识蒸馏等技术,为大语言模型(LLM)、视觉语言模型(VLM)及语音模型提供高效、易用、一键式的压缩与推理加速方案。

工具深度集成FP8/INT8/INT4、GPTQ、AWQ等主流压缩策略,支持端到端压缩与无缝部署,产出模型可直接对接vLLM、Sglang等高性能推理框架。本次重磅升级推出首创Eagle3架构,将投机采样首次拓展至全模态场景,实测推理速度最高提升1.4–1.9倍。目前已兼容混元、DeepSeek、Qwen等主流模型生态,开发者可通过pip install angelslim一键安装。

AngelSlim压缩工具包模型,腾讯混元AI自研开源全模态大模型

AngelSlim核心功能:

1、多精度量化压缩

支持FP8、INT8、INT4量化,集成GPTQ、AWQ等先进算法,显著降低模型显存与存储开销。

2、投机采样推理加速

首创Eagle3训练架构,由小模型生成多步候选token,大模型并行验证,速度最高提升1.4–1.9倍。

3、全模态统一支持

覆盖LLM、VLM、语音模型(ASR/TTS),业内首次实现投机采样全模态落地。

4、稀疏化与知识蒸馏

提供结构化/非结构化稀疏剪枝与知识蒸馏,进一步压缩体积并保持能力。

5、一键式调用与低门槛使用

提供极简API,屏蔽底层复杂度,大幅降低开发者使用成本。

6、无缝对接推理框架

压缩后模型可直接接入vLLM、Sglang等生态,实现“压缩→训练→部署”全链路打通。

7、主流模型生态兼容

全面支持Hunyuan、DeepSeek、Qwen、Qwen2.5VL、Qwen3-Omni等开源模型。

AngelSlim技术原理:

1、量化压缩

将高精度权重(FP16/FP32)映射到低精度格式(INT4/INT8/FP8),结合GPTQ/AWQ最小化精度损失。

2、投机采样(Speculative Decoding)

小模型批量起草候选token,大模型一次性并行验证接受/修正,突破串行解码性能瓶颈。

3、Eagle3前瞻架构

增强草稿模型多步预测能力,提升单次验证接受长度至1.8–3.5倍,进一步提升加速比。

4、知识蒸馏

将教师模型的输出分布与隐层特征迁移至学生模型,实现小模型继承大模型效果。

5、结构化/非结构化稀疏

剪除冗余权重与神经元,降低计算量,适配硬件加速。

6、全模态统一压缩框架

跨文本、图像、语音设计统一压缩接口与适配层,实现技术能力复用。

AngelSlim项目地址:

1、GitHub项目地址:https://github.com/Tencent/AngelSlim

2、Hugging Face模型库:https://huggingface.co/collections/AngelSlim

AngelSlim应用场景:

1、云端大模型推理加速:降低千亿级模型显存占用,提升高并发服务吞吐量。

2、端侧轻量化部署:INT4/INT8量化使模型可在手机、IoT等设备离线运行,保护隐私。

3、多模态AI应用加速:加速图文理解、语音转录/合成,赋能智能客服、审核、实时翻译。

4、AIGC生成提效:显著降低首包延迟与生成时间,提升写作、代码、图文描述体验。

5、企业私有化降本:压缩模型后本地部署,大幅减少算力成本,构建高性价比AI中台。

5、岩芯数智

岩芯数智

标签:人工智能,AI大模型 网址:https://www.rockai.netDolphin模型则提供智能对话、文章生成、文案摘要等功能,支持私域模型微调,以满足不同行业的需求。

岩芯数智是一家专注于人工智能技术研发与落地的科技企业,聚焦为各行业提供高效、高性价比的智能模型解决方案,核心产品涵盖国产化多模态大模型Yan模型与多功能应用型模型Dolphin模型。Yan模型以“训练周期短、数据集需求小、性价比高”为核心优势,助力产业链快速、低成本完成智能化升级;Dolphin模型则主打智能对话、文章生成、文案摘要等实用功能,支持私域模型微调,精准适配不同行业的个性化需求。

岩芯数智

岩芯数智核心产品特色:

1、Yan模型:国产化多模态高效智能引擎

支持多语言文案理解、文件信息精准提取,具备超低资源推理能力;训练周期短、对数据集要求低,性价比突出,助力企业快速完成智能化转型。

2、Dolphin模型:多功能应用型智能工具

覆盖智能对话、文章生成、文案摘要等核心功能,支持私域模型定制化微调,可深度适配金融、教育、零售等不同行业的业务需求。

3、智能问答与指令执行

整合海量知识库与行业数据,能完成复杂知识推理与精准问答;精准识别用户意图并执行对应指令,大幅提升工作流自动化程度。

4、智能巡检无人机

搭载端侧多模态大模型,实现巡检场景的自主识别、故障定位,适用于电力、交通、安防等领域,提升巡检的效率与准确度。

5、智能服务机器人

基于先进语音与图像识别技术,提供全天候拟人化接待、咨询、引导服务,广泛应用于商场、写字楼、政务大厅等场景。

6、个性化智能体定制

可根据行业与企业需求,打造专属个性化智能体,满足差异化的业务场景应用,拓展AI技术的落地边界。

7、100%自主知识产权

拥有完全自主研发的认知智能机器学习框架,技术自主可控,保障企业应用的安全性与稳定性。

岩芯数智快速上手教程:

1、访问官方平台

进入岩芯数智官方网站,了解各款智能模型与服务的详细信息。

2、注册登录账号

完成企业或个人账号注册与实名认证,登录服务管理后台。

3、选择适配服务

根据自身业务需求,挑选Yan模型、Dolphin模型或智能硬件等对应服务。

4、查阅使用指南

仔细阅读服务介绍与功能说明文档,了解产品能力与集成要求。

5、获取技术支持

联系平台客服或查看在线教程,获取模型集成、部署的专业指导。

6、启动使用服务

按照指导文档完成配置与调试,正式启用智能模型服务。

7、跟进版本更新

定期关注平台发布的模型更新与优化公告,及时升级服务,保持技术先进性。

岩芯数智典型应用场景:

1、电力智能巡检

电力公司部署岩芯数智智能巡检无人机,依托端侧多模态大模型实现线路自动巡检,精准识别故障隐患,大幅提升巡检效率与作业安全性。

2、商务智能接待

商务人员应用基于岩芯数智技术的服务机器人,提供全天候拟人化客户接待与咨询服务,优化客户交互体验,提升客户满意度。

3、企业内容生产

企业接入Yan模型开展文案生成、文件信息提取等工作,快速产出市场推广物料,显著提升内容生产效率,降低营销成本。

热门工具

最新工具

热门标签

二次元漫画办公软件学术论文效率工具电影资源AI开放平台扩展插件AI写作工具平台培训思维导图创意设计媒体运营AI思维导图AI法律服务电影下载在线学习平台学习OCR识别AI大模型知识百科