AI
工作站
更多 +
广告合作
免责声明
投稿须知
联系删除
生成桌面快捷方式
首页
工作流
AI视频
AI创作
AI绘画
AI墓地
更多
AI行业资讯
Seed-TTS:字节跳动开发的高质量、多功能的文本到语音(TTS)模型
Seed-TTS 是由字节跳动开发的一系列高质量、多功能的文本到语音(TTS)模型,旨在生成与人类语音极为相似的语音。
CosyVoice 2.0:阿里巴巴通义实验室开发的先进流式语音合成模型
CosyVoice 2.0 通过其强大的功能和灵活的应用场景,为语音合成领域带来了新的突破和可能性。
深度解读:清华大学DeepSeek从入门到精通,技术达人的进阶手册(附PDF文件)
清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室精心编写的《DeepSeek从入门到精通》PDF文件,为初学者和进阶用户提供了全面、系统的学习路径。
NutWorld:将日常单目视频高效地转换为动态3D高斯的新型视频处理框架
NutWorld 通过其创新的动态3D高斯表示和高效的单次前向传播,为单目视频处理领域带来了新的突破,展现出强大的多功能性和实用性。
EliGen:浙大和阿里联合开发的新型实体级可控图像生成框架
EliGen 包含50万高质量注释样本的数据集,用于训练模型以实现鲁棒且准确的实体级操控。此外,EliGen 提出了修复融合管道,能扩展到多实体图像修复任务。
Hibiki:一款由Kyutai开发的实时同声传译语音模型
Hibiki是一款功能强大且实用的实时语音翻译模型,其高效、低延迟和跨平台的特点使其在多种场景中具有广泛的应用潜力。
FireRedASR:小红书开发的工业级自动语音识别(ASR)模型
FireRedASR 是由小红书 FireRed 团队开发并开源的一系列工业级自动语音识别(ASR)模型,专为普通话、中文方言和英语设计。
StochSync:一款360°全景图和3D网格纹理
StochSync 是一种创新的生成模型,该模型特别适用于生成具有复杂几何结构的空间,例如360度全景图像和网格表面用于纹理映射。
Splash:一个专注于 AI 音乐创作与互动体验的创新平台
SplashMusic是一款基于人工智能技术的音乐创作工具,旨在简化音乐制作过程,使用户能够轻松地生成高质量的音乐作品。
鲸喷 DeepRant:一款专为游戏玩家设计的多语言快捷翻译工具
鲸喷 DeepRant 是一款专为游戏玩家设计的实用工具,能够有效解决跨语言交流的问题,提升游戏体验。
MUSIC.AI:一个集音乐创作、音频处理和数据分析于一体的综合性平台
MUSIC.AI支持多种 AI 工具的无缝集成,用户可以根据需求灵活调整工作流程。
UI-TARS:字节跳动开发的一种新型 GUI 代理模型
UI-TARS是由字节跳动推出的一款新一代原生GUI代理模型,旨在通过自然语言实现对桌面、移动设备和网页界面的自动化交互。
Hunyuan3D 2.0:腾讯推出的一种先进大规模 3D 合成系统
腾讯推出的一款革命性的大规模3D合成系统,旨在生成高分辨率、纹理化的3D资产。该系统通过先进的AI技术,将图像或文本描述快速转化为高质量的3D模型,显著提升了3D内容创作的效率和质量
Kimi k1.5:MoonshotAI 开发的多模态语言模型
Kimi K1.5是一款集多模态处理、高效推理和开源特性于一体的高性能AI模型,其在多个领域均超越了国际顶尖模型,标志着中国AI技术的重大突破。
DeepSeek-R1-Zero:一款由DeepSeek团队开发的推理模型
DeepSeek-R1-Zero模型跳过了传统AI训练中依赖大量标注数据的步骤,直接通过RL算法进行训练,展示了强化学习在复杂推理任务中的潜力。
1
2
3
4
5
6
7
日榜
周榜
热门标签
搜索引擎
思维导图
AI效率提升
编程工具
航空航天
办公生活
AI三维生成
游戏平台
下载中心
AI辅助工具
OCR识别
AI搜索引擎
效率工具
教师必备
谷歌插件
影视名站
平台培训
电子书
AI办公效率
AI提示词