AI
工作站
更多 +
广告合作
免责声明
投稿须知
联系删除
首页
工作流
AI视频
AI创作
AI机器人
AI绘画
更多
AI行业资讯
LLaVA-Rad:微软开发的新型小型多模态模型,专注于高级临床放射学报告的生成
该模型在包含697,435个图像-报告对的数据集上进行了训练,展示了卓越的性能。
Goku:香港大学与字节跳动合作推出的一款AI视频生成模型
Goku是一款功能强大且具有广泛应用前景的AI视频生成模型,其在生成效率、成本控制以及输出质量方面均展现了显著优势。
AI酱:一款能够直接通过语音与AI对话的应用
AI酱是一款二次元风格的多语言智能聊天应用,用户可以通过语音与AI角色进行实时对话。
Fish Speech:一款开源文本转语音(TTS)工具
Fish Speech支持多种语言(包括中文、英文、日文等),并具备强大的语音合成能力。
PromptPort:专为人工智能大模型设计的创意工具平台
平台提供了丰富的提示词库,用户可以根据需求直接使用或进行创作和优化。PromptPort 的目标是通过优化提示词,提升大模型的响应质量和内容创作的效率。
Seed-TTS:字节跳动开发的高质量、多功能的文本到语音(TTS)模型
Seed-TTS 是由字节跳动开发的一系列高质量、多功能的文本到语音(TTS)模型,旨在生成与人类语音极为相似的语音。
CosyVoice 2.0:阿里巴巴通义实验室开发的先进流式语音合成模型
CosyVoice 2.0 通过其强大的功能和灵活的应用场景,为语音合成领域带来了新的突破和可能性。
深度解读:清华大学DeepSeek从入门到精通,技术达人的进阶手册(附PDF文件)
清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室精心编写的《DeepSeek从入门到精通》PDF文件,为初学者和进阶用户提供了全面、系统的学习路径。
NutWorld:将日常单目视频高效地转换为动态3D高斯的新型视频处理框架
NutWorld 通过其创新的动态3D高斯表示和高效的单次前向传播,为单目视频处理领域带来了新的突破,展现出强大的多功能性和实用性。
EliGen:浙大和阿里联合开发的新型实体级可控图像生成框架
EliGen 包含50万高质量注释样本的数据集,用于训练模型以实现鲁棒且准确的实体级操控。此外,EliGen 提出了修复融合管道,能扩展到多实体图像修复任务。
Hibiki:一款由Kyutai开发的实时同声传译语音模型
Hibiki是一款功能强大且实用的实时语音翻译模型,其高效、低延迟和跨平台的特点使其在多种场景中具有广泛的应用潜力。
FireRedASR:小红书开发的工业级自动语音识别(ASR)模型
FireRedASR 是由小红书 FireRed 团队开发并开源的一系列工业级自动语音识别(ASR)模型,专为普通话、中文方言和英语设计。
StochSync:一款360°全景图和3D网格纹理
StochSync 是一种创新的生成模型,该模型特别适用于生成具有复杂几何结构的空间,例如360度全景图像和网格表面用于纹理映射。
Splash:一个专注于 AI 音乐创作与互动体验的创新平台
SplashMusic是一款基于人工智能技术的音乐创作工具,旨在简化音乐制作过程,使用户能够轻松地生成高质量的音乐作品。
鲸喷 DeepRant:一款专为游戏玩家设计的多语言快捷翻译工具
鲸喷 DeepRant 是一款专为游戏玩家设计的实用工具,能够有效解决跨语言交流的问题,提升游戏体验。
1
2
3
4
5
6
日榜
周榜
热门标签
自学
资源服务平台
生活服务
批量处理
法律咨询
mac软件下载
扩展插件
谷歌插件
知识百科
AI思维导图
AI头像绘制
投诉举报
生物医学
AI法律服务
办公软件
AI写真
音频工具
ChatGPT
在线漫画
教育学习