Appearance
🚀 Python 技术趋势-20250828
编号 | 项目名称 | ⭐ Stars | 💻 语言 | 📝 简介 |
---|---|---|---|---|
1 | KittenTTS | 8368 | Python | KittenTTS是一个超轻量级开源文本转语音模型,仅25MB大小,支持CPU实时高质量语音合成,无需GPU即可运行。 |
2 | Qwen-Image | 4488 | Python | Qwen-Image是一款强大的图像生成与编辑基础模型,支持复杂文本渲染和精确图像编辑,尤其擅长中文文本生成和多风格图像处理。 |
3 | Wan2.2 | 4387 | Python | Wan2.2是先进的开源大规模视频生成模型,支持文本、图像和语音生成高清视频,具备高效MoE架构和电影级美学控制。 |
4 | dots.ocr | 3722 | Python | dots.ocr是一个基于1.7B参数视觉语言模型的多语言文档解析工具,统一实现布局检测和内容识别,在多项基准测试中达到SOTA性能。 |
5 | VibeVoice | 2906 | Python | VibeVoice是微软开源的前沿文本转语音模型,支持生成长达90分钟、最多4人对话的高表现力多说话人音频,适用于播客等长对话场景。 |
6 | claude-code-security-review | 2181 | Python | 基于Claude AI的GitHub安全审查工具,自动分析代码变更以检测安全漏洞,支持多语言并提供智能漏洞过滤与PR评论功能。 |
7 | ScreenCoder | 2159 | Python | ScreenCoder可将UI截图转换为可编辑的HTML/CSS代码,支持自定义修改,实现快速原型设计和像素级界面生成。 |
8 | memU | 1838 | Python | MemU是一个开源AI伴侣记忆框架,提供高精度记忆管理、快速检索和低成本部署,支持智能记忆组织与自主演进功能。 |
9 | rendergit | 1359 | Python | 将Git仓库渲染为单页HTML,提供语法高亮和导航,支持人类浏览与LLM代码分析两种视图模式。 |
10 | mobile-use | 1168 | Python | 开源AI代理工具,支持通过自然语言控制Android和iOS设备,实现自动化操作与数据提取。 |
11 | vipe | 861 | Python | ViPE是一款开源视频处理引擎,用于从原始视频中自动标注相机位姿和密集深度图,支持多种相机模型和动态场景。 |
12 | StableAvatar | 758 | Python | 首个端到端视频扩散变换器,基于参考图像和音频生成无限长度高质量口型同步的虚拟人视频,无需后处理。 |
13 | seed-oss | 743 | Python | 字节跳动Seed团队开发的360亿参数开源大模型,具备长上下文、推理和智能体能力,支持灵活思考预算控制,适用于多领域任务。 |
14 | InfiniteTalk | 728 | Python | 无限长度语音驱动视频生成模型,支持图像到视频和视频到视频转换,实现精准唇形同步与身体动作匹配。 |
15 | m3-agent | 719 | Python | M3-Agent是一个具备长期记忆的多模态智能体框架,能处理实时视听输入,构建并更新记忆,支持多轮推理和任务执行,在长视频问答基准上表现优异。 |
16 | Neosgenesis | 646 | Python | Neosgenesis是一个基于元认知理论的AI决策框架,通过多阶段验证学习流程和工具增强架构,实现智能体的自我验证与实时学习,提升复杂环境下的决策质量。 |
17 | whole_body_tracking | 629 | Python | 基于Isaac Lab的人形机器人全身运动跟踪框架,支持高质量动态动作模拟与训练,无需调参即可适配LAFAN1数据集,实现仿真到实体的无缝部署。 |
18 | GMR | 591 | Python | GMR是一个通用运动重定向工具,可将人类动作实时重定向到多种人形机器人,支持多种运动数据格式,适用于CPU实时操作。 |
19 | strix | 538 | Python | Strix是一个开源AI安全测试工具,通过自主AI代理动态运行代码、发现漏洞并验证利用,为开发者提供自动化渗透测试和漏洞检测。 |
20 | Stand-In | 535 | Python | Stand-In是一个轻量级即插即用框架,用于身份保持的视频生成,仅需训练1%额外参数即可实现高保真效果,并支持多种下游任务。 |
21 | DiffMem | 528 | Python | DiffMem是基于Git的对话AI记忆存储系统,利用Markdown文件存储当前状态,通过Git追踪历史变更,支持高效检索与版本管理。 |
22 | R-Zero | 527 | Python | R-Zero是一个无需外部数据、通过挑战者-求解器自进化循环自主提升大语言模型推理能力的框架。 |
23 | ChatMock | 517 | Python | ChatMock通过本地服务器提供OpenAI兼容API,允许用户使用ChatGPT付费账户直接调用GPT-5等模型,无需API密钥。支持工具调用、视觉理解和思维摘要功能。 |
24 | Hunyuan-GameCraft-1.0 | 516 | Python | 混元游戏工艺是一个基于扩散模型的高动态交互游戏视频生成框架,支持通过键盘鼠标输入控制相机运动,实现高质量、长序列且物理真实的游戏场景生成。 |
25 | Qwen-Image-Lightning | 510 | Python | Qwen-Image-Lightning通过蒸馏技术加速Qwen-Image模型,显著提升图像生成与编辑速度,同时保持复杂文本渲染能力。 |
26 | NextStep-1 | 509 | Python | NextStep-1是一个140亿参数的自回归模型,使用连续图像标记生成高质量图像,支持文本到图像生成和图像编辑功能。 |
27 | deepagents | 469 | Python | 基于LangChain的AI股票研究助手,集成多专家子代理进行基本面、技术和风险分析,提供实时数据与专业投资建议。 |
28 | openbench | 459 | Python | OpenBench是一个开源、供应商无关的语言模型评估框架,支持30+基准测试和模型提供商,提供标准化、可复现的LLM性能评测。 |
29 | docstrange | 452 | Python | DocStrange可从文档、图像、PDF等提取数据并转换为Markdown、JSON等多种格式,支持云端和本地处理,提供智能结构化数据提取和高级OCR功能。 |
30 | Matrix-3D | 440 | Python | Matrix-3D通过全景表示从单图或文本生成可自由探索的大规模3D场景,支持高质量全景视频与360度3D重建,具备高可控性与多样化场景生成能力。 |