EchoMimic是阿里巴巴达摩院开发的一项AI技术,能够通过给定的音频和一张面部照片,生成与音频口型动作完美匹配的说话视频。该技术在娱乐、教育、虚拟现实和在线会议等领域有广泛应用前景。
LatentSync 是字节跳动推出的一种基于音频条件的端到端唇同步技术,通过潜在扩散模型和时间表示对齐技术(TREPA),实现高质量、时间一致的动态视频生成,并优化了 SyncNet 的收敛问题,使唇同步的准确性达到更高水平。实际测试下来,英文效果还行,但是中文效果欠佳,下方有测试的示例可以自行查看,总体来说就是凑活能用,追求中文高度唇形同步的就不用下载了。
TangoFlux 是一款创新的 AI 模型,专注于通过文本提示词生成高质量音效、背景音乐和其他声音片段。由新加坡科技设计大学和 NVIDIA 联合推出,它具有快速生成音频、长音频支持及自适应用户需求的能力,是音频生成领域的重要突破。
HivisionIDPhoto 是一款实用的证件照智能制作软件。它能够识别用户拍摄的各种场景,进行精确的背景抠图,并生成多尺寸的标准证件照。此外,未来的更新将包括智能换正装和美颜功能,使证件照制作更为便捷和专业。
DeepSeek 发布了 Janus-Pro 多模态大模型,这是 JanusFlow 的高级版本,Janus-Pro 在 训练策略、数据规模 和 模型容量 方面进行了优化,实现了 更强的多模态理解能力,更稳定的图像生成,并在 GenEval 和 DPG-Bench 基准测试中超越 Stable Diffusion 和 DALL·E 3。
近期新出的前景分割深度学习模型BEN2,它通过创新的置信度引导抠图(CGM)流程来优化抠图效果,尤其在处理低置信度像素时能提供更精确的分割。相比于其前身BEN模型以及市面上的其他开源模型,BEN2 在头发抠图、4K图像处理、目标分割和细化边缘方面表现突出。 BEN2:图片/视频抠图去背景工具 这边基于BEN2模型做了一个图片、视频抠图去背景工具,支持单张图片去背景、批量图片去背景以及视频去背景。
新出的幻脸软件,基本上就是从Rope及Rope先锋版等基础上二次开发的,用法及效果都差不多 注意:这类单图幻脸软件侧脸都会崩,面部频繁转动或者出镜也会导致捕捉不到面部而产生闪烁,介意请勿下
SPAR3D 是 Stability AI 推出的一种新型两阶段 3D 生成方法,能够以高效率生成几何形状和完整的 360 度视图的 3D 模型。
deeplearning.ai(吴恩达老师的深度学习课程笔记及资源)
一套商业运营系统,涵盖商业综合体物业、商场收银、会员、营销、商户、停车、消防、机电等模块。可用于购物中心、百货、商圈的运营管理、会员体系、营销活动、集中收银、商家、结算等,经过多年经验积累,以数字化、智能化的理念管理商业。
抖音上的给女朋友发送天气的小程序2.0 (多人发送) (给你的多个女朋友发送)
断更许久,深感愧疚,闲来无事看见一个好玩的项目《模仿抖音上的给女朋友发送天气的小程序》,三分钟配置完毕,女友已经收到了我的早安问候,虽然已经傍晚了。
caozha-getimg,一个获取远程图片的PHP程序,代码简洁,但功能却很强大,可以绕过绝大多数采用普通防盗链检测的远程图片。
全国计算机等级考试题库和复习资料,包括计算机一级、二级、三级和四级等,提供所有等级和科目的题库和复习资料,助您逢考必过!
磨锋后台开发框架,一款只需专注后端代码的PHP开发框架。适合作为WebApp,手机App、小程序等项目的开发框架。
(**AI落地/定制开发接单中,欢迎咨询**)基于ChatGPT实现的微信小程序,适配H5和WEB端。包含前后端,支持打字效果输出流式输出,支持AI聊天次数限制,支持分享增加次数等功能。
完全由 AI 牛马敲代码开发、修复漏洞和提交 Git 的个人博客系统,人类只动嘴皮指挥 AI。 AI 模型采用国变 DeepSeek。 人类非软件工程师角色,看不懂代码,但有一些基础的互联网认知。 人类指挥尽量只使用自然语言交互,尝试看看能碰撞出怎样的火花。