AI工具大全 - AI修图、视频修复、文生图、图生视频一站式服务平台

[置顶]玩AI必装的组件，CUDA和C++桌面开发

CUDA安装：CUDA 已经成为高性能计算领域的一个重要工具，尤其是在深度学习和人工智能领域，其高效的数据处理能力使其成为不可或缺的技术之一，所以很多AI工具都需要CUDA运算，因此CUDA也是玩AI必须要装的一个软件，点击下面链接，根据你系统相应下载安装即可。https://developer.nvidia.com/cuda-downloads

2024-09-03 1.7W"

VIP免费

FireRedTTS-语音克隆整合包

离线终端版

FireRedTTS是一个基于大语言模型的开源文本到语音(TTS)框架，旨在满足个性化和多样化的语音合成需求。该系统通过高质量数据集和语义感知架构生成高保真语音信号，适用于配音、聊天机器人等多种应用场景，提供零样本语音克隆和可控类人语音合成能力。

2024-11-08 1.1W" 1

VIP免费

Diffusers-image-outpaint-扩图神器整合包

离线终端版

Diffusers Image Outpaint是由Hugging Face社区成员fffiloni创建的一款强大的AI图像扩展工具。它利用先进的扩散模型技术，可以无缝扩展图像边缘，生成高质量的新图像内容。用户可以通过简单的操作，轻松实现图像的扩展和补全，适用于各种创意设计和图像处理需求。该工具基于Realvist V5 Lightning模型创建，能够在几秒内完成图像扩展，无论是横向还是竖向延伸都能获得不错的效果。Diffusers Image Outpaint支持高效扩图，多平台执行，智能生成与原图风格一致的新图像，并且可以实现对图片的无限外扩。这款工具不仅完全免费开源，还支持本地部署，让使用者在家就能轻松实现高质量的图像扩展，大大提高工作效率。

2024-10-20 1.3W" 1

VIP免费

Video-subtitle-remover-视频硬字幕去除器整合包

离线终端版

Video-subtitle-remover（VSR）是一款利用人工智能技术开发的视频字幕去除软件。该软件能够高效地从视频中移除硬编码的字幕，同时保持视频的原始分辨率和质量。VSR通过AI算法对去除字幕后的区域进行智能填充，避免了传统方法可能产生的马赛克或不自然的视觉缺陷。VSR的主要功能包括：无损分辨率字幕去除：在不降低视频质量的前提下，精确地移除视频源中的硬字幕。AI算法填充：采用先进的AI模型，对字幕移除后的区域进行像素级的填充，确保视频画面的连贯性和自然性。自定义字幕位置：用户可以指定字幕位置，VSR将仅针对这些位置进行字幕去除，提供了更高的灵活性和定制性。全自动模式：VSR支持自动识别并去除视频中的所有文本，无需用户手动指定，适用于批量处理视频。批量处理：VSR支持多选图片批量去除水印文本，使得处理大量图片变得更加高效。VSR的应用场景广泛，包括但不限于专业视频剪辑、学术研究展示、个人影视欣赏等。它为视频后期制作人员、内容创作者以及普通用户提供了一个简单、高效的字幕去除解决方案。

2024-09-30 1.4W" 1

VIP免费

MagicClothing-虚拟换衣整合包

离线终端版

MagicClothing是一个基于潜在扩散模型（Latent Diffusion Model, LDM）的图像合成系统，由Xiao-i Research的研究团队开发。该项目专门设计来处理服装驱动的图像合成任务，能够根据文本提示生成定制的、穿着特定服装的人物图像。Magic Clothing通过在生成过程中融合服装细节，实现了高度可控和细粒度的图像输出。MagicClothing的核心功能包括：服装细节保持：通过“服装提取器”组件，精确捕捉和再现服装细节，如纹理、图案。文本提示的忠实表达：确保图像符合用户通过文本输入的描述，增强图像的个性化和适应性。生成图像的可控性：结合多种控制技术和模型扩展，如ControlNet和IP-Adapter，实现更加复杂和多样化的图像输出。技术特点涵盖自注意力融合、插件模块兼容性、分类器自由指导以及强健的评估指标（MP-LPIPS），确保生成的图像在视觉上忠实于原始设计。应用场景包括电子商务和虚拟试衣、时尚设计和预览、广告和市场营销、游戏和虚拟现实、影视预可视化和动画、个性化内容创建和社交媒体以及教育和培训。

2024-09-30 1.2W" 1

VIP免费

HivisionIDPhotos-创建证件照不求人整合包

离线终端版

HivisionIDPhotos是一个开源的AI证件照制作工具，由Zeyi Lin开发。该项目利用先进的AI算法，能够智能识别照片中的人像并进行抠图，快速生成符合多种规格的证件照。用户可以自定义背景色和尺寸，支持生成1寸、2寸以及六寸排版照，满足不同使用场景的需求。HivisionIDPhotos的主要功能包括：轻量级抠图：基于AI技术，精确识别并抠出人像，生成透明背景的证件照。多尺寸证件照生成：支持多种标准尺寸的证件照生成，如1寸、2寸等。智能换背景：用户可以轻松更换证件照的背景颜色，以符合不同的官方要求。支持Docker部署：方便用户在本地或服务器上快速搭建和运行证件照生成服务。API服务：提供API接口，支持开发者集成和自动化证件照生成流程。HivisionIDPhotos的应用场景广泛，包括个人使用、企业人力资源部门、教育机构、在线服务提供商和摄影工作室等。它通过简化证件照的制作流程，为用户提供了一个便捷、高效的解决方案。

2024-09-20 1.2W" 1

VIP免费

MimicBrush-图片局部重绘整合包

离线终端版

MimicBrush是由阿里巴巴、香港大学和蚂蚁集团共同开发的AI图像编辑工具，它采用了一种称为模仿编辑的技术，使用户能够通过参考图像来编辑目标图像的特定区域。这种方法不需要用户提供大量的样本或进行复杂的训练，就能够实现图像风格的转换和纹理的迁移。MimicBrush的核心是一个基于扩散模型的生成训练框架，它通过自监督学习从视频片段中随机选择两帧作为源图像和参考图像。系统会在源图像的某些区域上进行遮罩处理，然后利用参考图像的信息来恢复这些被遮罩的区域。通过这种方式，MimicBrush能够学习并捕捉不同图像之间的语义对应关系。MimicBrush的主要特点包括：零样本能力：用户无需提供样本或进行训练，即可实现图像编辑。直观的用户交互：用户只需指定编辑区域和提供参考图像，MimicBrush便能自动完成编辑任务。多样化的编辑效果：支持局部区域编辑、纹理迁移和后期处理优化等多种编辑效果。自监督学习：通过自监督学习机制，MimicBrush能够自动理解和模仿参考图像中的视觉元素。MimicBrush的应用场景广泛，包括但不限于电商商品展示、图片编辑、内容迁移和创意设计等。它的开源特性为图像编辑领域带来了新的可能性，推动了AI图像处理技术的发展。

2024-09-20 1.2W" 1

VIP免费

FunClip-视频智能剪辑整合包

离线终端版

FunClip是由阿里巴巴达摩院通义实验室开发的一款开源AI视频剪辑工具，它利用了最新的人工智能技术，特别是自动化语音识别（ASR）技术，来简化视频编辑流程，提高编辑效率。FunClip的核心优势在于能够自动识别视频中的语音内容，将其转换为文本，并允许用户根据这些文本信息快速选取和裁剪视频片段。FunClip的主要功能包括：自动化语音识别：利用阿里巴巴通义实验室的FunASR Paraformer系列模型，对视频进行语音识别，将语音转换成文字。热词定制化：通过集成的SeACo-Paraformer模型，用户可以指定一些实体词、人名等作为热词，以提升特定词汇的识别准确率。说话人识别：集成CAM++说话人识别模型，允许用户根据自动识别的说话人ID裁剪出特定说话人的视频段落。视频裁剪：用户可以选择识别结果中的文本片段或指定说话人，通过点击裁剪按钮获取对应视频片段。Gradio交互界面：通过Gradio实现的交互界面，简化了视频剪辑的操作流程，用户可以在服务端搭建服务并通过浏览器进行剪辑。多段剪辑支持：FunClip支持用户对视频进行多段剪辑，提供了灵活的编辑能力。自动生成字幕：剪辑后的视频可以自动生成全视频和目标段落的SRT字幕文件，方便用户添加或编辑字幕。FunClip的应用场景广泛，包括但不限于教育视频制作、企业宣传片编辑、社交媒体视频内容创作等。它为视频创作者、技术爱好者和研究人员提供了一个强大的工具，以快速上手，提升视频制作效率。

2024-09-15 1.2W" 1

VIP免费

IC-Light-电商图片打光+背景整合包

离线终端版

IC-Light，全称“Imposing Consistent Light”，是一个由ControlNet作者开发的开源项目，专注于图像的光照控制。它允许用户通过文本描述和光照偏好来调整图像的光照效果，使得前景主体与背景环境光照一致，从而实现自然融合。IC-Light的特点包括：文本驱动的光照效果：用户可以通过文本提示来描述所需的光照效果，如“阳光从窗户照射”或“霓虹灯光”。光照方向控制：提供左侧光、右侧光、顶部光和底部光等选项，用户可以根据需要选择光照方向。与背景的自然融合：IC-Light能够智能地将前景主体与上传的背景图融合，同时调整光照以匹配背景环境。易于使用：项目提供了在线Demo和多种插件，如ComfyUI和SD WebUI Forge，使得用户可以轻松地在不同平台和应用中使用IC-Light。IC-Light的应用场景广泛，包括但不限于：摄影后期：摄影师可以使用IC-Light来调整照片中的光照效果，无需复杂的后期处理。艺术创作：艺术家可以利用IC-Light来创造具有特定光照氛围的艺术作品。虚拟现实：在虚拟现实内容的创建中，IC-Light可以用来增强场景的真实感。

2024-09-15 1.4W" 1

VIP免费

Inpaint-web-图片高清放大去水印整合包

离线终端版

Inpaint-web是一个创新的开源项目，它使用前沿的WebGPU和WebAssembly技术在浏览器端实现图像的修复（inpainting）和放大（image-upscaling）。这意味着用户可以在不安装任何软件的情况下，直接在浏览器中处理图像，提供了一种直观且高性能的方式来恢复损坏的图片区域或将低分辨率图片提升至高分辨率。该项目的主要特点包括：图像修复（Inpainting）：能够智能地填充或去除图像中的选定区域，如污点、划痕或不想要的对象。图像超分辨率（Super-Resolution）：提升图片的分辨率，使细节更加清晰，适合放大展示或打印。纯浏览器端运行：所有处理都在用户的本地设备上进行，无需上传到服务器，保护用户隐私。实时反馈：操作即见效果，方便用户即时预览并调整修复或高清化的程度。技术支撑：基于WebGPU和WASM技术，确保了在各种设备上都能提供流畅的用户体验。Inpaint-web的应用场景包括但不限于照片修复、老照片复原、图片清理、图像美化、设计辅助和社交媒体图片处理。项目的开发团队还计划集成更多先进功能，如图像修改历史记录、优化模型、后处理集成、快速图像选择和稳定扩散算法等，以提升用户体验。

2024-09-14 3.5K" 1

VIP免费

InstantID-图片一键生成各种风格整合包

离线终端版

InstantID是由小红书技术团队REDtech与北京大学联合研发的开源项目，它是一个基于扩散模型的图像生成解决方案，能够实现从单一参考图像到多样化风格化写真的快速生成。该项目的核心特点包括：零样本学习：InstantID不需要对模型进行额外的训练或微调，即可实现个性化图像的生成，这大大降低了技术门槛和使用成本。高效生成：用户只需上传一张自拍照片，InstantID就能在短短几秒钟内生成定制化的AI写真，支持多种风格和场景。人脸特征提取：利用预训练的人脸编码器提取强语义的人脸特征，增强图像生成的语义准确性。图像适配器：通过解耦的交叉注意力机制，将人脸特征作为Image Prompt嵌入，增强文本提示的效果，同时保持对生成图像的精细控制。IdentityNet：引入IdentityNet对人脸图像进行编码，通过强语义和弱空间的条件控制，进一步提升ID的保真度。InstantID的应用场景广泛，包括但不限于社交媒体、娱乐、广告、时尚和游戏行业。它为内容创作者、设计师和普通用户提供了一个强大的工具，以快速生成个性化和风格化的图像内容。

2024-09-14 1.3W" 1

VIP免费

GPT-SoVITS-强大的声音克隆整合包

离线终端版

GPT-SoVITS是一个开源的人工智能项目，专注于将文本描述转换成视频内容。这个项目利用了自然语言处理（NLP）和生成对抗网络（GAN）的技术，通过理解文本中的语义信息来生成相应的视频片段。GPT-SoVITS的目标是提供一个端到端的解决方案，使得用户能够通过简单的文本描述来创作视频内容。GPT-SoVITS的特点包括：文本到视频的转换：用户只需提供文本描述，GPT-SoVITS就能生成与之匹配的视频内容。自然语言理解：项目背后的AI能够理解复杂的文本指令和描述，包括场景、动作和对象等元素。高质量视频生成：利用先进的视频合成技术，GPT-SoVITS能够生成清晰、流畅的视频内容。易于使用和集成：项目提供了易于理解的API和文档，方便开发者和内容创作者使用。GPT-SoVITS的技术原理涉及到多个AI领域的前沿技术，包括文本分析、语义理解、视频内容生成等。它通过训练模型来理解文本与视频内容之间的关联，然后生成与文本描述相匹配的视频片段。GPT-SoVITS的应用场景包括：内容创作：为视频制作者、动画师和多媒体艺术家提供一个全新的创作工具。社交媒体：用户可以快速生成与文本帖子相匹配的视频内容，增加社交媒体帖子的吸引力。教育和培训：通过生成教育内容的视频，提高学习材料的互动性和趣味性。

2024-09-10 1.2W" 1

VIP免费

Facefusion-图片视频换脸，面部修复整合包

离线终端版

Facefusion是一个开源的人脸融合项目，它使用深度学习技术来合成两个人脸的特征，生成一张新的面孔。这种技术可以用于各种应用，包括娱乐、社交媒体、教育和人脸相关的研究。Facefusion的特点包括：人脸特征融合：Facefusion能够分析两张人脸图像，并提取关键特征进行融合，创造出既包含两者特征的新面孔。灵活性：用户可以通过调整融合参数来控制融合的程度，实现不同程度的面部特征混合。易于使用：项目提供了清晰的使用指南和API，使得开发者和爱好者可以轻松地在自己的项目中集成人脸融合功能。多平台支持：Facefusion支持多种操作系统和平台，包括Windows、macOS和Linux。Facefusion的技术原理通常涉及使用神经网络来学习人脸的特征表示，然后通过特定的算法将这些特征进行融合。这种方法不仅能够保留原始面孔的关键特征，还能够生成看起来自然和谐的新面孔。

2024-09-10 1.2W" 1

VIP免费

GFPGAN-图片高清修复整合包

离线终端版

GFPGAN（Generative Facial Prior GAN）是一个由腾讯ARC实验室（腾讯优图实验室）开发的开源项目，旨在通过生成对抗网络（GAN）技术提升人脸图像的质量。GFPGAN的核心是一个生成面部先验的网络，它能够生成高质量的人脸图像，同时保留其身份和表情特征。GFPGAN的技术优势在于其创新的生成面部先验网络，该网络能够在生成高质量人脸图像的同时，保持人脸的关键特征。这使得GFPGAN在人脸美化、修复以及身份验证等应用中表现出色。GFPGAN的特点包括：高效的人脸修复：GFPGAN能够有效地去除人脸图像中的噪声和伪影，恢复图像的自然细节。身份和表情保持：在提升图像质量的同时，GFPGAN能够保持人脸的身份特征和表情不变，避免过度美化或失真。多场景适用性：GFPGAN不仅适用于个人照片美化，也适用于视频会议、安全监控等场景下的人脸图像处理。

2024-09-10 1.2W" 1

VIP免费

APISR-动漫图片高清放大整合包

离线终端版

APISR（Anime Production Inspired Super-Resolution）是一个由密西根大学、耶鲁大学和浙江大学的联合团队开发的开源项目。该项目旨在通过AI技术提升动漫图像及视频的分辨率，改善图像质量。APISR特别适合处理模糊、噪声和压缩伪影等图像退化问题，能够显著提高动漫图像的清晰度和细节表现。APISR的特点包括：超分辨率增强：利用先进的AI算法，APISR能够将低分辨率的动漫图像和视频提升至更高的清晰度。处理图像退化问题：特别针对动漫图像常见的模糊、噪声等问题进行优化，提供更自然、更清晰的画面效果。多种放大因子：支持2倍、4倍等不同的放大系数，满足用户对不同尺寸和效果的需求。支持动漫视频：APISR不仅可以处理单张图像，还能提升动漫视频的每一帧，使得整个视频的质量得到显著提升。

2024-09-09 1.2W" 1

VIP免费

AnyDoor-图片元素随意添加整合包

离线终端版

AnyDoor是由香港大学、阿里巴巴集团和蚂蚁集团联合开发的图像生成器，它基于扩散模型，能够实现零样本的对象级图像定制。AnyDoor的核心在于它能够将目标对象以一种和谐的方式传送到新的场景中，同时保持对象的细节特征和身份信息。AnyDoor的技术特点包括：身份和细节特征提取：AnyDoor使用先进的特征提取技术，确保目标对象在新场景中既自然又保持其独特性。视频数据集的知识借鉴：通过分析视频数据集中的同一对象的不同形态，AnyDoor增强了模型的泛化能力和鲁棒性。扩散模型的应用：AnyDoor利用扩散模型生成高质量、多样化的图像，实现精准的对象传送和场景融合。AnyDoor的应用场景广泛，包括：虚拟试穿：为时尚行业提供虚拟试衣体验，让消费者在线上就能看到服装的上身效果。电影和广告制作：简化场景合成过程，让创作者能够轻松地将演员或道具放置于任何背景中。

2024-09-09 1.2W" 1

加载更多

ai工具

月光墟，一个令你着迷，能淘金的网站！