SmartSub (also known as 'MiaoMu') is a powerful, cross-platform desktop tool for automated subtitle generation and translation. It utilizes advanced speech recognition models like Whisper to transcribe audio and video files with high accuracy. The application supports a wide range of media formats and allows users to export subtitles in standard formats like SRT and VTT.
Beyond transcription, SmartSub integrates with various translation services, including OpenAI, DeepL, and local LLMs via Ollama, to provide high-quality subtitle translations. It features hardware acceleration support for faster processing and a user-friendly interface for managing batch tasks, making it an ideal tool for content creators and translators.
Use Cases:
Release (https://img.shields.io/github/v/release/buxuku/SmartSub?style=flat-square&logo=github&color=blue) License (https://img.shields.io/badge/license-MIT-blue.svg?style=flat-square&logo=bookstack) Stars (https://img.shields.io/github/stars/buxuku/SmartSub?style=flat-square&logo=github)
🇨🇳 中文 | 🌏 English
让每一帧画面都能美妙地表达
智能音视频字幕生成与多语言翻译批量化解决方案
!preview
它保留了之前 VideoSubtitleGenerator (https://github.com/buxuku/VideoSubtitleGenerator) 这个命令行工具的全部特性,并新增了以下功能:
whisper 命令因为本人使用的是苹果芯片,缺少 window CUDA 的开发环境,对于 CUDA 的支持,开发测试都存在较多场景无法兼顾的情况。
从 1.20.0 版本开始,在苹果芯片上,支持使用 Core ML 加速语音识别。如果是苹果芯片,请下载 mac arm64 版本的 release 包。将会自动启动 Core ML 加速。
本项目支持多种翻译服务,包括百度翻译、火山引擎翻译、DeepLX、Ollama 本地模型、 DeepSeek 以及 OpenAI 风格的 API。使用这些服务需要相应的 API 密钥或配置。
对于百度翻译、火山引擎等服务的 API 申请方法,可以参考 https://bobtranslate.com/service/ ,感谢 Bob (https://bobtranslate.com/) 这款优秀的软件提供的信息。
对于 AI 翻译,翻译结果受模型和提示词的影响比较大,你可以尝试不同的模型和提示词,找到适合自己的组合。推荐可以尝试 AI 聚合平台 DeerAPI (https://api.deerapi.com/register?aff=QvHM), 支持多个平台近 500 种模型,选择合适自己的模型进行翻译。
SmartSub 现在支持为每个 AI 翻译服务配置自定义参数,让您能够精确控制模型行为:
从视频或者音频里面,生成字幕文件,需要使用到 whisper 的模型。 whisper 的模型有多种,不同的模型,生成字幕的准确性不同,处理速度也不同。
tiny 或者 base 系列的模型,准确性虽然不如 large 系列,但是处理速度快,占用显存小small 或者 base 开始,平衡精度与资源消耗large 系列的模型,准确性高en 的模型,专为英语优化,减少多语言干扰q5 或者 q8 系列的模型,相对于非量化版本,牺牲少量精度换取更小体积Proxy service enabling API access to Coze-hosted Discord bots for GPT-4 text and DALL-E 3 image generation.
Vulkan layer that brings Lossless Scaling frame generation to Linux/Steam Deck, with a GUI configurator, benchmarks, and per-game tuning.
Windows 10/11 debloat and optimization suite that manages apps, privacy, performance, and UI tweaks, plus ISO/autounattend creation and reusable config exports.
Highly configurable, Python-based status bar for Windows with extensive widget support and CSS styling.
Offline translation server running on CPU with 50ms response time. Supports major languages with API compatibility for DeepL and Google Translate plugins. Docker deployment available.
GPU-accelerated, non-destructive RAW image editor built with Rust/Tauri/React, offering fast previews, masking, and color grading with a performance-first workflow.