QCstt

潜催语音转文字系统 (QianCui Speech-to-Text)

基于 FastAPI 和 Vue 3 开发的语音识别系统，支持多语言识别和多种音频格式。本系统完全保护用户隐私，所有处理均在本地完成。

功能特点

可以本地无网处理，保护隐私
支持热词纠正，热词可以自定义
支持多种音频格式转换为文本
界面上可以批量改说话人名词
点击文本可以出声，点击音频可以高亮滚动
可以直接在上面修改错别字
目前只支持导出word

系统要求

Windows 11 系统
FFmpeg（用于音频处理）
Miniconda（Python虚拟环境管理工具）

安装步骤

1. 下载本项目

# 浅克隆（shallow clone）下载最新的提交
git clone --depth=1 https://github.com/msgk239/QCstt.git

# 或者完整克隆
git clone https://github.com/msgk239/QCstt.git

2. 安装必要工具

#安装scoop
Set-ExecutionPolicy -ExecutionPolicy RemoteSigned -Scope CurrentUser
Invoke-RestMethod -Uri https://get.scoop.sh | Invoke-Expression

#安装FFmpeg
scoop install ffmpeg

# 安装Miniconda
scoop install miniconda3

3. 安装后端的依赖

# 在项目根目录创建Python 3.9.21环境
# conda create: 创建一个新的conda虚拟环境
# --prefix ./.conda: 指定环境创建在当前项目根目录下的.conda文件夹中
# python=3.9.21: 指定Python版本为3.9.21
# -y: 自动确认所有提示，不需要手动确认
conda create --prefix ./.conda python=3.9.21 -y

# 激活项目本地环境
# 注意：使用--prefix创建的环境需要使用完整路径激活
conda activate ./.conda

# 临时修复：替换funasr文件
# 注意：这是临时解决方案，当funasr更新后将不再需要此步骤
# 将项目根目录下的auto_model.py文件复制到本地conda环境的funasr包目录中，覆盖原有文件
# 如果提示是否覆盖，请选择Y(是)
copy /Y auto_model.py ./.conda/Lib/site-packages/funasr/auto/auto_model.py

# 进入服务器目录
cd server

# 安装依赖
pip install -r requirements.txt

4. 启动后端服务

# 启动API服务
python -m server.api.app

服务端将在 http://localhost:8010 启动

5. 启动前端（开发模式）

# 进入前端目录
cd frontend

# 安装前端依赖
npm install

# 开发模式启动
npm run dev
# 前端将在 http://localhost:5173 启动

# 到这里就可以到浏览器访问 http://localhost:5173 查看效果了

# 下面是构建和预览模式启动
# 构建前端项目
npm run build
# 预览模式启动
npm run preview
# 前端将在 http://localhost:4173 启动

#访问 http://localhost:4173 查看效果，没问题就可以按照下面的运行方式选择

运行方式说明

后端使用 Python FastAPI，前端使用 Vue 3。

不同运行模式

# 在项目根目录下运行

# 调试模式 (DEBUG)
python -m server.api.app
# 前端访问地址: http://localhost:5173 或 http://localhost:4173

# 生产环境调试 (INFO)
python -m server.api.QCstt
# 前端访问地址: http://localhost:8010

# 无任何日志的纯生产环境
python -m server.api.package
# 前端访问地址: http://localhost:8010

注意: 日志级别可通过修改 logger.py 来控制，支持 debug、info、warning、error 等级别

注意事项

界面有些功能没有实现，如果点击没反应说明还没有做
只支持中文，只支持音频，不支持视频
建议备份热词文件在server\api\speech\keywords
第一次下载模型需要联网，后面可以本地运行
有些文档不是最新的，请以代码为准

版权声明

本项目代码遵循 MIT 许可证。

本项目使用了 FunASR (https://github.com/modelscope/FunASR?tab=readme-ov-file#license)，其代码遵循 MIT 许可证，模型遵循 FunASR 模型开源许可证 (Version 1.1)。

Name		Name	Last commit message	Last commit date
Latest commit History 136 Commits
docs		docs
frontend		frontend
server		server
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
auto_model.py		auto_model.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

QCstt

功能特点

系统要求

安装步骤

1. 下载本项目

2. 安装必要工具

3. 安装后端的依赖

4. 启动后端服务

5. 启动前端（开发模式）

运行方式说明

不同运行模式

注意事项

版权声明

About

Releases

Packages

Languages

License

msgk239/QCstt

Folders and files

Latest commit

History

Repository files navigation

QCstt

功能特点

系统要求

安装步骤

1. 下载本项目

2. 安装必要工具

3. 安装后端的依赖

4. 启动后端服务

5. 启动前端（开发模式）

运行方式说明

不同运行模式

注意事项

版权声明

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages