TTS 是什么意思？一篇讲透文字转语音的入门指南

你大概在某个 App 的菜单里、在评论区、或者在某条推文里见过"TTS"这三个字母，却没太搞懂它到底指什么。答案很简单：TTS 是 text-to-speech 的缩写，中文叫文字转语音。说白了，就是一种把文字读出来的软件——你给它一段文字，它给你一个声音把这段文字念出来。原理就这么直白。真正有意思的是它怎么做到的、为什么有的 TTS 听着像个真人有的却像九十年代的电话答录机，以及它到底什么时候值得用、什么时候还是自己用眼睛读更好。我自己天天泡在这类工具里，下面这篇就是我当初真希望有人直接塞给我的那种大白话版本。

TTS 到底指什么，又不是什么

文字转语音是一条单行道：文字进，声音出。你喂给它一段文字——一个网页、一份 PDF、你刚打的一句话——它就把这段文字念出来。

它有两个容易被搞混的"亲戚"，先理清楚：

STT（语音转文字） 是反方向的——你说话，它写字。手机上的语音输入、视频会议里的实时字幕，都是它。
读屏软件（比如 iOS 的 VoiceOver、Windows 的 NVDA）是一整套无障碍系统，它会把整个界面念出来——按钮、菜单、弹窗——专为盲人和视力障碍用户设计。它会用到 TTS 来发声，但它干的事远不止读一段文字。

所以当有人说"用 TTS"，几乎都是指"把这段文字读给我听"。在手机上它有时叫"朗读屏幕""朗读所选内容""听一听"，在老系统里叫"讲述人"或"语音"。底层是同一回事。

还有一点要说清：TTS 不是真人录音。没有谁坐在录音棚里念。每一个字都是临场实时生成的——这也正是它能读你随便丢进去的任何内容的原因，哪怕是一秒钟前才写出来的文字。

不堆术语，讲讲 TTS 怎么工作

把文字变成自然的人声，比听起来要难得多，而且这些年技术换了好几代。你会遇到的大概是这三代，用大白话说：

第一代，拼接式 TTS（老办法）。 经典做法是请一位配音演员录下成千上万个小音片——音节、音素、词的碎块——存进一个巨大的"音库"。要念一句新话，软件就把对应的碎块拼起来，活像把杂志上的字一个个剪下来拼成一封信。碎块凑得上的时候还行；凑不上的时候，你就会听到那种磕磕巴巴、机械、词读到一半突然变调的怪感觉。这套东西支撑了几十年里大多数"电脑嗓音"，老 TTS 那股一耳朵就能听出来的腔调就是这么来的。

第二代，参数式 TTS（过渡期）。 这一代不再存音片，而是给语音的各项参数建模——音高、时长、每个音的形状——再用数学方法把声波合成出来。它比拼接式顺滑、也灵活得多，但经典的参数式嗓音常常有点闷、有点嗡嗡的，像隔着一堵薄墙听人说话。是个聪明的过渡，但不是终点。

第三代，神经网络 TTS（你今天听到的）。 现在的 TTS 用的是深度神经网络，喂进去海量真人语音去训练。它不再是把音片粘起来，而是直接生成声波，自己学会了真人说话那种自然的抑扬顿挫——人会在哪里换气、哪个词该重读、问句结尾怎么往上扬。正是这一跳把差距补平了。2026 年一个好的神经网络嗓音，节奏和语调都到位，只要你用正常语速听、注意力放在内容上，两分钟之内你就不会再意识到它是合成的。

还有一个你永远看不到、却干了大量脏活的环节：文本规范化。在生成任何声音之前，软件得先想清楚这段文字该怎么读。中文里"重"是读 zhòng 还是 chóng，得看上下文；"长"是 cháng 还是 zhǎng；"1996"该念"一九九六"还是"一千九百九十六"，也要分场合。这些判断做得准不准，恰恰是一个 TTS 引擎听着"聪明"还是"犯傻"的一大关键。当你听到它把多音字读错、把日期念成一长串数字时——那是规范化出了问题，不是嗓音质量的锅。

大家到底拿 TTS 来干嘛

教科书答案是"无障碍辅助"，这确实是个巨大且真正重要的用途。但 TTS 也悄悄成了主流的效率工具。下面是我看到它真正派上用场的地方：

无障碍辅助。 对有阅读障碍（读写困难）的人来说，一边看字一边听到这个词，能大幅提升理解、减轻疲劳——它是辅助技术里的老牌主力是有原因的，详见我们这篇读写困难人群的文字转语音。对视力不便的人、以及任何更习惯用耳朵读东西的人，它一样有用。
专注力与多动倾向。 出乎意料地多的人发现，一边听一边跟着看能把自己摁在那一页上，否则眼睛早就飘走了。这点我们在注意力缺陷人群的文字转语音里聊得更细。
学习。 把讲义、课本章节、或者 PDF 变成音频，你就能在散步时复习，或者用读一遍的时间过两遍。学生党可以看学生的文字转语音那篇完整拆解。
把碎片时间捡回来。 这是我自己最主要的用法。四十页的报告、一本厚厚的 Kindle 书、攒了一堆没看的文章——TTS 让我在做饭、通勤的时候就把它们消化掉，不用再额外挤出我根本没有的看屏时间。
校对自己的稿子。 把自己写的东西听一遍，是揪出别扭句子和漏字最快的办法。耳朵能逮住眼睛一滑而过的毛病。
对付 AI 吐出来的大段文字。 问 AI 一个问题，回来六大段。让 Claude 或 ChatGPT 把答案念给你听，你就能像听同事在白板前讲解一样把它吸收掉，手还腾得出来。

共同点很清楚：只要你的眼睛正忙着、累了、或者本来就不是当下最趁手的工具，TTS 就能发光。

什么时候别用 TTS

我得说点实话，因为大多数指南不会说：TTS 并不总是对的选择，硬用反而更糟。

高度依赖视觉或结构的内容。 表格、电子表格、公式密集的材料，以及任何"排版本身就是信息"的东西——TTS 会把它读成一条平铺的流，结构全丢了。让它把一个方程念成"左括号 x 逗号 y 右括号"，真的不如直接看。
逐字读代码。 听它把一个函数一个符号一个符号地拼出来，简直是折磨。当你想要的是代码的讲解时，听旁边的文字、用眼睛看代码就好。我朗读 VS Code 时就是这么干的：注释和文档交给声音，代码留给眼睛。
需要快速扫读的时候。 看字能让你跳着读、扫一眼、五秒钟就把一篇烂文章关掉。音频是线性的——适合吸收，不适合筛选。只想找一个事实？直接读。

知道什么时候不该伸手去用它，正是"觉得 TTS 改变人生"和"试一次就再也不碰"两类人的分水岭。

怎么免费上手 TTS

想知道 TTS 适不适合你，根本不用花钱。下面是几条实在的路子，从最省钱的说起：

系统自带（免费，你设备上已经有了）。 几乎每个主流平台都内置了基础朗读：iOS 在"辅助功能"里有"朗读屏幕"和"朗读所选项"，安卓有"选择朗读"，macOS 和 Windows 也都有可以打开的系统语音功能。拿来快速试试挺好，还不花钱。问题是：自带的嗓音往往是偏老、偏机械的那种，而且想读特定内容——某一页 Kindle、一份在线文档、一段聊天记录——通常得复制粘贴到另一个窗口里，用几次就嫌烦。

一个专门的免费朗读工具（我真正会推荐的）。 这才是为这件事而生的工具拉开差距的地方。CastReader 是一款免费的文字转语音朗读器——一个 Chrome/Edge 扩展，外加 iOS/安卓 App——也是我每天都在用的那套。它用的是自然的神经网络嗓音，更关键的是，它能就地读你眼前的内容，不用你粘来粘去：浏览器里的 Kindle 书、微信读书、知乎、Notion 页面、arXiv 论文都能读。它免费可用——任何文字都能用自然语音在任意设备上听，无需注册；想要 premium 超真实语音、更多时长和 AI 分析可升级 CastReader Pro。

我会推给朋友的"两分钟上手配方"：

桌面端从 Chrome 网上应用店装上 CastReader 扩展（Chrome、Edge 都能用）；移动端则从 App Store 或 Google Play 安装 App。
打开你想听的东西，选中文字（或者用朗读器里的"从这里开始读"），按播放。
花两分钟试听几个嗓音，等耳朵适应了再把语速往上推到 1.25 倍左右。选对嗓音和语速，决定了它对你是负担还是习惯。

如果你正想拿它和那几款知名付费 App 比一比，我们有诚实的逐项对照：一篇 Speechify 平替拆解，和一篇 NaturalReader 平替拆解，付费工具真正更强的地方也照实写了。

常见问题

TTS 是什么的缩写？

TTS 是 text-to-speech（文字转语音）的缩写——一种把书面文字转成语音的软件。你给它文字，它用合成嗓音念出来。它和 STT（语音转文字，把你的话转成文字）正好相反。

TTS 和读屏软件是一回事吗？

不是，但有关系。读屏软件（如 VoiceOver、NVDA）会把整个界面——按钮、菜单、弹窗——都念出来，让人不用看屏幕也能操作设备。它会用到 TTS 来发声，但 TTS 本身只是把你指给它的一段文字读出来。多数人说"用 TTS"，指的是简单的朗读。

为什么有的 TTS 听着机械，有的却像真人？

差在技术。老的拼接式嗓音是把预录的音片拼起来，所以有那种磕巴、机械的感觉。现在的神经网络 TTS 是用在真人语音上训练出来的深度模型直接生成声波，能还原自然的节奏和语调——这就是今天好嗓音听着接近真人的原因。

真有免费的文字转语音工具吗？

有。设备自带的朗读免费，但嗓音偏老、还经常得复制粘贴。像 CastReader 这种专门的免费朗读器用的是自然的神经网络嗓音，能在支持的页面上直接读内容，而且免费可用、无需注册。它提供浏览器扩展和 iOS/Android App，另有可选的 CastReader Pro 档位提供 premium 超真实语音、更多时长和 AI 分析。

TTS 能读我的 Kindle 书、PDF 和文档吗？

有些工具能，而且这件事比嗓音质量更重要——一个朗读器只有能读到你的内容才有用。CastReader 能在浏览器里直接读 Kindle，也能把 PDF 变成有声书、把 EPUB 变成音频，都不用复制粘贴。

一句话总结

TTS 就是文字转语音：把书面文字读出来的软件。技术上它从磕磕巴巴的音片拼接（拼接式），一路进化到今天直接生成自然语音的神经网络嗓音——这也是现代 TTS 终于好听的原因。它在无障碍辅助、专注、学习、校对、以及把你本会盯着屏幕耗掉的时间捡回来这些事上是真有用的——但它也确实不适合表格、逐字读代码、或者快速扫读。想知道它在你生活里能落在哪儿，最好的办法就是试一次：从一个免费朗读器开始，花两分钟挑个嗓音，让它读你下一个本来要眯着眼看的东西。有问题或想要某个嗓音？写信到 support@castreader.com——回复你的是真人。

TTS 是什么意思？一篇讲透文字转语音的入门指南

目录

TTS 到底指什么，又不是什么

不堆术语，讲讲 TTS 怎么工作

大家到底拿 TTS 来干嘛

什么时候别用 TTS

怎么免费上手 TTS

常见问题

TTS 是什么的缩写？

TTS 和读屏软件是一回事吗？

为什么有的 TTS 听着机械，有的却像真人？

真有免费的文字转语音工具吗？

TTS 能读我的 Kindle 书、PDF 和文档吗？

一句话总结

Try CastReader free — read anything aloud, anywhere

Browser extensions

Mobile apps

相关阅读

A Better Way to Read Substack (Beyond the Default Reader)

How to Binge a 2,000-Chapter Web Novel Without Wrecking Your Eyes

Turn Any Fanfic Into an Audiobook (No Podfic Required)