你大概在某个 App 的菜单里、在评论区、或者在某条推文里见过"TTS"这三个字母,却没太搞懂它到底指什么。答案很简单:TTS 是 text-to-speech 的缩写,中文叫文字转语音。说白了,就是一种把文字读出来的软件——你给它一段文字,它给你一个声音把这段文字念出来。原理就这么直白。真正有意思的是它怎么做到的、为什么有的 TTS 听着像个真人有的却像九十年代的电话答录机,以及它到底什么时候值得用、什么时候还是自己用眼睛读更好。我自己天天泡在这类工具里,下面这篇就是我当初真希望有人直接塞给我的那种大白话版本。
TTS 到底指什么,又不是什么
文字转语音是一条单行道:文字进,声音出。你喂给它一段文字——一个网页、一份 PDF、你刚打的一句话——它就把这段文字念出来。
它有两个容易被搞混的"亲戚",先理清楚:
- STT(语音转文字) 是反方向的——你说话,它写字。手机上的语音输入、视频会议里的实时字幕,都是它。
- 读屏软件(比如 iOS 的 VoiceOver、Windows 的 NVDA)是一整套无障碍系统,它会把整个界面念出来——按钮、菜单、弹窗——专为盲人和视力障碍用户设计。它会用到 TTS 来发声,但它干的事远不止读一段文字。
所以当有人说"用 TTS",几乎都是指"把这段文字读给我听"。在手机上它有时叫"朗读屏幕""朗读所选内容""听一听",在老系统里叫"讲述人"或"语音"。底层是同一回事。
还有一点要说清:TTS 不是真人录音。没有谁坐在录音棚里念。每一个字都是临场实时生成的——这也正是它能读你随便丢进去的任何内容的原因,哪怕是一秒钟前才写出来的文字。
不堆术语,讲讲 TTS 怎么工作
把文字变成自然的人声,比听起来要难得多,而且这些年技术换了好几代。你会遇到的大概是这三代,用大白话说:
第一代,拼接式 TTS(老办法)。 经典做法是请一位配音演员录下成千上万个小音片——音节、音素、词的碎块——存进一个巨大的"音库"。要念一句新话,软件就把对应的碎块拼起来,活像把杂志上的字一个个剪下来拼成一封信。碎块凑得上的时候还行;凑不上的时候,你就会听到那种磕磕巴巴、机械、词读到一半突然变调的怪感觉。这套东西支撑了几十年里大多数"电脑嗓音",老 TTS 那股一耳朵就能听出来的腔调就是这么来的。
第二代,参数式 TTS(过渡期)。 这一代不再存音片,而是给语音的各项参数建模——音高、时长、每个音的形状——再用数学方法把声波合成出来。它比拼接式顺滑、也灵活得多,但经典的参数式嗓音常常有点闷、有点嗡嗡的,像隔着一堵薄墙听人说话。是个聪明的过渡,但不是终点。
第三代,神经网络 TTS(你今天听到的)。 现在的 TTS 用的是深度神经网络,喂进去海量真人语音去训练。它不再是把音片粘起来,而是直接生成声波,自己学会了真人说话那种自然的抑扬顿挫——人会在哪里换气、哪个词该重读、问句结尾怎么往上扬。正是这一跳把差距补平了。2026 年一个好的神经网络嗓音,节奏和语调都到位,只要你用正常语速听、注意力放在内容上,两分钟之内你就不会再意识到它是合成的。
还有一个你永远看不到、却干了大量脏活的环节:文本规范化。在生成任何声音之前,软件得先想清楚这段文字该怎么读。中文里"重"是读 zhòng 还是 chóng,得看上下文;"长"是 cháng 还是 zhǎng;"1996"该念"一九九六"还是"一千九百九十六",也要分场合。这些判断做得准不准,恰恰是一个 TTS 引擎听着"聪明"还是"犯傻"的一大关键。当你听到它把多音字读错、把日期念成一长串数字时——那是规范化出了问题,不是嗓音质量的锅。
大家到底拿 TTS 来干嘛
教科书答案是"无障碍辅助",这确实是个巨大且真正重要的用途。但 TTS 也悄悄成了主流的效率工具。下面是我看到它真正派上用场的地方:
- 无障碍辅助。 对有阅读障碍(读写困难)的人来说,一边看字一边听到这个词,能大幅提升理解、减轻疲劳——它是辅助技术里的老牌主力是有原因的,详见我们这篇读写困难人群的文字转语音。对视力不便的人、以及任何更习惯用耳朵读东西的人,它一样有用。
- 专注力与多动倾向。 出乎意料地多的人发现,一边听一边跟着看能把自己摁在那一页上,否则眼睛早就飘走了。这点我们在注意力缺陷人群的文字转语音里聊得更细。
- 学习。 把讲义、课本章节、或者 PDF 变成音频,你就能在散步时复习,或者用读一遍的时间过两遍。学生党可以看学生的文字转语音那篇完整拆解。
- 把碎片时间捡回来。 这是我自己最主要的用法。四十页的报告、一本厚厚的 Kindle 书、攒了一堆没看的文章——TTS 让我在做饭、通勤的时候就把它们消化掉,不用再额外挤出我根本没有的看屏时间。
- 校对自己的稿子。 把自己写的东西听一遍,是揪出别扭句子和漏字最快的办法。耳朵能逮住眼睛一滑而过的毛病。
- 对付 AI 吐出来的大段文字。 问 AI 一个问题,回来六大段。让 Claude 或 ChatGPT 把答案念给你听,你就能像听同事在白板前讲解一样把它吸收掉,手还腾得出来。
共同点很清楚:只要你的眼睛正忙着、累了、或者本来就不是当下最趁手的工具,TTS 就能发光。
什么时候别用 TTS
我得说点实话,因为大多数指南不会说:TTS 并不总是对的选择,硬用反而更糟。
- 高度依赖视觉或结构的内容。 表格、电子表格、公式密集的材料,以及任何"排版本身就是信息"的东西——TTS 会把它读成一条平铺的流,结构全丢了。让它把一个方程念成"左括号 x 逗号 y 右括号",真的不如直接看。
- 逐字读代码。 听它把一个函数一个符号一个符号地拼出来,简直是折磨。当你想要的是代码的讲解时,听旁边的文字、用眼睛看代码就好。我朗读 VS Code 时就是这么干的:注释和文档交给声音,代码留给眼睛。
- 需要快速扫读的时候。 看字能让你跳着读、扫一眼、五秒钟就把一篇烂文章关掉。音频是线性的——适合吸收,不适合筛选。只想找一个事实?直接读。
知道什么时候不该伸手去用它,正是"觉得 TTS 改变人生"和"试一次就再也不碰"两类人的分水岭。
怎么免费上手 TTS
想知道 TTS 适不适合你,根本不用花钱。下面是几条实在的路子,从最省钱的说起:
系统自带(免费,你设备上已经有了)。 几乎每个主流平台都内置了基础朗读:iOS 在"辅助功能"里有"朗读屏幕"和"朗读所选项",安卓有"选择朗读",macOS 和 Windows 也都有可以打开的系统语音功能。拿来快速试试挺好,还不花钱。问题是:自带的嗓音往往是偏老、偏机械的那种,而且想读特定内容——某一页 Kindle、一份在线文档、一段聊天记录——通常得复制粘贴到另一个窗口里,用几次就嫌烦。
一个专门的免费朗读工具(我真正会推荐的)。 这才是为这件事而生的工具拉开差距的地方。CastReader 是一款免费的文字转语音朗读器——一个 Chrome/Edge 扩展,外加原生的 Mac 和 iOS/安卓 App——也是我每天都在用的那套。它用的是自然的神经网络嗓音,更关键的是,它能就地读你眼前的内容,不用你粘来粘去:浏览器里的 Kindle 书、微信读书、知乎、Notion 页面、arXiv 论文都能读。它免费可用——任何文字都能用自然语音在任意设备上听,无需注册;想要 premium 超真实语音、更多时长和 AI 分析可升级 CastReader Pro。
我会推给朋友的"两分钟上手配方":
- 从 Chrome 网上应用店装上 CastReader 扩展(Chrome、Edge 都能用),或者在 App Store、Google Play、以及 Mac 端装上对应 App。
- 打开你想听的东西,选中文字(或者用朗读器里的"从这里开始读"),按播放。
- 花两分钟试听几个嗓音,等耳朵适应了再把语速往上推到 1.25 倍左右。选对嗓音和语速,决定了它对你是负担还是习惯。
如果你正想拿它和那几款知名付费 App 比一比,我们有诚实的逐项对照:一篇 Speechify 平替拆解,和一篇 NaturalReader 平替拆解,付费工具真正更强的地方也照实写了。
常见问题
TTS 是什么的缩写?
TTS 是 text-to-speech(文字转语音)的缩写——一种把书面文字转成语音的软件。你给它文字,它用合成嗓音念出来。它和 STT(语音转文字,把你的话转成文字)正好相反。
TTS 和读屏软件是一回事吗?
不是,但有关系。读屏软件(如 VoiceOver、NVDA)会把整个界面——按钮、菜单、弹窗——都念出来,让人不用看屏幕也能操作设备。它会用到 TTS 来发声,但 TTS 本身只是把你指给它的一段文字读出来。多数人说"用 TTS",指的是简单的朗读。
为什么有的 TTS 听着机械,有的却像真人?
差在技术。老的拼接式嗓音是把预录的音片拼起来,所以有那种磕巴、机械的感觉。现在的神经网络 TTS 是用在真人语音上训练出来的深度模型直接生成声波,能还原自然的节奏和语调——这就是今天好嗓音听着接近真人的原因。
真有免费的文字转语音工具吗?
有。设备自带的朗读免费,但嗓音偏老、还经常得复制粘贴。像 CastReader 这种专门的免费朗读器用的是自然的神经网络嗓音,能就地直接读内容,而且免费可用、无需注册。它是一个浏览器扩展,外加 Mac 和手机 App,另有可选的 CastReader Pro 档位提供 premium 超真实语音、更多时长和 AI 分析。
TTS 能读我的 Kindle 书、PDF 和文档吗?
有些工具能,而且这件事比嗓音质量更重要——一个朗读器只有能读到你的内容才有用。CastReader 能在浏览器里直接读 Kindle,也能把 PDF 变成有声书、把 EPUB 变成音频,都不用复制粘贴。
一句话总结
TTS 就是文字转语音:把书面文字读出来的软件。技术上它从磕磕巴巴的音片拼接(拼接式),一路进化到今天直接生成自然语音的神经网络嗓音——这也是现代 TTS 终于好听的原因。它在无障碍辅助、专注、学习、校对、以及把你本会盯着屏幕耗掉的时间捡回来这些事上是真有用的——但它也确实不适合表格、逐字读代码、或者快速扫读。想知道它在你生活里能落在哪儿,最好的办法就是试一次:从一个免费朗读器开始,花两分钟挑个嗓音,让它读你下一个本来要眯着眼看的东西。有问题或想要某个嗓音?写信到 support@castreader.ai——回复你的是真人。