TTS 是什么意思?一篇讲透文字转语音的入门指南

2026/06/05

你大概在某个 App 的菜单里、在评论区、或者在某条推文里见过"TTS"这三个字母,却没太搞懂它到底指什么。答案很简单:TTS 是 text-to-speech 的缩写,中文叫文字转语音。说白了,就是一种把文字读出来的软件——你给它一段文字,它给你一个声音把这段文字念出来。原理就这么直白。真正有意思的是它怎么做到的、为什么有的 TTS 听着像个真人有的却像九十年代的电话答录机,以及它到底什么时候值得用、什么时候还是自己用眼睛读更好。我自己天天泡在这类工具里,下面这篇就是我当初真希望有人直接塞给我的那种大白话版本。

TTS 到底指什么,又不是什么

文字转语音是一条单行道:文字进,声音出。你喂给它一段文字——一个网页、一份 PDF、你刚打的一句话——它就把这段文字念出来。

它有两个容易被搞混的"亲戚",先理清楚:

  • STT(语音转文字) 是反方向的——你说话,它写字。手机上的语音输入、视频会议里的实时字幕,都是它。
  • 读屏软件(比如 iOS 的 VoiceOver、Windows 的 NVDA)是一整套无障碍系统,它会把整个界面念出来——按钮、菜单、弹窗——专为盲人和视力障碍用户设计。它会到 TTS 来发声,但它干的事远不止读一段文字。

所以当有人说"用 TTS",几乎都是指"把这段文字读给我听"。在手机上它有时叫"朗读屏幕""朗读所选内容""听一听",在老系统里叫"讲述人"或"语音"。底层是同一回事。

还有一点要说清:TTS 不是真人录音。没有谁坐在录音棚里念。每一个字都是临场实时生成的——这也正是它能读你随便丢进去的任何内容的原因,哪怕是一秒钟前才写出来的文字。

不堆术语,讲讲 TTS 怎么工作

把文字变成自然的人声,比听起来要难得多,而且这些年技术换了好几代。你会遇到的大概是这三代,用大白话说:

第一代,拼接式 TTS(老办法)。 经典做法是请一位配音演员录下成千上万个小音片——音节、音素、词的碎块——存进一个巨大的"音库"。要念一句新话,软件就把对应的碎块拼起来,活像把杂志上的字一个个剪下来拼成一封信。碎块凑得上的时候还行;凑不上的时候,你就会听到那种磕磕巴巴、机械、词读到一半突然变调的怪感觉。这套东西支撑了几十年里大多数"电脑嗓音",老 TTS 那股一耳朵就能听出来的腔调就是这么来的。

第二代,参数式 TTS(过渡期)。 这一代不再存音片,而是给语音的各项参数建模——音高、时长、每个音的形状——再用数学方法把声波合成出来。它比拼接式顺滑、也灵活得多,但经典的参数式嗓音常常有点闷、有点嗡嗡的,像隔着一堵薄墙听人说话。是个聪明的过渡,但不是终点。

第三代,神经网络 TTS(你今天听到的)。 现在的 TTS 用的是深度神经网络,喂进去海量真人语音去训练。它不再是把音片粘起来,而是直接生成声波,自己学会了真人说话那种自然的抑扬顿挫——人会在哪里换气、哪个词该重读、问句结尾怎么往上扬。正是这一跳把差距补平了。2026 年一个好的神经网络嗓音,节奏和语调都到位,只要你用正常语速听、注意力放在内容上,两分钟之内你就不会再意识到它是合成的。

还有一个你永远看不到、却干了大量脏活的环节:文本规范化。在生成任何声音之前,软件得先想清楚这段文字该怎么读。中文里"重"是读 zhòng 还是 chóng,得看上下文;"长"是 cháng 还是 zhǎng;"1996"该念"一九九六"还是"一千九百九十六",也要分场合。这些判断做得准不准,恰恰是一个 TTS 引擎听着"聪明"还是"犯傻"的一大关键。当你听到它把多音字读错、把日期念成一长串数字时——那是规范化出了问题,不是嗓音质量的锅。

大家到底拿 TTS 来干嘛

教科书答案是"无障碍辅助",这确实是个巨大且真正重要的用途。但 TTS 也悄悄成了主流的效率工具。下面是我看到它真正派上用场的地方:

  • 无障碍辅助。 对有阅读障碍(读写困难)的人来说,一边看字一边听到这个词,能大幅提升理解、减轻疲劳——它是辅助技术里的老牌主力是有原因的,详见我们这篇读写困难人群的文字转语音。对视力不便的人、以及任何更习惯用耳朵读东西的人,它一样有用。
  • 专注力与多动倾向。 出乎意料地多的人发现,一边听一边跟着看能把自己摁在那一页上,否则眼睛早就飘走了。这点我们在注意力缺陷人群的文字转语音里聊得更细。
  • 学习。 把讲义、课本章节、或者 PDF 变成音频,你就能在散步时复习,或者用读一遍的时间过两遍。学生党可以看学生的文字转语音那篇完整拆解。
  • 把碎片时间捡回来。 这是我自己最主要的用法。四十页的报告、一本厚厚的 Kindle 书、攒了一堆没看的文章——TTS 让我在做饭、通勤的时候就把它们消化掉,不用再额外挤出我根本没有的看屏时间。
  • 校对自己的稿子。 把自己写的东西听一遍,是揪出别扭句子和漏字最快的办法。耳朵能逮住眼睛一滑而过的毛病。
  • 对付 AI 吐出来的大段文字。 问 AI 一个问题,回来六大段。让 ClaudeChatGPT 把答案念给你听,你就能像听同事在白板前讲解一样把它吸收掉,手还腾得出来。

共同点很清楚:只要你的眼睛正忙着、累了、或者本来就不是当下最趁手的工具,TTS 就能发光。

什么时候用 TTS

我得说点实话,因为大多数指南不会说:TTS 并不总是对的选择,硬用反而更糟。

  • 高度依赖视觉或结构的内容。 表格、电子表格、公式密集的材料,以及任何"排版本身就是信息"的东西——TTS 会把它读成一条平铺的流,结构全丢了。让它把一个方程念成"左括号 x 逗号 y 右括号",真的不如直接看。
  • 逐字读代码。 听它把一个函数一个符号一个符号地拼出来,简直是折磨。当你想要的是代码的讲解时,听旁边的文字、用眼睛看代码就好。我朗读 VS Code 时就是这么干的:注释和文档交给声音,代码留给眼睛。
  • 需要快速扫读的时候。 看字能让你跳着读、扫一眼、五秒钟就把一篇烂文章关掉。音频是线性的——适合吸收,不适合筛选。只想找一个事实?直接读。

知道什么时候不该伸手去用它,正是"觉得 TTS 改变人生"和"试一次就再也不碰"两类人的分水岭。

怎么免费上手 TTS

想知道 TTS 适不适合你,根本不用花钱。下面是几条实在的路子,从最省钱的说起:

系统自带(免费,你设备上已经有了)。 几乎每个主流平台都内置了基础朗读:iOS 在"辅助功能"里有"朗读屏幕"和"朗读所选项",安卓有"选择朗读",macOS 和 Windows 也都有可以打开的系统语音功能。拿来快速试试挺好,还不花钱。问题是:自带的嗓音往往是偏老、偏机械的那种,而且想读特定内容——某一页 Kindle、一份在线文档、一段聊天记录——通常得复制粘贴到另一个窗口里,用几次就嫌烦。

一个专门的免费朗读工具(我真正会推荐的)。 这才是为这件事而生的工具拉开差距的地方。CastReader 是一款免费的文字转语音朗读器——一个 Chrome/Edge 扩展,外加原生的 Mac 和 iOS/安卓 App——也是我每天都在用的那套。它用的是自然的神经网络嗓音,更关键的是,它能就地读你眼前的内容,不用你粘来粘去:浏览器里的 Kindle 书微信读书知乎Notion 页面arXiv 论文都能读。它免费可用——任何文字都能用自然语音在任意设备上听,无需注册;想要 premium 超真实语音、更多时长和 AI 分析可升级 CastReader Pro。

我会推给朋友的"两分钟上手配方":

  1. 从 Chrome 网上应用店装上 CastReader 扩展(Chrome、Edge 都能用),或者在 App Store、Google Play、以及 Mac 端装上对应 App。
  2. 打开你想听的东西,选中文字(或者用朗读器里的"从这里开始读"),按播放。
  3. 花两分钟试听几个嗓音,等耳朵适应了再把语速往上推到 1.25 倍左右。选对嗓音和语速,决定了它对你是负担还是习惯。

如果你正想拿它和那几款知名付费 App 比一比,我们有诚实的逐项对照:一篇 Speechify 平替拆解,和一篇 NaturalReader 平替拆解,付费工具真正更强的地方也照实写了。

常见问题

TTS 是什么的缩写?

TTS 是 text-to-speech(文字转语音)的缩写——一种把书面文字转成语音的软件。你给它文字,它用合成嗓音念出来。它和 STT(语音转文字,把你的话转成文字)正好相反。

TTS 和读屏软件是一回事吗?

不是,但有关系。读屏软件(如 VoiceOver、NVDA)会把整个界面——按钮、菜单、弹窗——都念出来,让人不用看屏幕也能操作设备。它会用到 TTS 来发声,但 TTS 本身只是把你指给它的一段文字读出来。多数人说"用 TTS",指的是简单的朗读。

为什么有的 TTS 听着机械,有的却像真人?

差在技术。老的拼接式嗓音是把预录的音片拼起来,所以有那种磕巴、机械的感觉。现在的神经网络 TTS 是用在真人语音上训练出来的深度模型直接生成声波,能还原自然的节奏和语调——这就是今天好嗓音听着接近真人的原因。

真有免费的文字转语音工具吗?

有。设备自带的朗读免费,但嗓音偏老、还经常得复制粘贴。像 CastReader 这种专门的免费朗读器用的是自然的神经网络嗓音,能就地直接读内容,而且免费可用、无需注册。它是一个浏览器扩展,外加 Mac 和手机 App,另有可选的 CastReader Pro 档位提供 premium 超真实语音、更多时长和 AI 分析。

TTS 能读我的 Kindle 书、PDF 和文档吗?

有些工具能,而且这件事比嗓音质量更重要——一个朗读器只有能读到你的内容才有用。CastReader 能在浏览器里直接读 Kindle,也能把 PDF 变成有声书、把 EPUB 变成音频,都不用复制粘贴。

一句话总结

TTS 就是文字转语音:把书面文字读出来的软件。技术上它从磕磕巴巴的音片拼接(拼接式),一路进化到今天直接生成自然语音的神经网络嗓音——这也是现代 TTS 终于好听的原因。它在无障碍辅助、专注、学习、校对、以及把你本会盯着屏幕耗掉的时间捡回来这些事上是真有用的——但它也确实适合表格、逐字读代码、或者快速扫读。想知道它在你生活里能落在哪儿,最好的办法就是试一次:从一个免费朗读器开始,花两分钟挑个嗓音,让它读你下一个本来要眯着眼看的东西。有问题或想要某个嗓音?写信到 support@castreader.ai——回复你的是真人。

CastReader 团队

Try CastReader free — read anything aloud, anywhere

Free Chrome extension + iOS + Android + Mac. No login. Generous free tier, optional Pro. Works on Kindle, PDF, Google Docs, websites — 40+ languages.

Any website· Kindle / WeChat / Notion· PDF / EPUB / DOCX· 40+ languages

★★★★★ 4.7 · Free to start · No login · Optional Pro

TTS 是什么意思?一篇讲透文字转语音的入门指南 | CastReader