解鎖ChatGPT新姿勢：集成文本轉(zhuǎn)語音

2023-11-18 發(fā)布在 ChatGPT知識104

作者 |

譯者 | 崔皓

審校 | 重樓

這篇文章介紹了如何將文本轉(zhuǎn)語音（TTS Text-to-）技術(shù)應(yīng)用于，從而提高其用戶體驗。本文認(rèn)為，通過聽到的解釋，用戶可以獲得更沉浸式和有趣的體驗，特別是在學(xué)習(xí)新的主題或探索不熟悉話題的時候。文章還詳細(xì)介紹了如何使用和的文本到語音庫（gTTS）將的輸出轉(zhuǎn)化為語音并大聲播放。最后，提出了一個完全無文本的工作流程的可能性，即通過語音到文本庫的方式給提出指令。

開篇

如果你點擊進(jìn)入這篇文章，我相信你已經(jīng)使用過一段時間了。在過去的幾個月里，我一直專注于如何從中獲得更好的輸出——所謂的提示工程——或者通過構(gòu)建大型語言模型(LLM)進(jìn)行自定義應(yīng)用。然而，最近我一直在思考如何提升的用戶體驗。

雖然提供的網(wǎng)絡(luò)交互界面很好用，但經(jīng)過幾次迭代后，它的表現(xiàn)并不那么優(yōu)秀了。可以想像，如果我們能進(jìn)一步賦予聲音，讓像AI助手一樣大聲回應(yīng)你，那是怎樣一種體驗。

在這篇文章中，我們將探討如何在輸出的基礎(chǔ)上添加“文本轉(zhuǎn)語音”(TTS)功能，從而提升的用戶體驗，這樣就能夠讓我們聽見，而不僅僅是閱讀它了。

讓我們給一個聲音，讓你的交互更具吸引力，更易于訪問，更方便！

文本轉(zhuǎn)語音技術(shù)

文本轉(zhuǎn)語音技術(shù)已經(jīng)成為提升用戶體驗的工具。正如TTS（Text-to-）的字面意思，這項技術(shù)可以將任何輸入文本轉(zhuǎn)化為語音。如今，TTS技術(shù)在我們的日常生活中無處不在，其應(yīng)用范圍橫跨各個領(lǐng)域。

例如，流行的虛擬助手如Siri、或 Home使用TTS來對用戶查詢提供口頭回應(yīng)。這些設(shè)備將基于文本的信息轉(zhuǎn)化為合成語音，使用戶可以通過語音命令與它們交互并接收聽覺反饋。

流行的GPS導(dǎo)航系統(tǒng)如 Maps也是一個例子。TTS技術(shù)將書面的街道名稱和方向轉(zhuǎn)化為口頭提示，而不僅僅依賴視覺指示，使駕駛者在接收指導(dǎo)的同時可以專注于道路安全。

無障礙和TTS

將TTS集成到我們的日常生活中的一個顯著優(yōu)點是它們對無障礙的積極影響。

文本到語音技術(shù)為視力障礙者打開了一扇新世界的大門。通過提供書面內(nèi)容的聽覺輸出，TTS系統(tǒng)使視力障礙者能夠獨立獲取信息。

它使得無物理交互或打字就可以輕松進(jìn)行對話，這對于運動障礙者來說非常有幫助。此外，TTS在對話自然性方面也表現(xiàn)優(yōu)秀，對音頻學(xué)習(xí)者以及閱讀困難者更加友好。

和TTS

給添加一個文本到語音層可以使AI模型更像人類，易于建立更強的連接，使對話內(nèi)容更有趣和對話過程更加愉快。當(dāng)學(xué)習(xí)新的主題或探索不熟悉的話題時，聽到的解釋能夠帶來有趣的沉浸式體驗。這種方式結(jié)合文本交互和音頻解釋，打造了一個適應(yīng)多種學(xué)習(xí)風(fēng)格和偏好的全面學(xué)習(xí)環(huán)境。這可以導(dǎo)致增強的知識保留和對討論概念的更深入理解。

例如，當(dāng)使用學(xué)習(xí)新語言時，的語音合成能力可以輸出所學(xué)語言的準(zhǔn)確音頻，從而幫助學(xué)習(xí)者提高語言技能。這可以提高學(xué)習(xí)者的語言實踐能力，糾正口音，以及促進(jìn)整體流利度的發(fā)展，提升學(xué)習(xí)體驗。

架構(gòu)

在這篇文章中，我們將關(guān)注如何將的輸出轉(zhuǎn)化為語音，并將語音大聲播放。然而，我們也可以讓這個過程形成閉環(huán)，也就是用我們的聲音作為輸入給提供提示。

自制圖表。表示 “語音到文本 → API → 文本到語音” 循環(huán)

集成 TTS 功能

讓我們開始動手，將 API和一個TTS庫集成到一個筆記本中。

API

下面是用來調(diào)用 API的基本代碼結(jié)構(gòu)：

. = "/path/to/key"

def (, = "gpt-3.5-"):

"""

This API with a

and the back.

"""

= [{ "role": "user", "": }]

= ..(

.[0].[ ""]

= f """

"""

= f """

You will be with text by .

Can you the of the text in 1500 ?

\"\"\"{}\"\"\"

"""

# A call to

= ()

函數(shù)調(diào)用 API并給出一個提示。如果提示包含額外的用戶文本，它將用三引號與代碼的其余部分分開。

文本轉(zhuǎn)語音(gTTS)庫

為了將的輸出大聲播放出來，我們將使用開源的gTTs庫。

gTTS庫是文本到語音API的一個免費的包。它允許你將文本轉(zhuǎn)化為語音并生成音頻文件。庫的一些關(guān)鍵特性和功能包括：

文本到語音轉(zhuǎn)換：它允許你通過利用的文本到語音API的力量將文本轉(zhuǎn)化為語音。

語言和口音選擇：你可以為生成的語音指定語言和口音。它支持廣泛的語言和口音，如澳大利亞英語等。

音頻文件生成：該庫生成MP3格式的音頻文件，可以保存并播放。

其他音頻特性：它包括其他可能性，如slow選項可以更慢地閱讀輸出文本，或可以捕獲文本中的任何語言錯誤。

此外，它可以方便地集成到筆記本。

給一個聲音

將TTS層實現(xiàn)到是非常直接的。我們只需要將的響應(yīng)傳遞給gTTS方法，然后將其保存為.mp3文件。最后，我們可以使用模塊來重復(fù)播放響應(yīng)。

# the for tts

from gtts gTTS

# the to

# play the

= "Can you me the ?"

= ()

# the text and to the .

= gTTS(text=, lang=)

# the in a mp3 file

.save( ".mp3")

..( ".mp3")

通過使用這種實現(xiàn)，任何調(diào)用在我們的筆記本中都會如下所示：

自制筆記本示例截圖

總結(jié)

通過聽的方式獲取的回應(yīng)，可以加強用戶的理解力。具有語音能力的將加強各個領(lǐng)域應(yīng)用的可能性，如教育、無障礙技術(shù)、客戶支持和語言學(xué)習(xí)，增強了用戶體驗。通過使用簡單的API調(diào)用、gTTS和庫，人們可以通過大聲播放來自的輸出，從而提升的用戶體驗。正如文章中提到的，通過使用語音到文本庫大聲給提供指令，也可以實現(xiàn)無文本輸入的工作流程。

原文鏈接：

聲明：本站所有文章資源內(nèi)容，如無特殊說明或標(biāo)注，均為采集網(wǎng)絡(luò)資源。如若本站內(nèi)容侵犯了原著者的合法權(quán)益，可聯(lián)系本站刪除。

ChatGPT 文本轉(zhuǎn)語音解鎖ChatGPT新姿勢：集成文本轉(zhuǎn)語音

国内不卡的二区三区中文字幕,男女视频一区二区,91色乱码一区二区三区,а√在线天堂官网

解鎖ChatGPT新姿勢：集成文本轉(zhuǎn)語音

相關(guān)文章

熱門

推薦

隨機

標(biāo)簽

国内不卡的二区三区中文字幕,男女视频一区二区,91色乱码一区二区三区,а√在线天堂官网

解鎖ChatGPT新姿勢：集成文本轉(zhuǎn)語音

相關(guān)文章

熱門

推薦

隨機

標(biāo)簽

微信掃一掃打賞