原文來(lái)源:AIGC開(kāi)放社區(qū)
圖片來(lái)源:由無(wú)界 AI生成
1月23日,文本生成語(yǔ)音平臺(tái)ElevenLabs在官網(wǎng)宣布,獲得8000萬(wàn)美元(約5.7億元)B輪融資。本次由Andreessen Horowitz、 Nat Friedman領(lǐng)投,紅杉資本、 SV Angel等跟投。
用戶通過(guò)文本和語(yǔ)音的方式在ElevenLabs平臺(tái),就能生成中文、英文、日文、韓文等29種語(yǔ)言以及1000多種聲音,同時(shí)可以對(duì)生成語(yǔ)音的清晰度、風(fēng)格、穩(wěn)定等參數(shù)進(jìn)行自定義設(shè)置。
此外,ElevenLabs在宣布融資的同時(shí)發(fā)布了新的配音工作室、語(yǔ)音庫(kù)和移動(dòng)應(yīng)用三款預(yù)覽產(chǎn)品,以鞏固其在生成式AI語(yǔ)音領(lǐng)域的獨(dú)角獸地位。
資料顯示,ElevenLabs創(chuàng)立于2022年4月,總部位于美國(guó)紐約,最初員工不超過(guò)10人,目前已增長(zhǎng)至40多人。
ElevenLabs曾在2023年1月獲得200萬(wàn)美元種子輪融資,6月21日獲得1900萬(wàn)美元A輪融資。
ElevenLabs于2023年1月正式推出了測(cè)試產(chǎn)品,因簡(jiǎn)單、易用、免費(fèi)等優(yōu)勢(shì),其注冊(cè)用戶很快突破100萬(wàn),目前41%的財(cái)富 500 強(qiáng)公司在使用其產(chǎn)品。
包括世界上最大的有聲讀物出版商之一的Storytel;全球著名內(nèi)容創(chuàng)作者平臺(tái)TheSoul Publishing;
知名游戲開(kāi)發(fā)商Paradox Interactive等。這些企業(yè)通過(guò)ElevenLabs平臺(tái)制作有聲讀物、電影配音、游戲NPC的聲音等。
Eleven Labs核心團(tuán)隊(duì)
產(chǎn)品方面,ElevenLabs基于自研的Eleven Multilingual v2、Turbo v2等大模型,提供文本生成語(yǔ)音、語(yǔ)音生成語(yǔ)音、語(yǔ)音克隆、語(yǔ)音識(shí)別等特色功能。
文本生成語(yǔ)音:用戶通過(guò)文本可直接生成中文、英文、韓文、日文等29種語(yǔ)言語(yǔ)音,同時(shí)支持跨文本語(yǔ)音生成。例如,上傳了一段英語(yǔ)文本,可直接生成意大利語(yǔ)音。
使用方法也非常簡(jiǎn)單,先選擇語(yǔ)音生成的類型,然后選擇應(yīng)用的模型、語(yǔ)音參數(shù)和模仿語(yǔ)音,再輸入文本,通常幾秒鐘就能生成語(yǔ)音。
雖然ElevenLabs支持中文語(yǔ)音,但根據(jù)「AIGC開(kāi)放社區(qū)」的實(shí)際體驗(yàn),其語(yǔ)音、語(yǔ)調(diào)等方面還是有很強(qiáng)的機(jī)器人感覺(jué),英語(yǔ)和其他語(yǔ)種表現(xiàn)卻很好。
語(yǔ)音轉(zhuǎn)語(yǔ)音:可幫助用戶將語(yǔ)音自動(dòng)轉(zhuǎn)換成別的語(yǔ)音,例如,上傳了一段男聲語(yǔ)音,可以自動(dòng)轉(zhuǎn)換成老年人的聲音。
傳統(tǒng)的語(yǔ)音轉(zhuǎn)換方法是,需要采集音頻樣本,然后提取基頻、共振峰、時(shí)域和頻域特征等,再進(jìn)行去噪、歸一化,整個(gè)流程非常繁瑣復(fù)雜。
而ElevenLabs可實(shí)現(xiàn)一鍵語(yǔ)音轉(zhuǎn)換,同時(shí)支持用戶對(duì)語(yǔ)音進(jìn)行可視化控制,例如,修改強(qiáng)度、音峰、情感等參數(shù)。
語(yǔ)音克?。?/strong>用戶提供一段語(yǔ)音片段,將其上傳到ElevenLabs平臺(tái)。就能通過(guò)新上傳的語(yǔ)音,創(chuàng)建全新的內(nèi)容,整體模仿效果非常出色。
為了減少ElevenLabs平臺(tái)生成一些非法語(yǔ)音,例如,模仿他人親戚用于電信詐騙,ElevenLabs推出了語(yǔ)音識(shí)別分類功能,用戶只需要上傳語(yǔ)音便能快速識(shí)別出是真人發(fā)音或AI自動(dòng)生成的,這對(duì)于提升產(chǎn)品的安全性非常重要。
此外,為了進(jìn)一步提升語(yǔ)音方面的功能,ElevenLabs在今天宣布推出了新的配音工作室、語(yǔ)音庫(kù)和移動(dòng)應(yīng)用三款全新的預(yù)覽產(chǎn)品。
新的配音工作室:可幫助用戶為整部電影配音,并生成和編輯其轉(zhuǎn)錄、翻譯和時(shí)間碼,從而為內(nèi)容制作提供更多控制。該功能主要面向長(zhǎng)視頻和影業(yè)的用戶。
語(yǔ)音庫(kù):用戶可以將自建的語(yǔ)音模板在語(yǔ)音庫(kù)進(jìn)行分享,當(dāng)有其他用戶使用時(shí)可以獲得報(bào)酬。這個(gè)功能與OpenAI的自定義ChatGPT商店類似,都是鼓勵(lì)開(kāi)發(fā)者共同創(chuàng)建產(chǎn)品生態(tài)。
移動(dòng)應(yīng)用:可以讓用戶通過(guò)移動(dòng)應(yīng)用中,使用ElevenLabs的產(chǎn)品功能。前三個(gè)月將免費(fèi)為用戶提供服務(wù),目前處于申請(qǐng)預(yù)覽版狀態(tài)。
ElevenLabs首席技術(shù)官 Piotr D?bkowski表示,通過(guò)此次 B 輪融資,ElevenLabs將鞏固其在生成式AI語(yǔ)音領(lǐng)域的領(lǐng)導(dǎo)者地位。
這筆資金將用于產(chǎn)品研究、擴(kuò)大基礎(chǔ)設(shè)施、為特定垂直領(lǐng)域開(kāi)發(fā)新產(chǎn)品,以及加強(qiáng)安全措施,確保以負(fù)責(zé)任和合乎道德的方式開(kāi)發(fā)生成式AI技術(shù)。