实测最新语音模型:让特朗普丁真说绕口令堪称以假乱真,但断句整得稀碎

实测最新语音模型:让特朗普丁真说绕口令堪称以假乱真,但断句整得稀碎

实测最新语音模型让特朗普丁真说绕口令堪称以假乱真但断句整得稀碎

  • 支   持:
  • 大   小:
  • 开发者:
  • 提   现:
  • 说   明:
  • 分   类:业界新科技
  • 下载量:810次
  • 发   布:2024-07-18

手机扫码免费下载

纠错留言

#实测最新语音模型:让特朗普丁真说绕口令堪称以假乱真,但断句整得稀碎简介

机器之能报道

编辑:杨文

这款新AI语音模型FishSpeech,模仿音色一绝。

近来,AI语音赛道突然热闹起来。

一个多月前,一个号称「开源语音TTS天花板级别」的ChatTTS爆火。

火到什么程度呢?

仅三天时间就在GitHub狂揽9.2kStar量,还一度登顶GitHubTrending榜首并连续霸榜。

没多久,字节也推出一款类似项目Seed-TTS,喊出的口号同样是「生成自然真实的语音」。

这几天,这一赛道又闯进新玩家——FishSpeech。

据悉,该模型经过15万小时的数据训练,已熟练掌握中英日三种语言,语音处理接近人类水平,对中文支持更是——

官方也甩出不少demo——

中文句子:人间灯火倒映湖中,她的渴望让静水泛起涟漪。若代价只是孤独,那就让这份愿望肆意流淌。流入她所注视的世间,也流入她如湖水般澄澈的目光。

英文句子:Intherealmofadvancedtechnology,theevolutionofartificialintelligencestandsasamonumentalachievement.Thisdynamicfield,constantlypushingtheboundariesofwhatmachinescando,hasseenrapidgrowthandinnovation.Fromdecipheringcomplexdatapatternstodrivingcarsautonomously,AI'sapplicationsarevastanddiverse.

不少网友直呼:虽然有点电音,不过效果已经很不错了,语调也不会让人感到不适。

不过,也有网友提醒,这个项目虽开源但不可商用。

-1-

解说纪录片、说绕口令,它到底行不行?

FishSpeech是一款开源文本转语音模型,由FishAudio公司开发。据介绍,该模型仅有亿级参数,能够在个人设备上轻松运行和微调。

官网链接:https://fish.audio/zh-CN/text-to-speech/

其官网界面设计简洁,在「发现」一栏列表里有网友训练的各种声音,例如丁真、川普、雷军、邓紫棋、董宇辉、单田芳等,还有AD学姐、流萤等二次元声音。

接下来,我们就来实际测评下。

首先是另类解说《动物世界》。

前不久,有个00后博主@维C动物园,以发疯的方式另类解说《动物世界》而出圈。

例如,在《鸮张跋扈》这一集中,博主以一分正经、两分清奇、三分幽默、四分莫名其妙的解说方式,介绍了一种叫做穴小鸮的动物。

我们就用Fishspeech中的「纪录片旁白」这个声音,给这个有大病的文案生成一段配音。

绿螳螂其实非常可爱,可爱死了,嘎嘣脆,鸡肉味,但这一切都与美洲鹑无关,因为它也自身难保,黄腹隼表示真香。黄腹隼遍布于南美洲各地,它们的视力极好,能看到10厘米以外的事物,所以我们今天的主角,不是它。

穴小鸮(xiao),江湖人称鸮鲜肉,跟我表哥一样,身高不足30厘米,十分可爱。正所谓「虎落平阳被犬欺,鸮在野外不如鸡」,穴小鸮常因捕食能力太差,实测最新语音模型:让特朗普丁真说绕口令堪称以假乱真,但断句整得稀碎而被邻居嘲笑。但咱不气馁,既然找不到食物,就去找食物的食物。

我们又选用丁真、邓紫棋的声音来说绕口令。

让特朗普说英文绕口令。

Ifyouunderstand,say"understand".Ifyoudon'tunderstand,say"don'tunderstand".Butifyouunderstandandsay"don'tunderstand",howdoIunderstandthatyouunderstand.Understand?

还有单田芳说段子。

Fishspeech的模仿能力一绝,它可以模仿特定人物的音色、语调到以假乱真的程度,比如说单田芳、邓紫棋、特朗普。

不过,它也有一些瑕疵,例如有时候它不识字,「穴小鸮」胡读一通;不懂断句,会把完整的句子读得稀碎。此外,输入的文本一旦太长,它就罢工。

-2-

三款TTS模型大乱斗

除了使用现成的语音外,我们还可以自己构建语音。

操作也很easy。只需点击网页上方的「构建声音」,即可跳转至新界面。然后上传封面、填写声音名称、输入音频即可。

其中,在输入音频这个环节,我们既可以上传现成的,也可以自己录制,不过它对时长有限制,最好在30秒左右。

例如,我们上传了一段徐志胜说脱口秀的音频。

来看一下效果:

李长庚最近有点烦。

他此刻骑在一只老鹤身上,在云雾里穿梭,想入了神。眼看快飞到启明殿,老鹤许是糊涂了,非但不减速,反而直直地撞了过去。李长庚回过神来,连连挥动拂尘,它才急急一拍双翅,歪歪斜斜地落在殿旁台阶上。

音色和徐志胜不能说毫不相干,只能说一模一样,连口音都很像。

我们还让它与「开源语音TTS天花板级别」的ChatTTS、Seed-TTS进行PK。

中文文本:好呀,哈哈哈哈哈,喜欢笑的人运气都不会差哦,希望你每天笑口常开。

FishSpeech:

ChatTTS:

由于字节的Seed-TTS还无法亲自体验,所以我们就用了它的官方示例。

这三款TTS模型各有千秋,如果非要给它们的实力排个序,Seed-TTS的断句、语音语调最自然,其次就是ChatTTS,FishSpeech虽然还有所欠缺,但它赢在可自定义音色上。

链接——

https://fish.audio/zh-CN/text-to-speech/

https://github.com/fishaudio/fish-speech

https://chattts.com/

https://bytedancespeech.github.io/seedtts_tech_report/

https://github.com/BytedanceSpeech/seed-tts-eval

以后我们会通过新专栏带来更多AIGC案例演示,也欢迎大家进群交流。

©THEEND

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com