孙燕姿果然不愧是孙燕姿,不愧为南洋理工大学的高材生,近日她在个人官方媒体博客上写了一篇英文版的长文,正式回应现在满城风雨的“AI孙燕姿”现象,流行天后展示了超人一等的智识水平,行文优美,绵恒隽永,对AIGC艺术表现得极其克制,又相当宽容,充满了语言上的古典之美,表现出了“任彼如泰山压顶,我只当清风拂面”的博大胸怀。
(相关资料图)
本次我们利用edge-tts和Sadtalker库让AI孙燕姿朗诵本尊的博文,让流行天后念给你听。
Sadtalker配置之前我们曾经使用百度开源的PaddleGAN视觉效果模型中一个子模块Wav2lip实现了人物口型与输入的歌词语音同步,但Wav2lip的问题是虚拟人物的动态效果只能局限在嘴唇附近,事实上,音频和不同面部动作之间的连接是不同的,也就是说,虽然嘴唇运动与音频的联系最强,但可以通过不同的头部姿势和眨眼来反作用于音频。
和Wav2lip相比,SadTaker是一种通过隐式3D系数调制的风格化音频驱动Talking头部视频生成的库,一方面,它从音频中生成逼真的运动系数(例如,头部姿势、嘴唇运动和眨眼),并单独学习每个运动以减少不确定性。对于表达,通过从的仅嘴唇运动系数和重建的渲染三维人脸上的感知损失(唇读损失,面部landmark loss)中提取系数,设计了一种新的音频到表达系数网络。
对于程序化的头部姿势,通过学习给定姿势的残差,使用条件VAE来对多样性和逼真的头部运动进行建模。在生成逼真的3DMM系数后,通过一种新颖的3D感知人脸渲染来驱动源图像。并且通过源和驱动的无监督3D关键点生成扭曲场,并扭曲参考图像以生成最终视频。
Sadtalker可以单独配置,也可以作为Stable-Diffusion-Webui的插件而存在,这里推荐使用Stable-Diffusion插件的形式,因为这样Stable-Diffusion和Sadtalker可以共用一套WebUI的界面,更方便将Stable-Diffusion生成的图片做成动态效果。
进入到Stable-Diffusion的项目目录:
cd stable-diffusion-webui
启动服务:
python3.10 webui.py
程序返回:
Python 3.10.11 (tags/v3.10.11:7d4cc5a, Apr 5 2023, 00:38:17) [MSC v.1929 64 bit (AMD64)] Version: v1.3.0 Commit hash: 20ae71faa8ef035c31aa3a410b707d792c8203a3 Installing requirements Launching Web UI with arguments: --xformers --opt-sdp-attention --api --lowvram Loading weights [b4d453442a] from D:\work\stable-diffusion-webui\models\Stable-diffusion\protogenV22Anime_protogenV22.safetensors load Sadtalker Checkpoints from D:\work\stable-diffusion-webui\extensions\SadTalker\checkpoints Creating model from config: D:\work\stable-diffusion-webui\configs\v1-inference.yaml LatentDiffusion: Running in eps-prediction mode DiffusionWrapper has 859.52 M params. Running on local URL: http://127.0.0.1:7860
代表启动成功,随后http://localhost:7860
选择插件(Extensions)选项卡
点击从url安装,输入插件地址:github.com/Winfredy/SadTalker
安装成功后,重启WebUI界面。
接着需要手动下载相关的模型文件:
https://pan.baidu.com/s/1nXuVNd0exUl37ISwWqbFGA?pwd=sadt
随后将模型文件放入项目的stable-diffusion-webui/extensions/SadTalker/checkpoints/目录即可。
接着配置一下模型目录的环境变量:
set SADTALKER_CHECKPOINTS=D:/stable-diffusion-webui/extensions/SadTalker/checkpoints/
至此,SadTalker就配置好了。
edge-tts音频转录之前的歌曲复刻是通过So-vits库对原歌曲的音色进行替换和预测,也就是说需要原版的歌曲作为基础数据。但目前的场景显然有别于歌曲替换,我们首先需要将文本转换为语音,才能替换音色。
这里使用edge-tts库进行文本转语音操作:
import asyncio import edge_tts TEXT = """ As my AI voice takes on a life of its own while I despair over my overhanging stomach and my children"s every damn thing, I can"t help but want to write something about it. My fans have officially switched sides and accepted that I am indeed 冷门歌手 while my AI persona is the current hot property. I mean really, how do you fight with someone who is putting out new albums in the time span of minutes. Whether it is ChatGPT or AI or whatever name you want to call it, this "thing" is now capable of mimicking and/or conjuring, unique and complicated content by processing a gazillion chunks of information while piecing and putting together in a most coherent manner the task being asked at hand. Wait a minute, isn"t that what humans do? The very task that we have always convinced ourselves; that the formation of thought or opinion is not replicable by robots, the very idea that this is beyond their league, is now the looming thing that will threaten thousands of human conjured jobs. Legal, medical, accountancy, and currently, singing a song. You will protest, well I can tell the difference, there is no emotion or variance in tone/breath or whatever technical jargon you can come up with. Sorry to say, I suspect that this would be a very short term response. Ironically, in no time at all, no human will be able to rise above that. No human will be able to have access to this amount of information AND make the right calls OR make the right mistakes (ok mayyyybe I"m jumping ahead). This new technology will be able to churn out what exactly EVERYTHING EVERYONE needs. As indie or as warped or as psychotic as you can get, there"s probably a unique content that could be created just for you. You are not special you are already predictable and also unfortunately malleable. At this point, I feel like a popcorn eater with the best seat in the theatre. (Sidenote: Quite possibly in this case no tech is able to predict what it"s like to be me, except when this is published then ok it"s free for all). It"s like watching that movie that changed alot of our lives Everything Everywhere All At Once, except in this case, I don"t think it will be the idea of love that will save the day. In this boundless sea of existence, where anything is possible, where nothing matters, I think it will be purity of thought, that being exactly who you are will be enough. With this I fare thee well. """ VOICE = "en-HK-YanNeural" OUTPUT_FILE = "./test_en1.mp3" async def _main() -> None: communicate = edge_tts.Communicate(TEXT, VOICE) await communicate.save(OUTPUT_FILE) if __name__ == "__main__": asyncio.run(_main())
音频使用英文版本的女声:en-HK-YanNeural,关于edge-tts,请移步:口播神器,基于Edge,微软TTS(text-to-speech)文字转语音免费开源库edge-tts语音合成实践(Python3.10),这里不再赘述。
随后再将音频文件的音色替换为AI孙燕姿的音色即可:AI天后,在线飙歌,人工智能AI孙燕姿模型应用实践,复刻《遥远的歌》,原唱晴子(Python3.10)。
本地推理和爆显存问题准备好生成的图片以及音频文件后,就可以在本地进行推理操作了,访问 localhost:7860
这里输入参数选择full,如此会保留整个图片区域,否则只保留头部部分。
生成效果:
SadTalker会根据音频文件生成对应的口型和表情。
这里需要注意的是,音频文件只支持MP3或者wav。
除此以外,推理过程中Pytorch库可能会报这个错误:
torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0; 6.00 GiB total capacity; 5.38 GiB already allocated; 0 bytes free; 5.38 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF
这就是所谓的"爆显存问题"。
一般情况下,是因为当前GPU的显存不够了所导致的,可以考虑缩小torch分片文件的体积:
set PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:60
如果音频文件实在过大,也可以通过ffmpeg对音频文件切片操作,分多次进行推理:
ffmpeg -ss 00:00:00 -i test_en.wav -to 00:30:00 -c copy test_en_01.wav
藉此,就解决了推理过程中的爆显存问题。
结语和Wav2Lip相比,SadTalker(Stylized Audio-Driven Talking-head)提供了更加细微的面部运动细节(如眼睛眨动)等等,可谓是细致入微,巨细靡遗,当然随之而来的是模型数量和推理成本以及推理时间的增加,但显然,这些都是值得的。
标签:
上一篇 : 太湖科学城功能片区开展“六一”走访慰问活动 全球看点
下一篇 : 淘宝投诉卖家有用不(淘宝投诉卖家有用) 今日要闻
在六大国有大行集体宣布下调存量房贷利率的具体政策后,大多数股份行以
09-09 13:38:34
比赛中,内马尔上演了精彩过人但射门被扑出的一幕,这个球也是内马尔职
09-09 11:42:41
当初有多嚣张,现在就有多后悔。临沂“亮证”女子认怂了,她跑去向理发
09-09 10:08:02
9月5日,住建部办公厅发布关于工程建设强制性国家规范《太阳能发电工程
09-09 08:25:55
引言:揭开美团背后的劳动外包现象,探寻其价值所在。美团作为一家精细
09-09 05:55:33
您好,现在蔡蔡来为大家解答以上的问题。怎么用酷狗音乐来剪辑制作歌曲
09-09 00:45:21
9月8日长白山召开中报业绩说明会,2023上半年公司实现营收亿元,同比增
09-08 21:32:41
中泰化学(002092)09月08日在投资者关系平台上答复了投资者关心的问题。
09-08 20:53:17
首先是比赛非常密集,国乒球员们一天3赛,甚至4赛都是常事,比如9月8日
09-08 18:41:49
对医保移动支付这项事关患者切身感受的工作,既要加快推进,更要坚持系
09-08 17:10:10
据农业农村部监测,9月8日 "农产品批发价格200指数 "为121 62,比昨天
09-08 16:22:06
9月7日,全球环境科学家大会暨第七次全球环境展望第二次作者研讨会主论
09-08 15:00:09
9月8日晚8点,京东“9 9超省日”即将全面开启。作为京东全新打造的
09-08 14:03:52
OPEC+减产以及沙特和俄罗斯的延长减产一度推高油价至2023年90美元 桶以
09-08 12:26:12
9月7日凌晨3时许,甘肃省甘南藏族自治州夏河县达麦乡和麻当镇发生山洪
09-08 11:20:25
9月6日,《融贯东西的典范——敦煌文化主题展》在甘肃敦煌开展。该展览
09-08 10:35:51
格隆汇9月8日丨天赐材料002709002709SZ公布公司于2022年4月13日召开了
09-08 09:53:41
南铁继续调整列车运行方案-
09-01 10:27:30
阴天飞机能正常起飞,主要的限制因素是能见度(或跑道视程)与云底高。
09-01 09:17:57
8月30日,在奥地利维也纳交通博物馆,观众模拟体验地铁列车驾驶。
09-01 09:01:40
8月25日,华夏银行股份有限公司(以下简称“华夏银行”,600015 SH)发
09-01 07:28:27
题:亚洲制造业论坛秘书长罗军:制造业由大做强需做好三方面工作
09-01 05:30:56
环球汽车7月消息小杨来为大家解答以上问题,现在柴犬价格是多少怎么样
09-01 00:56:12
8月30日至31日,由新疆维吾尔自治区人民政府、国家中医药管理局共同主
08-31 21:35:48
卸货、分发、装车、配送……每年的开学季,都能看到出版、发行人忙碌的
08-31 20:08:36
利伟生物2023年上半年净利-243 05万亏损增长62 64%2023 8 3118:38:11挖
08-31 18:32:47
格隆汇8月31日丨保利文化(03636 HK)发布公告,截至2023年6月30日止六个
08-31 17:43:02
招聘岗位警务辅助人员:6名(限男性)招聘条件1、自愿从事辅警工作,乐于
08-31 16:37:44
在普安县茶源街道,提起冉家四姐妹冉应欢、冉桂琴、冉琴、冉敏,人人都
08-31 15:18:32
新华社圣彼得堡8月30日电(记者安晓萌)俄罗斯第32届国际农业工业展30
08-31 14:10:40
8月31日上午,2023年中国农民丰收节吉祥物和LOGO正式发布。今年中国农
08-31 12:45:33
今天(8月31日),今年第9号台风“苏拉”继续逼近广东沿海。受其影响,
08-31 11:14:12
本草撮要>> 卷五 五谷部刀豆味甘温。入手足阳明经。功专温中下气
08-31 10:14:26
一我们大院里,曾经有一对夫妇,男的是一位工程师,女的是一位中学老师
08-31 09:06:11
8月30日,华为云盘古大模型主题论坛在北京召开,华为云宣布将全面建设
08-31 08:02:53
蚊媒传染病,是指由蚊子传播的自然疫源性疾病,常见的有流行性乙型脑炎
08-31 06:30:48
相信大家对内嵌式冰箱插座,冰箱用多大的插座的问题都很疑惑,这个问题
08-31 02:56:24
体坛加,体坛+,天谭,山东泰山,北京国安,足协杯,崔康熙:精神战术都做好
08-30 22:37:45
1 你可以用一分钟遇见一个人,用一小时了解一个人,用一天爱上一个人,
08-30 20:58:17
“海粉儿之家”成立以来,粉丝的热情一浪高过一浪,这几天后台留言不断
08-30 19:48:06
据中国新闻网消息:湖北省纪委监委网站8月30日通报,中超公司董事长刘
08-30 18:32:33
沈阳市公安局30日发布消息称,沈阳警方近日经过缜密侦查、集中收网,破
08-30 17:13:20
每经AI快讯,有投资者在投资者互动平台提问:光模块的散热基座跟公司生
08-30 15:59:28
深度独立穿透取予有节,出入有时!作者:陈晚邻编辑:李明达风品:南辞
08-30 14:40:35
近期把欧洲转会市场搅得天翻地覆的沙特人又搞出了大名堂!沙特足协当地
08-30 13:44:50
产业园区招商引资是一个复杂而关键的过程。在全球经济高度竞争的环境下
08-30 12:16:25
8月29日,微信正式发布iOS平台的8 0 41版本更新。官方更新日志显示,此
08-30 11:06:10
在北京冬奥会迎来开幕倒计时30天之际,北京冬奥组委新闻发言人赵卫东5
08-30 09:59:34
金沃股份融资融券信息显示,2023年8月29日融资净偿还万元;融资余额万
08-30 08:43:59
08月29日,南京熊猫获沪股通增持万股,最新持股量为万股,占公司A股总
08-30 07:39:22
在六大国有大行集体宣布下调存量房贷利率的具体政策后,大多数股份行以
2023-09-09
比赛中,内马尔上演了精彩过人但射门被扑出的一幕,这个球也是内马尔职
2023-09-09
当初有多嚣张,现在就有多后悔。临沂“亮证”女子认怂了,她跑去向理发
2023-09-09
9月5日,住建部办公厅发布关于工程建设强制性国家规范《太阳能发电工程
2023-09-09
引言:揭开美团背后的劳动外包现象,探寻其价值所在。美团作为一家精细
2023-09-09
7月7日,中国消费者协会、中国保健协会化妆品发展工作委员会联合发布暑期消费指示,保障儿童用妆安全。...
概念特点1、 定义:纤维是天然或人工合成的细丝状物质,纺织纤维则是指用来纺织布的纤维。2、 纺织纤...
中新网西宁11月21日电 题:青海水润高原:从“大动脉”到“毛细血管”的精准管理 作者 谈林明...
中新网西宁11月21日电 (记者 张添福)青海省卫生健康委员会21日消息,该省第3例本土确诊病例经过20...
新华社华盛顿11月20日电 通讯:“留在中国的决定让我拥有一段值得讲述的人生”——留华美国学生韩...
上市公司频获机构调研 接待机构来访量为20.89万家
Copyright © 2015-2022 大河纤维网版权所有 备案号:京ICP备2022022245号-75 联系邮箱:435 226 40@qq.com