AI 音乐创作新趋势：杭州男子月入十几万，40 秒生成一首歌

一句话看懂：一位浙江杭州的从业者使用 AI 音乐创作工具，上传图片就能在 40 秒内生成带人声的完整歌曲，月收入达数十万元。AI 生成歌曲的音色与唱法已接近真人，普通人难以分辨，这正在改变音乐内容的生产方式，同时也带来新的防诈挑战。

事件核心：发生了什么

据 AIbase 报道，杭州一位行业从业者利用国内公开可用的 AI 音乐创作工具，降低了音乐制作的门槛。用户只需上传一张图片，工具就能在约 40 秒内完成作曲、编曲并生成带有人声演唱的歌曲。该工具支持多种音乐风格，生成的歌声在技巧和音质上接近真人歌手。通过以极低的制作成本批量产出 AI 歌曲，并投放至音乐平台和短视频平台，这位创作者实现了每月数十万元人民币的营收，显示 AI 音乐生成在商业化上已具备落地能力。

为什么重要

这一现象对 AI 音乐创作行业的商业化路径具有指标意义。目前，市面上已有多款基于大模型的 AI 音乐生成工具，如可以处理文本或图片生成歌曲的闭源 API 或应用。当单个用户能够通过套利（低制作成本 vs. 平台版权收入或流量收益）获得可观收入时，说明 AI 生成内容的质量已经达到了能够被市场接受的临界点。对于音乐平台和短视频平台而言，这带来了版权归属、内容审核和流量分配的新问题。同时，这也意味着 AI 音乐生成技术的“推理”速度和成本已降到足以支持个人创作者批量生产，而不仅限于少数大公司进行实验性产出。

对用户/开发者/创作者的影响

对普通用户和消费者：一方面，更低成本的音乐制作工具意味着更多普通人可以尝试量身定制背景音乐、短视频配乐或个性化歌曲，收听体验将更加丰富。另一方面，专家提醒，AI 语音克隆技术和 AI 音乐人声模拟的普及也增加了诈骗风险：仅需 5 秒的通话录音，AI 就能合成一个逼真的声音模型，已经出现有人被冒充亲属的 AI 合成声音骗走 430 万元的案例；公众在接听未知来电时应减少个人信息和语音信息的暴露。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

对内容创作者和音乐人：个人音乐创作者面临更激烈的竞争——AI 可以在 40 秒内完成从作曲到人声的完整作品，且成本极低。创作者需要思考如何在 AI 工具基础上提供更高阶的创意、人声情感把控或独特风格，以形成不可替代性。同时，工具开发者（尤其是国内 API 服务商）可以关注为音乐流媒体和短视频平台提供批量化、自动化的 AI 音乐生成接口，以此切入现有的内容供给链条。

对开发者和行业观察者：目前公开信息显示，该工具通过图像输入生成歌曲，背后的技术路线可能结合了图像理解、文本到音乐（Text-to-Music）的生成大模型。开发者应关注此类模型的开源进展、API 调用成本及推理延时，以及多模态（图片+音频）生成路线是否会成为下一个主流方向。此外，防诈技术、语音指纹识别等配套安全方案可能会迎来新的需求增长。

值得关注的后续

1. 平台政策调整：音乐平台和短视频平台是否会出台明确的 AI 生成内容标识规则、版权分配方案或下架政策，将直接影响这类“低投入高产出”模式的长期可持续性。

2. 竞品与开源生态：国内目前是否已有对标的开源或闭源产品跟进，其生成质量、速度和成本能否持续优化；以及是否有大模型公司推出针对中文歌曲生成的专项训练。

3. 监管与反诈：随着 AI 语音与歌声合成的逼真度上升，相关监管部门（如网信办、工信部）是否会出台针对 AI 语音合成的识别、备案和防欺诈指南，这对所有提供语音或音乐合成 API/应用的企业都将产生合规影响。

来源：AIbase

AI 音乐创作新趋势：杭州男子月入十几万，40 秒生成一首歌