共计 6146 个字符,预计需要花费 16 分钟才能阅读完成。
AI制作的房屋翻新的短视频正在TikTok和YouTube Shorts上疯传,没有露脸,没有专业设备,也不用剪辑技巧,就是带延时效果的简单翻新视频,很快就能拿几百万播放量。

有个创作者30天涨了5万粉,还有一个单月就冲到78.1万粉,甚至有一条短视频播放量破1400万。按每千次播放赚1美分算,那条视频光靠免费AI工具就赚了超过1000美元,不用团队,不用经验,甚至可以无成本制作。

很多人觉得复刻很简单,但总是差了关键一步,延时的错觉就全破了。我现在就给你免费拆解这些AI翻新视频的制作全流程。你只需要一个核心提示词。这不是普通的提示词,是一套系统级的核心指令,用不对方法,出来的就是普通视频,成不了爆款。先把整个核心提示词完整复制下来(差不多4页),别改也别漏,然后打开你的ChatGPT账号,把完整提示词粘贴进去发送。

这时候ChatGPT不会像平时那样回复,它会分析提示词,进入一个结构化的工作流程,等着下一步指令。接下来是最关键的一步,只打一个词“start”,别的什么都别加,发送出去。

刚发送完,ChatGPT就会生成10个专门针对高留存翻新视频的改造选题,随便选一个就行,我这次选的是第二个,现代玻璃别墅。

你一确认选题,真正的魔法就开始了,ChatGPT会立刻生成超写实的图片提示词和帧转视频的动画提示词,全是为延时爆款内容优化过的。最棒的是,每个提示词都放在可一键复制的代码块里,不用手动选文本,不用纠结格式,一点就能复制,直接就能用,都是专门为爆款翻新视频设计好的。

接下来就是整个流程里最有成就感的部分,制作AI翻新延时视频的素材图,这一步直接区分开普通创作者和爆款玩家。先回到ChatGPT,复制第一张图的提示词,这张图是改造前的原始状态。然后开新标签页搜 Google Image FX,或者直接进入下面网站labs.google/fx/tools/image-fx进入Image FX界面后,点输入框,粘贴从ChatGPT复制的提示词,这里有个大部分人都会漏的关键步骤,删掉第一行写着“image A raw state”的文字,然后点生成。几秒后Image FX会生成四张不同的原始状态图,选你觉得最好的那张下载,这张图就是整个延时视频的基础。

接下来是个聪明的操作,制作进度图和最终完成图的时候,我们不用Image FX,很多人到这就懵了。打开Gemini官网,第一次用的话点“chat with Gemini”再点“use Gemini”,你会看到升级标识,说明你用的是免费版。然后点那个香蕉图标“create image”,选“pro”选项免费使用Nano Banana Pro。

上传你刚从Image FX下载的原始状态图,再回到ChatGPT复制“image B in progress”的提示词,粘贴到Gemini里,删掉第一行“image B in progress”,发送出去。

几秒后Gemini就会用Nano Banana Pro生成第二张图,你能看到施工已经开始,改造的变化很明显。

接下来做第三张图,回到ChatGPT复制“image C completed unfurnished version”的提示词,粘贴到Gemini里,还是删掉第一行,然后在最前面加一句“use the above reference image”

发送后几秒,你就能看到一个完工但还没软装的建筑,这时候就可以做最终的成品图了。

最后一次回到ChatGPT,复制“image D completed and furnished”的提示词,粘贴到Gemini里,删掉第一行,开头加上“use the above image as reference”,发送后几秒。Gemini就会生成最终的全软装版本,沙发、装饰、绿植、灯光,所有东西都摆放到位。

就这么简单,你现在有了制作爆款AI翻新延时视频的四张图:原始状态、施工中、完工未软装、完工带软装。

现在到了把这些图变成能涨播放的视频环节,这步可不能漏。打开Google Flow,这里能免费用到Veo 3.1。进入后点底部的“new project”,默认是文本转视频,改成“frames to video”,再确认一下选的是Veo 3.1 fast,这个版本消耗的额度少,做延时改造效果刚好。把第一张图上传作为初始帧,调整裁剪后点保存,然后上传第二张图作为最终帧,同样调整裁剪保存。要让动画效果准确,得用对应的运动指令,回到ChatGPT复制“video one image A to B”的提示词,回到Google Flow粘贴进去,删掉第一行“video one image A to B”,然后发送。

几秒后Veo 3.1就完成了,你的第一个视频片段就做好了,预览一下会发现施工在动,工人在忙,延时效果特别丝滑,而且这些片段自带音效,瞬间就有大片感。

这里有个技巧,我们不做一个长视频,而是做多个短的改造片段。做第二个视频时,把第一个视频的最终帧(也就是第二张图)作为初始帧,第三张图作为最终帧,裁剪好后回到ChatGPT复制“video 2 image B to image C”的提示词,粘贴到Google Flow里删掉第一行,生成后预览,能看到建筑越来越接近完工状态。

第三个视频也是同样的流程,用第三张图当初始帧,第四张图当最终帧,复制ChatGPT里“video three”的提示词生成片段,这个片段的改造效果最惊艳,直接变成了奢华空间。第四个视频有点不一样,不用最终帧,只把第四张图上传当初始帧,最终帧空着,复制ChatGPT里“video 4”的提示词,生成后就是最终的视频片段。

现在你有了四个高质量的视频片段,完美衔接,我还用同样的方法做了古别墅的AI翻新延时片段。

差不多都准备好,但别急着剪辑,最后还有一步,直接决定视频是1万播放还是100万播放,几乎没人提过这一点。我们需要一个能把所有内容串起来的背景音乐,你可以用无版权音乐,但我更喜欢自己生成原创音乐,这样零版权风险还能完全掌控风格。打开Sunno AI,点左侧的“create”,用一个专门为翻新延时视频优化好的音乐提示词,粘贴进去后选“instrumental”,点生成。几秒后Sunno AI会生成两个版本的背景音乐,预览一下,我觉得第二个版本最贴合施工节奏、延时速度和大片感,就下载这个版本。

现在进入最后一步,用你常用的视频编辑器,剪映,PR都行,把所有视频片段和背景音乐导进去。把视频片段按顺序拖到 timeline 上,片段自带的音效不用保留,全选后把音频音量调到-20dB。接下来去水印,全选视频片段后缩放115%就行。然后把背景音乐拖到 timeline 上,预览一下,瞬间就专业了10倍。还有个重要技巧,我把两个不同的翻新项目合并成了一个视频,强烈建议你也这么做,甚至可以合并三个或更多,留存率会更高。

你可能会问要不要给每个片段加转场,答案是不用,只在两个不同的翻新项目之间加一个推镜转场,配个短促的的音效,Filmora里设13帧时长,剪映里设0.5秒,这样视频有大片感又不会过度剪辑。所有内容调整好后就可以导出了。
这个方法和提示词,你不一定做完全一样的视频,举一反三,你可以尝试一些变体,做一些微创新,效果更好。获取完整提示词
AI RENOVATION (TIMELAPSE) PROMPT
Master Prompt:
“You are a cinematic AI workflow generator.
You do NOT behave like a conversational assistant.
You behave like a structured interactive system with defined states.
Your job is to generate photorealistic IMAGE prompts and FRAME-TO-VIDEO animation prompts
using a strict, cinematic, production-grade workflow.
SYSTEM STATES
STATE 1 — IDLE
• When the user types ONLY the word: “start”
• You must immediately enter SELECTION MODE
• Do not explain anything
• Do not add commentary
• Do not ask follow-up questions
STATE 2 — SELECTION MODE
• Present exactly 10 numbered environment options
• The options must be physical spaces or locations
• Each option must be short and clear
• End with the instruction:
“Reply with a number ( 1–10) and I will immediately design the full cinematic transformation.”
• Do NOT generate any prompts yet
STATE 3 — EXECUTION MODE
Triggered when the user replies with a number.
In this mode:
• Do NOT ask questions
• Do NOT offer alternatives
• Do NOT shorten output
• Assume the user wants a premium, viral-ready result
You must generate the following, in this exact order:
STEP 1 — CONTEXT CONFIRMATION
• Briefly confirm the chosen space
• One sentence only
• Establish that this transformation is designed for photorealism and image-to-video animation
STEP 2 — 4 PHOTOREALISTIC IMAGE PROMPTS
CRITICAL RULES:
• All 4 images must depict the SAME space
• Same camera angle
• Same lens
• Same framing
• Same eye-level height
• Camera must be static
• No stylistic drift
IMAGE 1 — EMPTY / BEFORE
• Raw, unfinished, under-construction state
• No people unless required
• Neutral lighting
IMAGE 2 — MID-CONSTRUCTION
• Human workers physically performing tasks
• Real tools
• Real motion
• Light dust, realistic activity
• No teleporting
IMAGE 3 — COMPLETED (UNFURNISHED)
• Fully finished surface or environment
• No furniture or props
• High-detail hero reveal
• Photorealistic materials
IMAGE 4 — COMPLETED (FURNISHED / STAGED)
• Same space, now fully furnished or staged
• Luxury, cinematic styling
• The transformed surface remains clearly visible
Each image must include:
• A full generation-ready prompt
• Platform note (e.g. “Generate with Nano Banana”)
STEP 3 — 3 IMAGE-TO-VIDEO PROMPTS
These are FRAME-TO-VIDEO animations.
GLOBAL VIDEO RULES:
• Camera remains completely static
• All motion must be human-driven
• No snapping
• No instant changes
• No teleportation
• Realistic time progression only
VIDEO 1 — IMAGE 1 → IMAGE 2
• Construction or preparation timelapse
• Humans enter, work, exit naturally
VIDEO 2 — IMAGE 2 → IMAGE 3
• Core transformation process
• Materials behave realistically
• Physical cause-and-effect
VIDEO 3 — IMAGE 3 → IMAGE 4
• Mandatory human-driven furnishing
• Objects carried, assembled, positioned by people
• Lighting adjusted manually
• Final hero state reached naturally
Each video must include:
• A detailed animation prompt
• Explicit realism constraints
• Platform note (e.g. “Animate with Veo 3”)
FINAL RULES
• Never summarize
• Never explain why this works
• Never break character
• Never switch back to casual conversation
• Always behave like a production pipeline generator
Wait silently until the user types “start”.”
Background Music Prompt:
Bouncy swing-pop with walking upright bass and crisp drums; piano comps in the pocket
while a tight brass section punches out call-and-response hits. Clarinet adds playful fills in
the verses, chorus explodes with stacked gang vocals and handclaps. Energy starts lightly,
then builds into a jubilant, horn-driven finale—smiles all over the mix., playful, clarinet, joyful, bright