最新大模型使用的一点心得

十月 15, 2025

由于墙的限制，grock和copilot是我常用的，Perplexity虽然白嫖了一年的会员，但是使用频率较低，至于谷歌gemini就更少了。

1.PC端大模型

（1）文生图，纯英文——copilot

代码理解——copilot

copilot的绘图功能还是不错的，他能听懂中文人话，这和它本身的中文搜索引擎有很大关系。

（2）长文本处理——KIMI

国内长文本处理使用KIMI，我的岩土索引处理，这次就多亏了它。

（3）日常中文处理——通义

平时使用最多的是通义，其实国内大模型除了Deepseek就是通义能打，

通义在咨询工程师考试中的表现可圈可点，其次就是他的指令记录功能，省了不少事。

当然，还有它的PPT生成，也有挖掘的空间。

（4）文生图，中英文——即梦

根据文案生成一张视频封面图，4:3，顶部主副标题字体均用黄色，人的轮廓加上白色线条。

是的，油管还有B站有一些视频的封面做的很好，之前没有很好的大模型来生成这个，

中文总是出现意想不到的乱码，现在抖音旗下的即梦就可以实现。

（5）视频转文字——豆包

它不仅可以转抖音短视频的，还可以转B站视频链接为文字，至于油管的还没有试。

2.云端大模型

云端大模型主要部属在腾讯云，目前的签到2h还是可以，至于之前的10000小时，经常因为GPU不足打不开或者要长时间等待。

（1）语音克隆——MaskGCT

部属时，需要严格的按照说明虚拟环境，相关依赖，训练模型较大20G，下载比较慢。

（2）语音驱动口型——DICE-Talk

Gihub源码存在大的BUG，在最后一步生成MP4时会报错，需要修改一处源代码。

（3）换脸，视频换脸——facefusion3.3.2

在视频换脸时，如果加上新的细化模型，就意味着多出N倍的处理时间。

（3）行为模拟——ComfyUI

本质是阿里WAN2.0的各种变种，节点依赖非常难处理，尤其不是N卡时，各种坑，倒腾了一天多也没有运行成功。而阿里自己的API是按秒收费的，据说十秒的视频十几块，还是再等等，看看有没有轻量可用的新变种。短视频上的哪些高阶的多人换脸、换声大都是团队制作。

3.流量来源

（1）国内

国内的几大平台都精的和猴一样，目前来看就B站在稳定给量。

（2）国外

国外油管有量，直接搬运毕竟不是长久之计；

美女视频换脸是一个赛道；

虚拟主播也是一个赛道；

搞的定WAN2.0的话，虚拟主播就可以达到一个新的高度，可惜这些都需要云端算力。

4.产品

目前在K6英语、雅思这两个领域尝试，前者是生成一些二创的视频放在B站，

后者是通过搜集，处理一些PDF放在公众号。

目前能活的到些许收益的竟然是夸克网盘推广。

搜索此博客

civilpy

最新大模型使用的一点心得

评论

发表评论

此博客中的热门博文

2025-5-29 部署一个跨境站

2025-07-01 视频经验总结

Wan2.2-Animate安装时候遇到的坑