最新大模型使用的一点心得

由于墙的限制,grock和copilot是我常用的,Perplexity虽然白嫖了一年的会员,但是使用频率较低,至于谷歌gemini就更少了。


1.PC端大模型

(1)文生图,纯英文——copilot

代码理解——copilot

copilot的绘图功能还是不错的,他能听懂中文人话,这和它本身的中文搜索引擎有很大关系。


(2)长文本处理——KIMI

国内长文本处理使用KIMI,我的岩土索引处理,这次就多亏了它。


(3)日常中文处理——通义

平时使用最多的是通义,其实国内大模型除了Deepseek就是通义能打,

通义在咨询工程师考试中的表现可圈可点,其次就是他的指令记录功能,省了不少事。

当然,还有它的PPT生成,也有挖掘的空间。


(4)文生图,中英文——即梦

根据文案生成一张视频封面图,4:3,顶部主副标题字体均用黄色,人的轮廓加上白色线条。

是的,油管还有B站有一些视频的封面做的很好,之前没有很好的大模型来生成这个,

中文总是出现意想不到的乱码,现在抖音旗下的即梦就可以实现。


(5)视频转文字——豆包

它不仅可以转抖音短视频的,还可以转B站视频链接为文字,至于油管的还没有试。



2.云端大模型

云端大模型主要部属在腾讯云,目前的签到2h还是可以,至于之前的10000小时,经常因为GPU不足打不开或者要长时间等待。


(1)语音克隆——MaskGCT

部属时,需要严格的按照说明虚拟环境,相关依赖,训练模型较大20G,下载比较慢。


(2)语音驱动口型——DICE-Talk

Gihub源码存在大的BUG,在最后一步生成MP4时会报错,需要修改一处源代码。


(3)换脸,视频换脸——facefusion3.3.2

在视频换脸时,如果加上新的细化模型,就意味着多出N倍的处理时间。


(3)行为模拟——ComfyUI

本质是阿里WAN2.0的各种变种,节点依赖非常难处理,尤其不是N卡时,各种坑,倒腾了一天多也没有运行成功。而阿里自己的API是按秒收费的,据说十秒的视频十几块,还是再等等,看看有没有轻量可用的新变种。短视频上的哪些高阶的多人换脸、换声大都是团队制作。



3.流量来源

(1)国内

国内的几大平台都精的和猴一样,目前来看就B站在稳定给量。


(2)国外

国外油管有量,直接搬运毕竟不是长久之计;

美女视频换脸是一个赛道;

虚拟主播也是一个赛道;

搞的定WAN2.0的话,虚拟主播就可以达到一个新的高度,可惜这些都需要云端算力。


4.产品

目前在K6英语、雅思这两个领域尝试,前者是生成一些二创的视频放在B站,

后者是通过搜集,处理一些PDF放在公众号。


目前能活的到些许收益的竟然是夸克网盘推广。








评论

此博客中的热门博文

2025-5-29 部署一个跨境站

2025-07-01 视频经验总结

Wan2.2-Animate安装时候遇到的坑