最新大模型使用的一点心得
由于墙的限制,grock和copilot是我常用的,Perplexity虽然白嫖了一年的会员,但是使用频率较低,至于谷歌gemini就更少了。
1.PC端大模型
(1)文生图,纯英文——copilot
代码理解——copilot
copilot的绘图功能还是不错的,他能听懂中文人话,这和它本身的中文搜索引擎有很大关系。
(2)长文本处理——KIMI
国内长文本处理使用KIMI,我的岩土索引处理,这次就多亏了它。
(3)日常中文处理——通义
平时使用最多的是通义,其实国内大模型除了Deepseek就是通义能打,
通义在咨询工程师考试中的表现可圈可点,其次就是他的指令记录功能,省了不少事。
当然,还有它的PPT生成,也有挖掘的空间。
(4)文生图,中英文——即梦
根据文案生成一张视频封面图,4:3,顶部主副标题字体均用黄色,人的轮廓加上白色线条。
是的,油管还有B站有一些视频的封面做的很好,之前没有很好的大模型来生成这个,
中文总是出现意想不到的乱码,现在抖音旗下的即梦就可以实现。
(5)视频转文字——豆包
它不仅可以转抖音短视频的,还可以转B站视频链接为文字,至于油管的还没有试。
2.云端大模型
云端大模型主要部属在腾讯云,目前的签到2h还是可以,至于之前的10000小时,经常因为GPU不足打不开或者要长时间等待。
(1)语音克隆——MaskGCT
部属时,需要严格的按照说明虚拟环境,相关依赖,训练模型较大20G,下载比较慢。
(2)语音驱动口型——DICE-Talk
Gihub源码存在大的BUG,在最后一步生成MP4时会报错,需要修改一处源代码。
(3)换脸,视频换脸——facefusion3.3.2
在视频换脸时,如果加上新的细化模型,就意味着多出N倍的处理时间。
(3)行为模拟——ComfyUI
本质是阿里WAN2.0的各种变种,节点依赖非常难处理,尤其不是N卡时,各种坑,倒腾了一天多也没有运行成功。而阿里自己的API是按秒收费的,据说十秒的视频十几块,还是再等等,看看有没有轻量可用的新变种。短视频上的哪些高阶的多人换脸、换声大都是团队制作。
3.流量来源
(1)国内
国内的几大平台都精的和猴一样,目前来看就B站在稳定给量。
(2)国外
国外油管有量,直接搬运毕竟不是长久之计;
美女视频换脸是一个赛道;
虚拟主播也是一个赛道;
搞的定WAN2.0的话,虚拟主播就可以达到一个新的高度,可惜这些都需要云端算力。
4.产品
目前在K6英语、雅思这两个领域尝试,前者是生成一些二创的视频放在B站,
后者是通过搜集,处理一些PDF放在公众号。
目前能活的到些许收益的竟然是夸克网盘推广。
评论
发表评论