本文共470 个字,平均阅读时长 ≈ 2分钟
一、采集原则
1.1 学习与创新
内容还是那些内容,但是采集的思路要重新考虑,不要一味照搬,这样就失去了思考的意义,但是也要借鉴前车之优,2024年6月15日开始动工,采集多个知识站点的数据,处理成伪原创的文章,目的是获取百度流量。
1.2 分工明确
将内容模块分成A、B、C ... 去写,不要挤在一起,各自去处理各自的事,A、B、C三个事件互不影响。
二、采集思路
- 方案一(滚动刷新)X
从 搜狗 采集图片 若干张 随机获取 16 张
从 bing 采集图片 若干张 随机获取 16 张 (采集效率低)
通过python处理,随机挑选 执行 搜狗 还是 bing ,将16张图 组合成 一张新的图片
问题:需要滚动 bing 很容易一次性采不满16张,速度 比 搜狗 慢一倍
- 方案二(直接采集页面有的图片)X
从 搜狗 采集图片 若干张 随机获取 8 张
从 bing 采集图片 若干张 随机获取 8 张
通过python处理,将16张图 组合成 一张新的图片
想法,没有实际去使用
- 方案三(采集搜狗图库图片)✓
从 搜狗 采集图片 若干张 随机获取 16 张
通过python处理,将 16 张图 组合成 一张新的图片
测试后稳定出图
{/collapse-item}
{collapse-item label="2.内容采集和处理" open}
从搜狗问问采集一张位置截图
从百度知道,通过关键词,获取百度知道的长尾词,采集一条百度知道的内容作为描述词
采集搜狗问问
采集百度知道
采集头条问答 (效率较低,经常采集不到内容)
使用 bing 翻译处理这些内容,变成伪原创的内容
发布文章,看流量知道效果(需要经过百度的验证)
{/collapse-item}
评论 (0)