python自动化采集数据（三）- 内容采集

标签搜索

RQ桑

累计撰写 15 篇文章
累计收到 38 条评论

首页
/
python自动化
/
正文

python自动化 SEO-我的第一份工作

python自动化采集数据（三）- 内容采集

srq

2024-06-19 / 0 评论 / 14 阅读

06/19

本文共540 个字，平均阅读时长 ≈ 2分钟

想法：搭建自己的一个内容采集站点，里面包括羽毛球、跑步、棉城两个模块。

一、采集内容

根据输入的关键词，模拟浏览器的操作，采集百度知道，搜狗知道，今日头条，360，知乎，百度健康的内容，合成一个，并截取图片，主要采集的坐标，多采集得到一个内容框架先分步采集到百度健康、百度知道、搜狗知道、360问问、今日头条问问等内容，再去合成一个整体，主要目的是去伪做原创，获取百度流量。

1.1 关键词模拟api(测试)

后期要搭建一个后台管理系统，管理任务！

1.2 采集部分

采集百度知道、百度宝宝知道
采集搜狗问问
采集360问答

二、采集内容处理

百度长尾词 + 关键词组成 keyword 和 title 字段，关键词作为 name 字段

将采集到文章的保存到 'filename_original.txt' 位置，处理删除空格段落，记为采集源文章
检测内容的字数长度，至少要满足 500 字，不满足则继续采集
翻译采集到的内容，保存到 'filename_fy.txt' 位置，记为翻译后的文章
对翻译后的内容，处理删除空格段落，与关键词进行匹配，算法评分(示例):

关键词	单次分值
五院	5
汕头	4
生孩子	3
性别	2
医院	1
.....	.....

取出最高排名的段落，查看字数，200字以下，有上段加上端，有下段加下段，循环4轮，期间字数大于250就break，此时的文段就是文章的 brief 和 description 字段
对翻译后的内容，进行p标签和img标签和去空格处理，作为 content 字段

2.1 内容转换

通过 python 的 pyperclip 库完成文本内容的处理，根据段落添加p标签，去除多余的空格

内容采集 seo

版权属于： srq

本文链接： http://www.srqcode.com/post/78.html

作品采用：《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0) 》许可协议授权

python自动化采集数据（三）- 内容采集

一、采集内容

1.1 关键词模拟api(测试)

1.2 采集部分

二、采集内容处理

2.1 内容转换

python自动化采集数据（二）- 图片采集

python自动化采集数据（一）- 采集思路

评论 (0)

python自动化采集数据（三）- 内容采集

一、 采集内容

1.1 关键词模拟api(测试)

1.2 采集部分

二、 采集内容处理

2.1 内容转换

python自动化采集数据（二）- 图片采集

python自动化采集数据（一）- 采集思路

评论 (0)

一、采集内容

二、采集内容处理