python自动化采集数据(三)- 内容采集

srq
srq
2024-06-19 / 0 评论 / 12 阅读
本文共540 个字,平均阅读时长 ≈ 2分钟
想法:搭建自己的一个内容采集站点,里面包括羽毛球、跑步、棉城两个模块。

一、 采集内容

根据输入的关键词,模拟浏览器的操作,采集百度知道,搜狗知道,今日头条,360,知乎,百度健康的内容,合成一个,并截取图片,主要采集的坐标,多采集得到一个内容框架先分步采集到百度健康、百度知道、搜狗知道、360问问、今日头条问问等内容,再去合成一个整体,主要目的是去伪做原创,获取百度流量。

1.1 关键词模拟api(测试)

后期要搭建一个后台管理系统,管理任务!

1.2 采集部分

采集百度知道、百度宝宝知道
采集搜狗问问
采集360问答

二、 采集内容处理

百度长尾词 + 关键词 组成 keyword 和 title 字段 ,关键词 作为 name 字段

将采集到文章的保存到 'filename_original.txt' 位置,处理删除空格段落,记为采集源文章
检测内容的字数长度,至少要满足 500 字,不满足则继续采集
翻译采集到的内容,保存到 'filename_fy.txt' 位置,记为翻译后的文章
对翻译后的内容,处理删除空格段落,与关键词进行匹配,算法评分(示例):

关键词单次分值
五院5
汕头4
生孩子3
性别2
医院1
..........

取出最高排名的段落,查看字数,200字以下,有上段加上端,有下段加下段,循环4轮,期间字数大于250就break,此时的文段就是文章的 brief 和 description 字段
对翻译后的内容,进行p标签和img标签和去空格处理,作为 content 字段

2.1 内容转换

  • 通过 python 的 pyperclip 库完成文本内容的处理,根据段落添加p标签,去除多余的空格

0

评论 (0)

取消