本文共540 个字,平均阅读时长 ≈ 2分钟
想法:搭建自己的一个内容采集站点,里面包括羽毛球、跑步、棉城两个模块。
一、 采集内容
根据输入的关键词,模拟浏览器的操作,采集百度知道,搜狗知道,今日头条,360,知乎,百度健康的内容,合成一个,并截取图片,主要采集的坐标,多采集得到一个内容框架先分步采集到百度健康、百度知道、搜狗知道、360问问、今日头条问问等内容,再去合成一个整体,主要目的是去伪做原创,获取百度流量。
1.1 关键词模拟api(测试)
后期要搭建一个后台管理系统,管理任务!
1.2 采集部分
采集百度知道、百度宝宝知道
采集搜狗问问
采集360问答
二、 采集内容处理
百度长尾词 + 关键词 组成 keyword 和 title 字段 ,关键词 作为 name 字段
将采集到文章的保存到 'filename_original.txt' 位置,处理删除空格段落,记为采集源文章
检测内容的字数长度,至少要满足 500 字,不满足则继续采集
翻译采集到的内容,保存到 'filename_fy.txt' 位置,记为翻译后的文章
对翻译后的内容,处理删除空格段落,与关键词进行匹配,算法评分(示例):
关键词 | 单次分值 |
---|---|
五院 | 5 |
汕头 | 4 |
生孩子 | 3 |
性别 | 2 |
医院 | 1 |
..... | ..... |
取出最高排名的段落,查看字数,200字以下,有上段加上端,有下段加下段,循环4轮,期间字数大于250就break,此时的文段就是文章的 brief 和 description 字段
对翻译后的内容,进行p标签和img标签和去空格处理,作为 content 字段
2.1 内容转换
- 通过 python 的 pyperclip 库完成文本内容的处理,根据段落添加p标签,去除多余的空格
{collapse-item label="修改前采集文本" open}
{/collapse-item}
{collapse-item label="翻译去伪,添加p标签后的文本" open}
{/collapse-item}
评论 (0)