首页
关于
网站流量统计
图库记录
解忧屋
友情链接
搜索
1
python浏览器自动化点击工具 - 基于DrissionPage库实现
38 阅读
2
python搜索引擎热点采集工具 - 基于DrissionPage库实现
25 阅读
3
学习前言 - 智慧作业管理系统
23 阅读
4
joe主题宝塔数据未能展示修复 - 网站流量统计
22 阅读
5
python3.9安装
17 阅读
作业管理系统
python自动化
typecho二次开发
SEO-我的第一份工作
PyTorch深度学习笔记
登录
Search
标签搜索
python
seo
DrissionPage
自动化
内容采集
自动化点击
python安装教程
自动采集
python3.9
python环境变量配置
作业管理系统
教师管理作业
学生上传作业
thinkphp6
mysql
php
typecho
typecho二次开发
网站流量统计修复
joe主题bug
RQ桑
累计撰写
14
篇文章
累计收到
36
条评论
首页
栏目
作业管理系统
python自动化
typecho二次开发
SEO-我的第一份工作
PyTorch深度学习笔记
页面
关于
网站流量统计
图库记录
解忧屋
友情链接
搜索到
2
篇与
的结果
2024-06-19
python自动化采集数据(三)- 内容采集
想法:搭建自己的一个内容采集站点,里面包括羽毛球、跑步、棉城两个模块。一、 采集内容根据输入的关键词,模拟浏览器的操作,采集百度知道,搜狗知道,今日头条,360,知乎,百度健康的内容,合成一个,并截取图片,主要采集的坐标,多采集得到一个内容框架先分步采集到百度健康、百度知道、搜狗知道、360问问、今日头条问问等内容,再去合成一个整体,主要目的是去伪做原创,获取百度流量。1.1 关键词模拟api(测试)后期要搭建一个后台管理系统,管理任务!{collapse}{collapse-item label="建立关键词库,模拟后台api" open}{/collapse-item}{/collapse}1.2 采集部分{x}采集百度知道、百度宝宝知道{x}采集搜狗问问{x}采集360问答{collapse}{collapse-item label="采集功能测试( 8小时稳定采集355轮,生成355次内容)" open}{/collapse-item}{/collapse}二、 采集内容处理{x}百度长尾词 + 关键词 组成 keyword 和 title 字段 ,关键词 作为 name 字段{alert type="error"}有的关键词很容易没有长尾词,这个时候为了不浪费这个词,就截掉关键词的后3个,去处理!{/alert}{x}将采集到文章的保存到 'filename_original.txt' 位置,处理删除空格段落,记为采集源文章{ }检测内容的字数长度,至少要满足 500 字,不满足则继续采集{x}翻译采集到的内容,保存到 'filename_fy.txt' 位置,记为翻译后的文章{x}对翻译后的内容,处理删除空格段落,与关键词进行匹配,算法评分(示例):关键词单次分值五院5汕头4生孩子3性别2医院1..........{x}取出最高排名的段落,查看字数,200字以下,有上段加上端,有下段加下段,循环4轮,期间字数大于250就break,此时的文段就是文章的 brief 和 description 字段{x}对翻译后的内容,进行p标签和img标签和去空格处理,作为 content 字段2.1 内容转换通过 python 的 pyperclip 库完成文本内容的处理,根据段落添加p标签,去除多余的空格{collapse}{collapse-item label="修改前采集文本" open}{/collapse-item}{collapse-item label="翻译去伪,添加p标签后的文本" open}{/collapse-item}{/collapse}
2024年06月19日
12 阅读
0 评论
0 点赞
2024-06-19
python自动化采集数据(二)- 图片采集
一、 采集图片库内容站需要与内容相关的图片,本文的内容是采集图片1.1 采集第一张图片1.1.1 采集sougou图片,并压缩成一张原创的图片 ✓{collapse}{collapse-item label="采集 搜狗 图片,滚轮滚动 若干 个页面尺寸,滚动到 2 次 采集 20 左右 张图时,用request库抓取图片(已测试10小时稳定抓取60615张图片)" open} {/collapse-item}{collapse-item label="将图片压缩成一张大图" open} {/collapse-item}{/collapse}1.1.2 采集bing图片,并压缩成一张原创的图片 ✓{collapse}{collapse-item label="采集 bing 图片,滚轮滚动 若干 个页面尺寸,滚动到 2 次 采集 20 左右 张图片时,用request库抓取图片(已测试稳定抓取39489张图片)" open}{/collapse-item}{/collapse}将图片压缩成一张大图(测试效果同上)想法:用 pytorch 训练一个可以识别大楼的机器人,遇到不是大楼的图片能够智能化的筛掉1.2 采集第二张图片 ✓获取页面的 1-3条 ,使用 DrissionPage 截图实用的加水印工具 pip install filestools -i https://pypi.org/simple/ -U如果页面少于3张,就截取1-2条,以此类推{collapse}{collapse-item label="百度知道(同一个ip不稳定,10小时只采集了33个截图)" open}{/collapse-item}{collapse-item label="搜狗问问(同一个ip稳定,10小时采集了2043个截图)" open}{/collapse-item}{/collapse}
2024年06月19日
15 阅读
0 评论
0 点赞