首页
关于
网站流量统计
图库记录
解忧屋
友情链接
搜索
1
python浏览器自动化点击工具 - 基于DrissionPage库实现
21 阅读
2
学习前言 - 智慧作业管理系统
14 阅读
3
python搜索引擎热点采集工具 - 基于DrissionPage库实现
12 阅读
4
joe主题宝塔数据未能展示修复 - 网站流量统计
12 阅读
5
python3.9安装
9 阅读
作业管理系统
python自动化
typecho二次开发
SEO-我的第一份工作
PyTorch深度学习笔记
登录
Search
标签搜索
python
seo
DrissionPage
自动化
内容采集
自动化点击
python安装教程
自动采集
python3.9
python环境变量配置
作业管理系统
教师管理作业
学生上传作业
thinkphp6
mysql
php
typecho
typecho二次开发
网站流量统计修复
joe主题bug
RQ桑
累计撰写
13
篇文章
累计收到
25
条评论
首页
栏目
作业管理系统
python自动化
typecho二次开发
SEO-我的第一份工作
PyTorch深度学习笔记
页面
关于
网站流量统计
图库记录
解忧屋
友情链接
搜索到
6
篇与
的结果
2024-06-27
python自动化采集数据(四)— 后台搭建
一、fastadmin后台管理系统安装(略)安装的方式很简单很简单,有基础就很顺便,没基础就去好好学基础就好!在市面上找了很多的php二开系统,真的是少之又少,要不就是没有文档和生态支持,最终找到了fastadmin框架,因为我对全栈开发已经比较熟悉了,安装和配置过程是非常清晰的,一键CURD的功能背后,是很多规则制定的,文档写的全,但是没有找到侧重点,无法集中快速入门的方式,本文就根据我的想法,整理出快速学习fastadmin框架的思路二、框架使用思路如果把文档从头看到尾,头会长大真的,如何快速切入才是关键!数据库里有一个测试表 fa_test,通过CURL命令去运行这个表了解数据表的字段,如何自定义数据表(就像是一个法条已经规定好的,知道怎么去用规则做事就好) https://doc.fastadmin.net/doc/database.html尝试去根据规则建立一张数据表,比如fa_stu,记录学生信息的表,去体验每一个字段尝试去找到 CURD 过程中会发生的事类型位置控制器/admin/controller/Stu.php验证类/admin/validate/Stu.php模型类/admin/model/Stu.php视图层/admin/view/add.html edit del ...JS类/public/asset/js/backend/stu.js尝试去改这些文件,自定义你的功能需求....(目前就到这,后面继续探索)修改了数据库,需要重新创建菜单和控制器等才能生效,但是重新生成是覆盖模式,会把自己修改的文件覆盖掉,所以大改就备份原文件,小改就改代码。三、任务管理3.1 采集器任务管理3.1.1 添加采集任务数据3.1.1.1 站点管理数据设计url 站点域名title 站点名称sl 各大网站收录情况con_count 站点文章数量is_task 站点是否有任务在执行flow 站点流量level 站点级别 【1 一级站 2 二级站】created_at 站点创建时间status 站点状态 3.1.1.2 任务管理数据设计z_id 站点标识is_cj 采集任务是否开启keywords 采集关键词c_name 采集分类的名称status 采集任务的状态【0 未采集 1 已采集 2 垃圾词】 3.1.2 传入采集器数据(远程window服务器实现采集服务)移动云可以免费申请一个月的服务器: https://ecloud.10086.cn/portal id 采集任务标记keywords 采集关键词c_name 采集分类的名称status 采集任务的状态【0 未采集 1 已采集 2 关键词为垃圾词 3 禁止采集】3.1.3 传回采集器数据id 采集任务标记cj_start_time 开始采集时间cj_end_time 结束采集时间cj_reset_count 采集重试次数status 采集任务的状态【0 未采集 1 已采集 2 关键词为垃圾词 3 禁止采集】cwc 百度长尾词brief 采集内容的简介content 采集的主体内容img 采集封面图的url{alert type="success"} 此时让远程window服务器采集器开启,请求任务开始号令,fastadmin后台发起号令后,在有任务的前提下,采集器会开始发起模拟操作,采集完数据后,分别上传到网站服务器和采集后台服务器,任务结束,一个自动化采集系统由此诞生。{/alert}四、采集数据保存采集到的文章关键词重复检测,重复则跳过这个关键词采集到的文章没有长尾词,删除后一个字符若干次,若还没有长尾词,则跳过这个关键词采集搜狗图片作为封面图,搜狗知道的截图作为定位图,两张图片上传到目标网站的服务器上采集文章内容,通过算法翻译等处理的文章,传到目标网站上传到目标网站成功后,将结果传递到采集器后台,记录任务完成日志。{lamp/}{card-describe title="告一段落"}采集器的雏形已经实现,后期的优化方向有:根据不同行业的关键词,找到不同的采集对象二次开发采集器后台,让采集效率进一步提升针对采集过程中的系统报错细节进行优化,包括采集时被检测到违规行为,以及关键词没有结果的情况等等!写这篇文章时,采集器已经可以不报错的稳定运行,历时20多天的努力,达到了组长预定的采集基本要求,涉及到python、PHP、MySQL一些标准的技术,体验到一回生二回熟的快感,但是还是有告一段落,后期将会针对该系统做进一步的优化吧{/card-describe}
2024年06月27日
7 阅读
0 评论
0 点赞
2024-06-20
python自动化采集问题 — 采集百度长尾词失败
{alert type="warning"}2024-06-20 20:02:12 星期四在调试自动采集的过程中,遇到无脑的问题的解决过程 -----{/alert}如图所示,第一张图片没有出现下拉词,第二张图片出现了,非常的奇怪input =self.page.ele('#kw') scrollPage.scrollPage(self.page).pyautoguiLocal(input) input.clear() input.focus() self.page.wait(1) input.input("棉城吃饭哪家好吃") ---同样的输入,这段代码会出现长尾词 input.input(self.keyword) ---这段代码不能出现长尾词(从一个cvs文件提取出来的) self.page.wait(1) {alert type="info"} 找了许久没发现问题,我就注释掉获取长尾词的代码,然后当跳到百度知道时,当我看到 字符,我一脸懵逼,这是什么鬼,这个字符是不显示的,但是看到这个效果,我就可以接着这个问题寻求答案了!{/alert}{alert type="info"} 最后我找到了这个cvs文件,我哭笑不得,就是个编码错误,搞了我一个小时UTF-8 with BOM utf8bom是什么牛马,改成utf8,问题就解决了{/alert}{lamp/}消耗了我一小时,(解决问题前我立下flag,解决完就去打羽毛球的),最后球也打不成哈哈!
2024年06月20日
5 阅读
0 评论
1 点赞
2024-06-19
python自动化采集数据(三)- 内容采集
想法:搭建自己的一个内容采集站点,里面包括羽毛球、跑步、棉城两个模块。一、 采集内容根据输入的关键词,模拟浏览器的操作,采集百度知道,搜狗知道,今日头条,360,知乎,百度健康的内容,合成一个,并截取图片,主要采集的坐标,多采集得到一个内容框架先分步采集到百度健康、百度知道、搜狗知道、360问问、今日头条问问等内容,再去合成一个整体,主要目的是去伪做原创,获取百度流量。1.1 关键词模拟api(测试)后期要搭建一个后台管理系统,管理任务!{collapse}{collapse-item label="建立关键词库,模拟后台api" open}{/collapse-item}{/collapse}1.2 采集部分{x}采集百度知道、百度宝宝知道{x}采集搜狗问问{x}采集360问答{collapse}{collapse-item label="采集功能测试( 8小时稳定采集355轮,生成355次内容)" open}{/collapse-item}{/collapse}二、 采集内容处理{x}百度长尾词 + 关键词 组成 keyword 和 title 字段 ,关键词 作为 name 字段{alert type="error"}有的关键词很容易没有长尾词,这个时候为了不浪费这个词,就截掉关键词的后3个,去处理!{/alert}{x}将采集到文章的保存到 'filename_original.txt' 位置,处理删除空格段落,记为采集源文章{ }检测内容的字数长度,至少要满足 500 字,不满足则继续采集{x}翻译采集到的内容,保存到 'filename_fy.txt' 位置,记为翻译后的文章{x}对翻译后的内容,处理删除空格段落,与关键词进行匹配,算法评分(示例):关键词单次分值五院5汕头4生孩子3性别2医院1..........{x}取出最高排名的段落,查看字数,200字以下,有上段加上端,有下段加下段,循环4轮,期间字数大于250就break,此时的文段就是文章的 brief 和 description 字段{x}对翻译后的内容,进行p标签和img标签和去空格处理,作为 content 字段2.1 内容转换通过 python 的 pyperclip 库完成文本内容的处理,根据段落添加p标签,去除多余的空格{collapse}{collapse-item label="修改前采集文本" open}{/collapse-item}{collapse-item label="翻译去伪,添加p标签后的文本" open}{/collapse-item}{/collapse}
2024年06月19日
4 阅读
0 评论
0 点赞
2024-06-19
python自动化采集数据(二)- 图片采集
一、 采集图片库内容站需要与内容相关的图片,本文的内容是采集图片1.1 采集第一张图片1.1.1 采集sougou图片,并压缩成一张原创的图片 ✓{collapse}{collapse-item label="采集 搜狗 图片,滚轮滚动 若干 个页面尺寸,滚动到 2 次 采集 20 左右 张图时,用request库抓取图片(已测试10小时稳定抓取60615张图片)" open} {/collapse-item}{collapse-item label="将图片压缩成一张大图" open} {/collapse-item}{/collapse}1.1.2 采集bing图片,并压缩成一张原创的图片 ✓{collapse}{collapse-item label="采集 bing 图片,滚轮滚动 若干 个页面尺寸,滚动到 2 次 采集 20 左右 张图片时,用request库抓取图片(已测试稳定抓取39489张图片)" open}{/collapse-item}{/collapse}将图片压缩成一张大图(测试效果同上)想法:用 pytorch 训练一个可以识别大楼的机器人,遇到不是大楼的图片能够智能化的筛掉1.2 采集第二张图片 ✓获取页面的 1-3条 ,使用 DrissionPage 截图实用的加水印工具 pip install filestools -i https://pypi.org/simple/ -U如果页面少于3张,就截取1-2条,以此类推{collapse}{collapse-item label="百度知道(同一个ip不稳定,10小时只采集了33个截图)" open}{/collapse-item}{collapse-item label="搜狗问问(同一个ip稳定,10小时采集了2043个截图)" open}{/collapse-item}{/collapse}
2024年06月19日
5 阅读
0 评论
0 点赞
2024-06-19
python自动化采集数据(一)- 采集思路
一、采集原则1.1 学习与创新内容还是那些内容,但是采集的思路要重新考虑,不要一味照搬,这样就失去了思考的意义,但是也要借鉴前车之优,2024年6月15日开始动工,采集多个知识站点的数据,处理成伪原创的文章,目的是获取百度流量。1.2 分工明确将内容模块分成A、B、C ... 去写,不要挤在一起,各自去处理各自的事,A、B、C三个事件互不影响。二、采集思路{collapse}{collapse-item label="1.图片采集和处理" open}方案一(滚动刷新)X {x}从 搜狗 采集图片 若干张 随机获取 16 张 {x}从 bing 采集图片 若干张 随机获取 16 张 (采集效率低) {x}通过python处理,随机挑选 执行 搜狗 还是 bing ,将16张图 组合成 一张新的图片问题:需要滚动 bing 很容易一次性采不满16张,速度 比 搜狗 慢一倍方案二(直接采集页面有的图片)X {x}从 搜狗 采集图片 若干张 随机获取 8 张 {x}从 bing 采集图片 若干张 随机获取 8 张 {x}通过python处理,将16张图 组合成 一张新的图片想法,没有实际去使用方案三(采集搜狗图库图片)✓ {x}从 搜狗 采集图片 若干张 随机获取 16 张 {x}通过python处理,将 16 张图 组合成 一张新的图片测试后稳定出图{/collapse-item}{collapse-item label="2.内容采集和处理" open}{x}从搜狗问问采集一张位置截图 {x}从百度知道,通过关键词,获取百度知道的长尾词,采集一条百度知道的内容作为描述词 {x}采集搜狗问问 {x}采集百度知道 {x}采集头条问答 (效率较低,经常采集不到内容) {x}使用 bing 翻译处理这些内容,变成伪原创的内容 { }发布文章,看流量知道效果(需要经过百度的验证){/collapse-item}{/collapse}
2024年06月19日
2 阅读
0 评论
1 点赞
1
2