首页
关于
网站流量统计
图库记录
友情链接
搜索
1
python浏览器自动化点击工具 - 基于DrissionPage库实现
48 阅读
2
joe主题宝塔数据未能展示修复 - 网站流量统计
31 阅读
3
python搜索引擎热点采集工具 - 基于DrissionPage库实现
29 阅读
4
python3.9安装
28 阅读
5
学习前言 - 智慧作业管理系统
24 阅读
作业管理系统
python自动化
typecho二次开发
SEO-我的第一份工作
PyTorch深度学习笔记
登录
Search
标签搜索
python
seo
DrissionPage
自动化
内容采集
自动化点击
python安装教程
自动采集
python3.9
python环境变量配置
作业管理系统
教师管理作业
学生上传作业
thinkphp6
mysql
php
typecho
typecho二次开发
网站流量统计修复
joe主题bug
RQ桑
累计撰写
15
篇文章
累计收到
38
条评论
首页
栏目
作业管理系统
python自动化
typecho二次开发
SEO-我的第一份工作
PyTorch深度学习笔记
页面
关于
网站流量统计
图库记录
友情链接
搜索到
1
篇与
的结果
2024-06-27
python自动化采集数据(四)— 后台搭建
一、fastadmin后台管理系统安装(略)安装的方式很简单很简单,有基础就很顺便,没基础就去好好学基础就好!在市面上找了很多的php二开系统,真的是少之又少,要不就是没有文档和生态支持,最终找到了fastadmin框架,因为我对全栈开发已经比较熟悉了,安装和配置过程是非常清晰的,一键CURD的功能背后,是很多规则制定的,文档写的全,但是没有找到侧重点,无法集中快速入门的方式,本文就根据我的想法,整理出快速学习fastadmin框架的思路二、框架使用思路如果把文档从头看到尾,头会长大真的,如何快速切入才是关键!数据库里有一个测试表 fa_test,通过CURL命令去运行这个表了解数据表的字段,如何自定义数据表(就像是一个法条已经规定好的,知道怎么去用规则做事就好) https://doc.fastadmin.net/doc/database.html尝试去根据规则建立一张数据表,比如fa_stu,记录学生信息的表,去体验每一个字段尝试去找到 CURD 过程中会发生的事类型位置控制器/admin/controller/Stu.php验证类/admin/validate/Stu.php模型类/admin/model/Stu.php视图层/admin/view/add.html edit del ...JS类/public/asset/js/backend/stu.js尝试去改这些文件,自定义你的功能需求....(目前就到这,后面继续探索)修改了数据库,需要重新创建菜单和控制器等才能生效,但是重新生成是覆盖模式,会把自己修改的文件覆盖掉,所以大改就备份原文件,小改就改代码。三、任务管理3.1 采集器任务管理3.1.1 添加采集任务数据3.1.1.1 站点管理数据设计url 站点域名title 站点名称sl 各大网站收录情况con_count 站点文章数量is_task 站点是否有任务在执行flow 站点流量level 站点级别 【1 一级站 2 二级站】created_at 站点创建时间status 站点状态 3.1.1.2 任务管理数据设计z_id 站点标识is_cj 采集任务是否开启keywords 采集关键词c_name 采集分类的名称status 采集任务的状态【0 未采集 1 已采集 2 垃圾词】 3.1.2 传入采集器数据(远程window服务器实现采集服务)移动云可以免费申请一个月的服务器: https://ecloud.10086.cn/portal id 采集任务标记keywords 采集关键词c_name 采集分类的名称status 采集任务的状态【0 未采集 1 已采集 2 关键词为垃圾词 3 禁止采集】3.1.3 传回采集器数据id 采集任务标记cj_start_time 开始采集时间cj_end_time 结束采集时间cj_reset_count 采集重试次数status 采集任务的状态【0 未采集 1 已采集 2 关键词为垃圾词 3 禁止采集】cwc 百度长尾词brief 采集内容的简介content 采集的主体内容img 采集封面图的url{alert type="success"} 此时让远程window服务器采集器开启,请求任务开始号令,fastadmin后台发起号令后,在有任务的前提下,采集器会开始发起模拟操作,采集完数据后,分别上传到网站服务器和采集后台服务器,任务结束,一个自动化采集系统由此诞生。{/alert}四、采集数据保存采集到的文章关键词重复检测,重复则跳过这个关键词采集到的文章没有长尾词,删除后一个字符若干次,若还没有长尾词,则跳过这个关键词采集搜狗图片作为封面图,搜狗知道的截图作为定位图,两张图片上传到目标网站的服务器上采集文章内容,通过算法翻译等处理的文章,传到目标网站上传到目标网站成功后,将结果传递到采集器后台,记录任务完成日志。{lamp/}{card-describe title="告一段落"}采集器的雏形已经实现,后期的优化方向有:根据不同行业的关键词,找到不同的采集对象二次开发采集器后台,让采集效率进一步提升针对采集过程中的系统报错细节进行优化,包括采集时被检测到违规行为,以及关键词没有结果的情况等等!写这篇文章时,采集器已经可以不报错的稳定运行,历时20多天的努力,达到了组长预定的采集基本要求,涉及到python、PHP、MySQL一些标准的技术,体验到一回生二回熟的快感,但是还是有告一段落,后期将会针对该系统做进一步的优化吧{/card-describe}
2024年06月27日
16 阅读
0 评论
0 点赞