python自动化采集数据(四)— 后台搭建

srq
srq
2024-06-27 / 0 评论 / 7 阅读
本文共1145 个字,平均阅读时长 ≈ 3分钟

一、fastadmin后台管理系统安装(略)

  • 安装的方式很简单很简单,有基础就很顺便,没基础就去好好学基础就好!

    在市面上找了很多的php二开系统,真的是少之又少,要不就是没有文档和生态支持,最终找到了fastadmin框架,因为我对全栈开发已经比较熟悉了,安装和配置过程是非常清晰的,一键CURD的功能背后,是很多规则制定的,文档写的全,但是没有找到侧重点,无法集中快速入门的方式,本文就根据我的想法,整理出快速学习fastadmin框架的思路

二、框架使用思路

如果把文档从头看到尾,头会长大真的,如何快速切入才是关键!
  1. 数据库里有一个测试表 fa_test,通过CURL命令去运行这个表
  2. 了解数据表的字段,如何自定义数据表(就像是一个法条已经规定好的,知道怎么去用规则做事就好) https://doc.fastadmin.net/doc/database.html
  3. 尝试去根据规则建立一张数据表,比如fa_stu,记录学生信息的表,去体验每一个字段
  4. 尝试去找到 CURD 过程中会发生的事

    类型位置
    控制器/admin/controller/Stu.php
    验证类/admin/validate/Stu.php
    模型类/admin/model/Stu.php
    视图层/admin/view/add.html edit del ...
    JS类/public/asset/js/backend/stu.js
  5. 尝试去改这些文件,自定义你的功能需求....(目前就到这,后面继续探索)
  6. 修改了数据库,需要重新创建菜单和控制器等才能生效,但是重新生成是覆盖模式,会把自己修改的文件覆盖掉,所以大改就备份原文件,小改就改代码。

三、任务管理

3.1 采集器任务管理

3.1.1 添加采集任务数据

3.1.1.1 站点管理数据设计

  • url 站点域名
  • title 站点名称
  • sl 各大网站收录情况
  • con_count 站点文章数量
  • is_task 站点是否有任务在执行
  • flow 站点流量
  • level 站点级别 【1 一级站 2 二级站】
  • created_at 站点创建时间
  • status 站点状态
    https://img.tucang.cc/api/image/show/18434be570d4d814c535bfc6d8d2d0c4

3.1.1.2 任务管理数据设计

  • z_id 站点标识
  • is_cj 采集任务是否开启
  • keywords 采集关键词
  • c_name 采集分类的名称
  • status 采集任务的状态【0 未采集 1 已采集 2 垃圾词】
    https://img.tucang.cc/api/image/show/c4c02c7e3317a86f66170d1902630623

3.1.2 传入采集器数据(远程window服务器实现采集服务)

移动云可以免费申请一个月的服务器: https://ecloud.10086.cn/portal
https://img.tucang.cc/api/image/show/fb44cfb11df3d9672cc6380ffebfc293
  • id 采集任务标记
  • keywords 采集关键词
  • c_name 采集分类的名称
  • status 采集任务的状态【0 未采集 1 已采集 2 关键词为垃圾词 3 禁止采集】

3.1.3 传回采集器数据

  • id 采集任务标记
  • cj_start_time 开始采集时间
  • cj_end_time 结束采集时间
  • cj_reset_count 采集重试次数
  • status 采集任务的状态【0 未采集 1 已采集 2 关键词为垃圾词 3 禁止采集】
  • cwc 百度长尾词
  • brief 采集内容的简介
  • content 采集的主体内容
  • img 采集封面图的url

四、采集数据保存

  1. 采集到的文章关键词重复检测,重复则跳过这个关键词
  2. 采集到的文章没有长尾词,删除后一个字符若干次,若还没有长尾词,则跳过这个关键词
  3. 采集搜狗图片作为封面图,搜狗知道的截图作为定位图,两张图片上传到目标网站的服务器上
  4. 采集文章内容,通过算法翻译等处理的文章,传到目标网站上
  5. 传到目标网站成功后,将结果传递到采集器后台,记录任务完成日志。

0

评论 (0)

取消