分类 python自动化下的文章 - RQ桑个人博客_程序员的个人网站-个人博客搭建与设计

登录

标签搜索

RQ桑

累计撰写 15 篇文章
累计收到 38 条评论

搜索到 9 篇与的结果

2024-10-11
python自动化采集数据（五）— 思路升级本文重新整理文章采集系统搭建思路采集工具：使用python自动化功能，根据相关的需求，获得对应的内容发布网站：内容发布网站存入api文件，负责接收采集工具的内容，存入网站的数据系统控制中心：使用php完成一个任务控制中心，由负责人建立api接口，内容发布规则，采集工具监控，在采集工具和目标网站建立连接桥梁。{collapse}{collapse-item label="1. 采集工具" open} 就是一盘大萝卜{/collapse-item}{collapse-item label="2. 发布网站"} {/collapse-item}{collapse-item label="3. 控制中心"} {/collapse-item}{/collapse}
- 2024年10月11日
- 6 阅读
- 0 评论
- 0 点赞
2024-06-27
python自动化采集数据（四）— 后台搭建一、fastadmin后台管理系统安装（略）安装的方式很简单很简单，有基础就很顺便，没基础就去好好学基础就好！在市面上找了很多的php二开系统，真的是少之又少，要不就是没有文档和生态支持，最终找到了fastadmin框架，因为我对全栈开发已经比较熟悉了，安装和配置过程是非常清晰的，一键CURD的功能背后，是很多规则制定的，文档写的全，但是没有找到侧重点，无法集中快速入门的方式，本文就根据我的想法，整理出快速学习fastadmin框架的思路二、框架使用思路如果把文档从头看到尾，头会长大真的，如何快速切入才是关键！数据库里有一个测试表 fa_test，通过CURL命令去运行这个表了解数据表的字段，如何自定义数据表（就像是一个法条已经规定好的，知道怎么去用规则做事就好） https://doc.fastadmin.net/doc/database.html尝试去根据规则建立一张数据表，比如fa_stu，记录学生信息的表，去体验每一个字段尝试去找到 CURD 过程中会发生的事类型位置控制器/admin/controller/Stu.php验证类/admin/validate/Stu.php模型类/admin/model/Stu.php视图层/admin/view/add.html edit del ...JS类/public/asset/js/backend/stu.js尝试去改这些文件，自定义你的功能需求....（目前就到这，后面继续探索）修改了数据库，需要重新创建菜单和控制器等才能生效，但是重新生成是覆盖模式，会把自己修改的文件覆盖掉，所以大改就备份原文件，小改就改代码。三、任务管理3.1 采集器任务管理3.1.1 添加采集任务数据3.1.1.1 站点管理数据设计url 站点域名title 站点名称sl 各大网站收录情况con_count 站点文章数量is_task 站点是否有任务在执行flow 站点流量level 站点级别【1 一级站 2 二级站】created_at 站点创建时间status 站点状态 3.1.1.2 任务管理数据设计z_id 站点标识is_cj 采集任务是否开启keywords 采集关键词c_name 采集分类的名称status 采集任务的状态【0 未采集 1 已采集 2 垃圾词】 3.1.2 传入采集器数据（远程window服务器实现采集服务）移动云可以免费申请一个月的服务器： https://ecloud.10086.cn/portal id 采集任务标记keywords 采集关键词c_name 采集分类的名称status 采集任务的状态【0 未采集 1 已采集 2 关键词为垃圾词 3 禁止采集】3.1.3 传回采集器数据id 采集任务标记cj_start_time 开始采集时间cj_end_time 结束采集时间cj_reset_count 采集重试次数status 采集任务的状态【0 未采集 1 已采集 2 关键词为垃圾词 3 禁止采集】cwc 百度长尾词brief 采集内容的简介content 采集的主体内容img 采集封面图的url{alert type="success"} 此时让远程window服务器采集器开启，请求任务开始号令，fastadmin后台发起号令后，在有任务的前提下，采集器会开始发起模拟操作，采集完数据后，分别上传到网站服务器和采集后台服务器，任务结束，一个自动化采集系统由此诞生。{/alert}四、采集数据保存采集到的文章关键词重复检测，重复则跳过这个关键词采集到的文章没有长尾词，删除后一个字符若干次，若还没有长尾词，则跳过这个关键词采集搜狗图片作为封面图，搜狗知道的截图作为定位图，两张图片上传到目标网站的服务器上采集文章内容，通过算法翻译等处理的文章，传到目标网站上传到目标网站成功后，将结果传递到采集器后台，记录任务完成日志。{lamp/}{card-describe title="告一段落"}采集器的雏形已经实现，后期的优化方向有：根据不同行业的关键词，找到不同的采集对象二次开发采集器后台，让采集效率进一步提升针对采集过程中的系统报错细节进行优化，包括采集时被检测到违规行为，以及关键词没有结果的情况等等！写这篇文章时，采集器已经可以不报错的稳定运行，历时20多天的努力，达到了组长预定的采集基本要求，涉及到python、PHP、MySQL一些标准的技术，体验到一回生二回熟的快感，但是还是有告一段落，后期将会针对该系统做进一步的优化吧{/card-describe}
- 2024年06月27日
- 16 阅读
- 0 评论
- 0 点赞
2024-06-20
python自动化采集问题 — 采集百度长尾词失败 {alert type="warning"}2024-06-20 20:02:12 星期四在调试自动采集的过程中，遇到无脑的问题的解决过程 -----{/alert}如图所示，第一张图片没有出现下拉词，第二张图片出现了，非常的奇怪input =self.page.ele('#kw') scrollPage.scrollPage(self.page).pyautoguiLocal(input) input.clear() input.focus() self.page.wait(1) input.input("棉城吃饭哪家好吃") ---同样的输入，这段代码会出现长尾词 input.input(self.keyword) ---这段代码不能出现长尾词（从一个cvs文件提取出来的） self.page.wait(1) {alert type="info"} 找了许久没发现问题，我就注释掉获取长尾词的代码，然后当跳到百度知道时，当我看到 字符,我一脸懵逼，这是什么鬼，这个字符是不显示的，但是看到这个效果，我就可以接着这个问题寻求答案了！{/alert}{alert type="info"} 最后我找到了这个cvs文件，我哭笑不得，就是个编码错误，搞了我一个小时UTF-8 with BOM utf8bom是什么牛马，改成utf8，问题就解决了{/alert}{lamp/}消耗了我一小时，（解决问题前我立下flag，解决完就去打羽毛球的），最后球也打不成哈哈！
- 2024年06月20日
- 14 阅读
- 0 评论
- 1 点赞
2024-06-19
python自动化采集数据（三）- 内容采集想法：搭建自己的一个内容采集站点，里面包括羽毛球、跑步、棉城两个模块。一、采集内容根据输入的关键词，模拟浏览器的操作，采集百度知道，搜狗知道，今日头条，360，知乎，百度健康的内容，合成一个，并截取图片，主要采集的坐标，多采集得到一个内容框架先分步采集到百度健康、百度知道、搜狗知道、360问问、今日头条问问等内容，再去合成一个整体，主要目的是去伪做原创，获取百度流量。1.1 关键词模拟api(测试)后期要搭建一个后台管理系统，管理任务！{collapse}{collapse-item label="建立关键词库，模拟后台api" open}{/collapse-item}{/collapse}1.2 采集部分{x}采集百度知道、百度宝宝知道{x}采集搜狗问问{x}采集360问答{collapse}{collapse-item label="采集功能测试（ 8小时稳定采集355轮，生成355次内容）" open}{/collapse-item}{/collapse}二、采集内容处理{x}百度长尾词 + 关键词组成 keyword 和 title 字段，关键词作为 name 字段{alert type="error"}有的关键词很容易没有长尾词，这个时候为了不浪费这个词，就截掉关键词的后3个，去处理！{/alert}{x}将采集到文章的保存到 'filename_original.txt' 位置，处理删除空格段落，记为采集源文章{ }检测内容的字数长度，至少要满足 500 字，不满足则继续采集{x}翻译采集到的内容，保存到 'filename_fy.txt' 位置，记为翻译后的文章{x}对翻译后的内容，处理删除空格段落，与关键词进行匹配，算法评分(示例):关键词单次分值五院5汕头4生孩子3性别2医院1..........{x}取出最高排名的段落，查看字数，200字以下，有上段加上端，有下段加下段，循环4轮，期间字数大于250就break，此时的文段就是文章的 brief 和 description 字段{x}对翻译后的内容，进行p标签和img标签和去空格处理，作为 content 字段2.1 内容转换通过 python 的 pyperclip 库完成文本内容的处理，根据段落添加p标签，去除多余的空格{collapse}{collapse-item label="修改前采集文本" open}{/collapse-item}{collapse-item label="翻译去伪，添加p标签后的文本" open}{/collapse-item}{/collapse}
- 2024年06月19日
- 14 阅读
- 0 评论
- 0 点赞
2024-06-19
python自动化采集数据（二）- 图片采集一、采集图片库内容站需要与内容相关的图片，本文的内容是采集图片1.1 采集第一张图片1.1.1 采集sougou图片，并压缩成一张原创的图片 ✓{collapse}{collapse-item label="采集搜狗图片，滚轮滚动若干个页面尺寸，滚动到 2 次采集 20 左右张图时，用request库抓取图片(已测试10小时稳定抓取60615张图片)" open} {/collapse-item}{collapse-item label="将图片压缩成一张大图" open} {/collapse-item}{/collapse}1.1.2 采集bing图片，并压缩成一张原创的图片 ✓{collapse}{collapse-item label="采集 bing 图片，滚轮滚动若干个页面尺寸，滚动到 2 次采集 20 左右张图片时，用request库抓取图片(已测试稳定抓取39489张图片)" open}{/collapse-item}{/collapse}将图片压缩成一张大图（测试效果同上）想法：用 pytorch 训练一个可以识别大楼的机器人，遇到不是大楼的图片能够智能化的筛掉1.2 采集第二张图片 ✓获取页面的 1-3条，使用 DrissionPage 截图实用的加水印工具 pip install filestools -i https://pypi.org/simple/ -U如果页面少于3张，就截取1-2条，以此类推{collapse}{collapse-item label="百度知道（同一个ip不稳定，10小时只采集了33个截图）" open}{/collapse-item}{collapse-item label="搜狗问问（同一个ip稳定，10小时采集了2043个截图）" open}{/collapse-item}{/collapse}
- 2024年06月19日
- 16 阅读
- 0 评论
- 0 点赞

1
2