首页
关于
网站流量统计
图库记录
解忧屋
友情链接
搜索
1
python浏览器自动化点击工具 - 基于DrissionPage库实现
38 阅读
2
python搜索引擎热点采集工具 - 基于DrissionPage库实现
25 阅读
3
学习前言 - 智慧作业管理系统
23 阅读
4
joe主题宝塔数据未能展示修复 - 网站流量统计
22 阅读
5
python3.9安装
17 阅读
作业管理系统
python自动化
typecho二次开发
SEO-我的第一份工作
PyTorch深度学习笔记
登录
Search
标签搜索
python
seo
DrissionPage
自动化
内容采集
自动化点击
python安装教程
自动采集
python3.9
python环境变量配置
作业管理系统
教师管理作业
学生上传作业
thinkphp6
mysql
php
typecho
typecho二次开发
网站流量统计修复
joe主题bug
RQ桑
累计撰写
14
篇文章
累计收到
36
条评论
首页
栏目
作业管理系统
python自动化
typecho二次开发
SEO-我的第一份工作
PyTorch深度学习笔记
页面
关于
网站流量统计
图库记录
解忧屋
友情链接
搜索到
14
篇与
的结果
2024-06-19
python自动化采集数据(二)- 图片采集
一、 采集图片库内容站需要与内容相关的图片,本文的内容是采集图片1.1 采集第一张图片1.1.1 采集sougou图片,并压缩成一张原创的图片 ✓{collapse}{collapse-item label="采集 搜狗 图片,滚轮滚动 若干 个页面尺寸,滚动到 2 次 采集 20 左右 张图时,用request库抓取图片(已测试10小时稳定抓取60615张图片)" open} {/collapse-item}{collapse-item label="将图片压缩成一张大图" open} {/collapse-item}{/collapse}1.1.2 采集bing图片,并压缩成一张原创的图片 ✓{collapse}{collapse-item label="采集 bing 图片,滚轮滚动 若干 个页面尺寸,滚动到 2 次 采集 20 左右 张图片时,用request库抓取图片(已测试稳定抓取39489张图片)" open}{/collapse-item}{/collapse}将图片压缩成一张大图(测试效果同上)想法:用 pytorch 训练一个可以识别大楼的机器人,遇到不是大楼的图片能够智能化的筛掉1.2 采集第二张图片 ✓获取页面的 1-3条 ,使用 DrissionPage 截图实用的加水印工具 pip install filestools -i https://pypi.org/simple/ -U如果页面少于3张,就截取1-2条,以此类推{collapse}{collapse-item label="百度知道(同一个ip不稳定,10小时只采集了33个截图)" open}{/collapse-item}{collapse-item label="搜狗问问(同一个ip稳定,10小时采集了2043个截图)" open}{/collapse-item}{/collapse}
2024年06月19日
15 阅读
0 评论
0 点赞
2024-06-19
python自动化采集数据(一)- 采集思路
一、采集原则1.1 学习与创新内容还是那些内容,但是采集的思路要重新考虑,不要一味照搬,这样就失去了思考的意义,但是也要借鉴前车之优,2024年6月15日开始动工,采集多个知识站点的数据,处理成伪原创的文章,目的是获取百度流量。1.2 分工明确将内容模块分成A、B、C ... 去写,不要挤在一起,各自去处理各自的事,A、B、C三个事件互不影响。二、采集思路{collapse}{collapse-item label="1.图片采集和处理" open}方案一(滚动刷新)X {x}从 搜狗 采集图片 若干张 随机获取 16 张 {x}从 bing 采集图片 若干张 随机获取 16 张 (采集效率低) {x}通过python处理,随机挑选 执行 搜狗 还是 bing ,将16张图 组合成 一张新的图片问题:需要滚动 bing 很容易一次性采不满16张,速度 比 搜狗 慢一倍方案二(直接采集页面有的图片)X {x}从 搜狗 采集图片 若干张 随机获取 8 张 {x}从 bing 采集图片 若干张 随机获取 8 张 {x}通过python处理,将16张图 组合成 一张新的图片想法,没有实际去使用方案三(采集搜狗图库图片)✓ {x}从 搜狗 采集图片 若干张 随机获取 16 张 {x}通过python处理,将 16 张图 组合成 一张新的图片测试后稳定出图{/collapse-item}{collapse-item label="2.内容采集和处理" open}{x}从搜狗问问采集一张位置截图 {x}从百度知道,通过关键词,获取百度知道的长尾词,采集一条百度知道的内容作为描述词 {x}采集搜狗问问 {x}采集百度知道 {x}采集头条问答 (效率较低,经常采集不到内容) {x}使用 bing 翻译处理这些内容,变成伪原创的内容 { }发布文章,看流量知道效果(需要经过百度的验证){/collapse-item}{/collapse}
2024年06月19日
5 阅读
0 评论
1 点赞
2024年 3 - 6 月 工作心得
2024年06月13日
10 阅读
0 评论
1 点赞
2024-06-13
PHP是我的入职敲门砖,即使后续学习的方向会偏向python,但是这份工作至少不会让我的职业生涯被扼杀,土木是风吹日晒,没有休息,离家遥远,作假的活,是我这种性格干不了的事。3-4月,接触的是网站的套入,以及后端PHP写一个通用的一级菜单、二级菜单模板的实现,负责人给了个数据库和快速建站模板,指导我数据库查询要用limit,反反复复的磨合模板,其他全靠自己摸索,这两个月,套了30几个网站是有的。5月是毕业季,回了学校三趟,完成了毕业设计,这个月就套了不到5个站,开始追求网站的质量,接触python自动化脚本的学习,模拟点击和爬取搜索引擎的热点信息,第一次用自动化脚本,出现了很多bug,在解决问题的过程中,学到了try解决一切问题,软件要while无限循环执行,模拟点击的鼠标和滚动细节 6月,搭建了自己的个人博客,开始学习pytorch机器深度学习...
2024-06-12
PyTorch学习笔记(一)
一、配置开发环境1. 安装Anaconda1.1 Anaconda介绍Anaconda,中文大蟒蛇,是一个开源的Anaconda是专注于数据分析的Python发行版本,包含了conda、Python等190多个科学包及其依赖项。1.2 Anaconda安装网站清华大学镜像站1:https://repo.anaconda.com/archive/清华大学镜像站2(用科技后速度还行):https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/?C=M&O=D1.3 安装配置命令教程https://www.jb51.net/python/304622456.htm#_lab2_1_2建议安装3.9以下的python版本,高版本会出现比较多的版本冲突问题!2. 安装PytorchPytorch官网:https://pytorch.org/3. 安装pycharmpycharm官网:https://www.jetbrains.com.cn/pycharm/3.1 配置 conda 环境选择 G:\myware\anaconada\envs\mypython310\python.py4. 启动jupyter默认情况下,只有base环境能够启动jupyter,所以要在新建的环境启动jupyter,需要执行如下操作#python版本要低于3.9,不然会安装不下 conda install nb_conda #重新安装python conda uninstall python conda install python=3.9 # 安装完成后,在新建环境下执行 jupyter notebook{dotted startColor="#ff6c6c" endColor="#1989fa"/}本次学习环境搭建结束,下一篇学习pytorch基础!
2024年06月12日
15 阅读
0 评论
1 点赞
joe主题宝塔数据未能展示修复 - 网站流量统计
一、问题缘由我在使用joe主题的过程中,发现网站流量统计,有一个宝塔服务器的对接功能,但是在配置好宝塔的api和密钥后,发现无法使用,花费了1个小时(实际上几天的挣扎后 ::(狂汗) ),终于找到问题的根源,下面是解决问题的过程!{callout color="#f0ad4e"}解决答案放在文章底部。{/callout}二、基本配置在宝塔后台开启API接口,配置线上服务器的ip到白名单里,然后获取 宝塔地址 和 密钥在joe主题修改外观的其他设置,先配置好 宝塔地址 和 密钥没有出现信息【首先确保前面两个步骤没问题】,那么问题就不就不离十跟我遇到的一样了。 三、修复过程{card-list}{card-list-item}1.HTML端排查开启浏览器F12开发者模式,获取对应位置的class名称“joe_census__server”,找到相应源代码的位置:census.php文件下可以看到的是,里面的代码都是静态的,通过一个<?php if ($this->options->JBTPanel && $this->options->JBTKey) : ?>的判断去输出这块的内容,其实这块就是看你有没有配置这个信息,只要没有配置就是不输出,所以第一步没有找到问题的根源,但是在文件开头有一个<script src="<?php _getAssets('assets/js/joe.census.min.js'); ?>"></script>我尝试从里面寻找答案,测试时要把 min 去掉,测试压缩前的js文件--><script src="<?php _getAssets('assets/js/joe.census.js'); ?>"></script>{/card-list-item}{card-list-item}2.JavaScript排查在joe.census.js文件中,可以看到,其实是通过ajax请求后台php,去获取服务器内核数据的,再通过dom操作将内核数据插入到的html里。所以我在这些位置添加console.log()在控制台看请求的结果,这个结果让我非常惊喜,居然走到了error分支,responseText的代码是这样的,内核数据都出来了,但是有一个Warning警告,说明系统其实已经请求到数据了,但是没有走到success分支接下来,我沿着错误从ajax请求的后台路径,去找到请求的api{/card-list-item}{card-list-item}3.PHP脚本端排查$.ajax({ url: Joe.BASE_API, type: 'POST', dataType: 'json', data: { routeType: 'server_status' },...可以工具请求的特征,是通过一个server_status参数去请求一个http://my.srqcode.com/joe/api,接下来需要做的就是去找到这个api的位置,去看看请求的函数。在core目录下的core.php中,可以找到这段代码: {message type="info" content="说明在请求中,走到server_status分支时,回去请求一个_getServerStatus($self);方法,继续找到这个方法:"/}在找到这个方法后,看到$self->response->throwJson(array( /* 状态 */ "status" => $response ? true : false, /* 信息提示 */ "message" => $response['msg'], /* 上行流量KB */ "up" => $response["up"] ? $response["up"] : 0, /* 下行流量KB */ "down" => $response["down"] ? $response["down"] : 0, /* 总发送(字节数) */ "upTotal" => $response["upTotal"] ? $response["upTotal"] : 0, /* 总接收(字节数) */ "downTotal" => $response["downTotal"] ? $response["downTotal"] : 0, /* 内存占用 */ "memory" => $response["mem"] ? $response["mem"] : ["memBuffers" => 0, "memCached" => 0, "memFree" => 0, "memRealUsed" => 0, "memTotal" => 0], /* CPU */ "cpu" => $response["cpu"] ? $response["cpu"] : [0, 0, [0], 0, 0, 0], /* 系统负载 */ "load" => $response["load"] ? $response["load"] : ["fifteen" => 0, "five" => 0, "limit" => 0, "max" => 0, "one" => 0, "safe" => 0], ));还记得之前的报错吗,message未定义,找到宝塔最新的 api接口文档其实报错也已经提示错误的位置了 Warning: Undefined array key "msg" in /www/wwwroot/my.srqcode.com/usr/themes/Joe-master/core/route.php on line 325 {message type="success" content="果然,接口文档里面根本没有 message 这个字段,作者在写这个主题的时候可能还有这个参数,现在是没有了,把 message 行注释掉,问题就解决了,还记得
2024年06月09日
22 阅读
3 评论
3 点赞
1
2
3