首页
关于
网站流量统计
图库记录
友情链接
搜索
1
python浏览器自动化点击工具 - 基于DrissionPage库实现
48 阅读
2
joe主题宝塔数据未能展示修复 - 网站流量统计
31 阅读
3
python搜索引擎热点采集工具 - 基于DrissionPage库实现
29 阅读
4
python3.9安装
28 阅读
5
学习前言 - 智慧作业管理系统
24 阅读
作业管理系统
python自动化
typecho二次开发
SEO-我的第一份工作
PyTorch深度学习笔记
登录
Search
标签搜索
python
seo
DrissionPage
自动化
内容采集
自动化点击
python安装教程
自动采集
python3.9
python环境变量配置
作业管理系统
教师管理作业
学生上传作业
thinkphp6
mysql
php
typecho
typecho二次开发
网站流量统计修复
joe主题bug
RQ桑
累计撰写
15
篇文章
累计收到
38
条评论
首页
栏目
作业管理系统
python自动化
typecho二次开发
SEO-我的第一份工作
PyTorch深度学习笔记
页面
关于
网站流量统计
图库记录
友情链接
搜索到
15
篇与
的结果
2024-06-19
python自动化采集数据(三)- 内容采集
想法:搭建自己的一个内容采集站点,里面包括羽毛球、跑步、棉城两个模块。一、 采集内容根据输入的关键词,模拟浏览器的操作,采集百度知道,搜狗知道,今日头条,360,知乎,百度健康的内容,合成一个,并截取图片,主要采集的坐标,多采集得到一个内容框架先分步采集到百度健康、百度知道、搜狗知道、360问问、今日头条问问等内容,再去合成一个整体,主要目的是去伪做原创,获取百度流量。1.1 关键词模拟api(测试)后期要搭建一个后台管理系统,管理任务!{collapse}{collapse-item label="建立关键词库,模拟后台api" open}{/collapse-item}{/collapse}1.2 采集部分{x}采集百度知道、百度宝宝知道{x}采集搜狗问问{x}采集360问答{collapse}{collapse-item label="采集功能测试( 8小时稳定采集355轮,生成355次内容)" open}{/collapse-item}{/collapse}二、 采集内容处理{x}百度长尾词 + 关键词 组成 keyword 和 title 字段 ,关键词 作为 name 字段{alert type="error"}有的关键词很容易没有长尾词,这个时候为了不浪费这个词,就截掉关键词的后3个,去处理!{/alert}{x}将采集到文章的保存到 'filename_original.txt' 位置,处理删除空格段落,记为采集源文章{ }检测内容的字数长度,至少要满足 500 字,不满足则继续采集{x}翻译采集到的内容,保存到 'filename_fy.txt' 位置,记为翻译后的文章{x}对翻译后的内容,处理删除空格段落,与关键词进行匹配,算法评分(示例):关键词单次分值五院5汕头4生孩子3性别2医院1..........{x}取出最高排名的段落,查看字数,200字以下,有上段加上端,有下段加下段,循环4轮,期间字数大于250就break,此时的文段就是文章的 brief 和 description 字段{x}对翻译后的内容,进行p标签和img标签和去空格处理,作为 content 字段2.1 内容转换通过 python 的 pyperclip 库完成文本内容的处理,根据段落添加p标签,去除多余的空格{collapse}{collapse-item label="修改前采集文本" open}{/collapse-item}{collapse-item label="翻译去伪,添加p标签后的文本" open}{/collapse-item}{/collapse}
2024年06月19日
14 阅读
0 评论
0 点赞
2024-06-19
python自动化采集数据(二)- 图片采集
一、 采集图片库内容站需要与内容相关的图片,本文的内容是采集图片1.1 采集第一张图片1.1.1 采集sougou图片,并压缩成一张原创的图片 ✓{collapse}{collapse-item label="采集 搜狗 图片,滚轮滚动 若干 个页面尺寸,滚动到 2 次 采集 20 左右 张图时,用request库抓取图片(已测试10小时稳定抓取60615张图片)" open} {/collapse-item}{collapse-item label="将图片压缩成一张大图" open} {/collapse-item}{/collapse}1.1.2 采集bing图片,并压缩成一张原创的图片 ✓{collapse}{collapse-item label="采集 bing 图片,滚轮滚动 若干 个页面尺寸,滚动到 2 次 采集 20 左右 张图片时,用request库抓取图片(已测试稳定抓取39489张图片)" open}{/collapse-item}{/collapse}将图片压缩成一张大图(测试效果同上)想法:用 pytorch 训练一个可以识别大楼的机器人,遇到不是大楼的图片能够智能化的筛掉1.2 采集第二张图片 ✓获取页面的 1-3条 ,使用 DrissionPage 截图实用的加水印工具 pip install filestools -i https://pypi.org/simple/ -U如果页面少于3张,就截取1-2条,以此类推{collapse}{collapse-item label="百度知道(同一个ip不稳定,10小时只采集了33个截图)" open}{/collapse-item}{collapse-item label="搜狗问问(同一个ip稳定,10小时采集了2043个截图)" open}{/collapse-item}{/collapse}
2024年06月19日
16 阅读
0 评论
0 点赞
2024-06-19
python自动化采集数据(一)- 采集思路
一、采集原则1.1 学习与创新内容还是那些内容,但是采集的思路要重新考虑,不要一味照搬,这样就失去了思考的意义,但是也要借鉴前车之优,2024年6月15日开始动工,采集多个知识站点的数据,处理成伪原创的文章,目的是获取百度流量。1.2 分工明确将内容模块分成A、B、C ... 去写,不要挤在一起,各自去处理各自的事,A、B、C三个事件互不影响。二、采集思路{collapse}{collapse-item label="1.图片采集和处理" open}方案一(滚动刷新)X {x}从 搜狗 采集图片 若干张 随机获取 16 张 {x}从 bing 采集图片 若干张 随机获取 16 张 (采集效率低) {x}通过python处理,随机挑选 执行 搜狗 还是 bing ,将16张图 组合成 一张新的图片问题:需要滚动 bing 很容易一次性采不满16张,速度 比 搜狗 慢一倍方案二(直接采集页面有的图片)X {x}从 搜狗 采集图片 若干张 随机获取 8 张 {x}从 bing 采集图片 若干张 随机获取 8 张 {x}通过python处理,将16张图 组合成 一张新的图片想法,没有实际去使用方案三(采集搜狗图库图片)✓ {x}从 搜狗 采集图片 若干张 随机获取 16 张 {x}通过python处理,将 16 张图 组合成 一张新的图片测试后稳定出图{/collapse-item}{collapse-item label="2.内容采集和处理" open}{x}从搜狗问问采集一张位置截图 {x}从百度知道,通过关键词,获取百度知道的长尾词,采集一条百度知道的内容作为描述词 {x}采集搜狗问问 {x}采集百度知道 {x}采集头条问答 (效率较低,经常采集不到内容) {x}使用 bing 翻译处理这些内容,变成伪原创的内容 { }发布文章,看流量知道效果(需要经过百度的验证){/collapse-item}{/collapse}
2024年06月19日
5 阅读
0 评论
1 点赞
2024年 3 - 6 月 工作心得
2024年06月13日
11 阅读
0 评论
1 点赞
2024-06-13
PHP是我的入职敲门砖,即使后续学习的方向会偏向python,但是这份工作至少不会让我的职业生涯被扼杀,土木是风吹日晒,没有休息,离家遥远,作假的活,是我这种性格干不了的事。3-4月,接触的是网站的套入,以及后端PHP写一个通用的一级菜单、二级菜单模板的实现,负责人给了个数据库和快速建站模板,指导我数据库查询要用limit,反反复复的磨合模板,其他全靠自己摸索,这两个月,套了30几个网站是有的。5月是毕业季,回了学校三趟,完成了毕业设计,这个月就套了不到5个站,开始追求网站的质量,接触python自动化脚本的学习,模拟点击和爬取搜索引擎的热点信息,第一次用自动化脚本,出现了很多bug,在解决问题的过程中,学到了try解决一切问题,软件要while无限循环执行,模拟点击的鼠标和滚动细节 6月,搭建了自己的个人博客,开始学习pytorch机器深度学习...
2024-06-12
PyTorch学习笔记(一)
一、配置开发环境1. 安装Anaconda1.1 Anaconda介绍Anaconda,中文大蟒蛇,是一个开源的Anaconda是专注于数据分析的Python发行版本,包含了conda、Python等190多个科学包及其依赖项。1.2 Anaconda安装网站清华大学镜像站1:https://repo.anaconda.com/archive/清华大学镜像站2(用科技后速度还行):https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/?C=M&O=D1.3 安装配置命令教程https://www.jb51.net/python/304622456.htm#_lab2_1_2建议安装3.9以下的python版本,高版本会出现比较多的版本冲突问题!2. 安装PytorchPytorch官网:https://pytorch.org/3. 安装pycharmpycharm官网:https://www.jetbrains.com.cn/pycharm/3.1 配置 conda 环境选择 G:\myware\anaconada\envs\mypython310\python.py4. 启动jupyter默认情况下,只有base环境能够启动jupyter,所以要在新建的环境启动jupyter,需要执行如下操作#python版本要低于3.9,不然会安装不下 conda install nb_conda #重新安装python conda uninstall python conda install python=3.9 # 安装完成后,在新建环境下执行 jupyter notebook{dotted startColor="#ff6c6c" endColor="#1989fa"/}本次学习环境搭建结束,下一篇学习pytorch基础!
2024年06月12日
17 阅读
0 评论
1 点赞
1
2
3