首页
关于
网站流量统计
图库记录
解忧屋
友情链接
搜索
1
python浏览器自动化点击工具 - 基于DrissionPage库实现
38 阅读
2
python搜索引擎热点采集工具 - 基于DrissionPage库实现
25 阅读
3
学习前言 - 智慧作业管理系统
23 阅读
4
joe主题宝塔数据未能展示修复 - 网站流量统计
22 阅读
5
python3.9安装
17 阅读
作业管理系统
python自动化
typecho二次开发
SEO-我的第一份工作
PyTorch深度学习笔记
登录
Search
标签搜索
python
seo
DrissionPage
自动化
内容采集
自动化点击
python安装教程
自动采集
python3.9
python环境变量配置
作业管理系统
教师管理作业
学生上传作业
thinkphp6
mysql
php
typecho
typecho二次开发
网站流量统计修复
joe主题bug
RQ桑
累计撰写
14
篇文章
累计收到
36
条评论
首页
栏目
作业管理系统
python自动化
typecho二次开发
SEO-我的第一份工作
PyTorch深度学习笔记
页面
关于
网站流量统计
图库记录
解忧屋
友情链接
搜索到
14
篇与
的结果
2024-10-11
python自动化采集数据(五)— 思路升级
本文重新整理文章采集系统搭建思路采集工具:使用python自动化功能,根据相关的需求,获得对应的内容发布网站:内容发布网站存入api文件,负责接收采集工具的内容,存入网站的数据系统控制中心:使用php完成一个任务控制中心,由负责人建立api接口,内容发布规则,采集工具监控,在采集工具和目标网站建立连接桥梁。{collapse}{collapse-item label="1. 采集工具" open} 就是一盘大萝卜{/collapse-item}{collapse-item label="2. 发布网站"} {/collapse-item}{collapse-item label="3. 控制中心"} {/collapse-item}{/collapse}
2024年10月11日
2 阅读
0 评论
0 点赞
2024-08-31
百度引擎SEO优化排名 - 任重而道远
一、前言在我从事SEO工作以来,心态的转变是非常巨大的,自三月到八月后,我完全接管了单位的网站开发,就差伪原创文章发布系统的实现了,这个系统的python模块已经写得差不多了,接下来就是伪原创的算法优化。自3月以来,在我的努力下,已经有18个站成功上线,现在约束站点上线速度的是文章发布的速度了。自转正以来,我的站点有四个的关键词排在首位,拿到了两个优化点提成,一个复诊没有算进去。4.现在的心态不是为了快点得到优化站好的结果,而是要从工作中找打seo的门道,在未来的工作中有更多进步!二、网站优化特征针对网站优化的半年工作经验,我对百度pc和移动引擎的优化有了初步的见解,真的是任重而道远!特点我的在下面罗列了出来一般老域名(指代5年以上的域名),首页的收录最快是1天 tyyy ,当然也有一个月没有收录的 tywccom网站结构好的,而且关键词竞争小的品牌站 tyyy ,一周收录就破两千,是目前最快的站点stlhfk 也是做到了两周收录破千,关键词和网站结构好是关键lhtyyy 站是我第一个收录几千高的站点,在7月进入沙盒期首页被k,到现在两个月仍然在慢慢恢复,但是其内容词一直有收录120com 首页收录一周,但是没有被删除,内容页到一个月后才开始收录,关键词排名没有掉出过前五页120net 是我发布的第一个站点,在8月修改分页样式后被k,至今没有恢复,收录只有20条,站点的结构和灵活性比较差lhnknet 是我发布第二个站点,结构也不够灵活,收录91个后没有收录了stlhnk 是我发布的第四个站点,PC移动一体化站点,收录几千,排名不高,网站的结构和美感不是很好,不够丰富,到目前有持续的收录stbp 是我做的比较优秀的站点了,丰富的结构,一天就收录首页了,一周内容页收录,主页被删,两周后主页恢复,20天首页排第一byby 也是一个比较优秀的站点,首页一天收录,一周后被删,三天后恢复,15天后首页第一页网站结构最差的sttywcnet,收录了三个页后,没有继续了tynkcom 是半途切换的站点,一周后首页名称改变,到一个月后内容开始收录,收录量50多页,有排名ststyyyfk 是半途切换的站点,一周后首页修改,一个月后内容页收录,收录比较少,没有排名ff.ststyyyfk 首页收录一周,内容页一个月收录,排名一般nksttyyy 网站结构做到了极致,一个月后收录首页顺带内容页,3天后首页被删,预测是3天后首页恢复三、移动端和PC端的区别{alert type="info"}在现在的流量体系里,移动流量为王,我做的几十个站点,有的移动没有排名,查了一下发现pc站虽然有首页收录,但是移动端首页被删了,移动端的排名取决于pc站的首页质量,做站收录的重点是pc端,只要pc质量高,移动首页就能上去!未完待续.....{/alert}
2024年08月31日
13 阅读
0 评论
0 点赞
2024-06-27
python自动化采集数据(四)— 后台搭建
一、fastadmin后台管理系统安装(略)安装的方式很简单很简单,有基础就很顺便,没基础就去好好学基础就好!在市面上找了很多的php二开系统,真的是少之又少,要不就是没有文档和生态支持,最终找到了fastadmin框架,因为我对全栈开发已经比较熟悉了,安装和配置过程是非常清晰的,一键CURD的功能背后,是很多规则制定的,文档写的全,但是没有找到侧重点,无法集中快速入门的方式,本文就根据我的想法,整理出快速学习fastadmin框架的思路二、框架使用思路如果把文档从头看到尾,头会长大真的,如何快速切入才是关键!数据库里有一个测试表 fa_test,通过CURL命令去运行这个表了解数据表的字段,如何自定义数据表(就像是一个法条已经规定好的,知道怎么去用规则做事就好) https://doc.fastadmin.net/doc/database.html尝试去根据规则建立一张数据表,比如fa_stu,记录学生信息的表,去体验每一个字段尝试去找到 CURD 过程中会发生的事类型位置控制器/admin/controller/Stu.php验证类/admin/validate/Stu.php模型类/admin/model/Stu.php视图层/admin/view/add.html edit del ...JS类/public/asset/js/backend/stu.js尝试去改这些文件,自定义你的功能需求....(目前就到这,后面继续探索)修改了数据库,需要重新创建菜单和控制器等才能生效,但是重新生成是覆盖模式,会把自己修改的文件覆盖掉,所以大改就备份原文件,小改就改代码。三、任务管理3.1 采集器任务管理3.1.1 添加采集任务数据3.1.1.1 站点管理数据设计url 站点域名title 站点名称sl 各大网站收录情况con_count 站点文章数量is_task 站点是否有任务在执行flow 站点流量level 站点级别 【1 一级站 2 二级站】created_at 站点创建时间status 站点状态 3.1.1.2 任务管理数据设计z_id 站点标识is_cj 采集任务是否开启keywords 采集关键词c_name 采集分类的名称status 采集任务的状态【0 未采集 1 已采集 2 垃圾词】 3.1.2 传入采集器数据(远程window服务器实现采集服务)移动云可以免费申请一个月的服务器: https://ecloud.10086.cn/portal id 采集任务标记keywords 采集关键词c_name 采集分类的名称status 采集任务的状态【0 未采集 1 已采集 2 关键词为垃圾词 3 禁止采集】3.1.3 传回采集器数据id 采集任务标记cj_start_time 开始采集时间cj_end_time 结束采集时间cj_reset_count 采集重试次数status 采集任务的状态【0 未采集 1 已采集 2 关键词为垃圾词 3 禁止采集】cwc 百度长尾词brief 采集内容的简介content 采集的主体内容img 采集封面图的url{alert type="success"} 此时让远程window服务器采集器开启,请求任务开始号令,fastadmin后台发起号令后,在有任务的前提下,采集器会开始发起模拟操作,采集完数据后,分别上传到网站服务器和采集后台服务器,任务结束,一个自动化采集系统由此诞生。{/alert}四、采集数据保存采集到的文章关键词重复检测,重复则跳过这个关键词采集到的文章没有长尾词,删除后一个字符若干次,若还没有长尾词,则跳过这个关键词采集搜狗图片作为封面图,搜狗知道的截图作为定位图,两张图片上传到目标网站的服务器上采集文章内容,通过算法翻译等处理的文章,传到目标网站上传到目标网站成功后,将结果传递到采集器后台,记录任务完成日志。{lamp/}{card-describe title="告一段落"}采集器的雏形已经实现,后期的优化方向有:根据不同行业的关键词,找到不同的采集对象二次开发采集器后台,让采集效率进一步提升针对采集过程中的系统报错细节进行优化,包括采集时被检测到违规行为,以及关键词没有结果的情况等等!写这篇文章时,采集器已经可以不报错的稳定运行,历时20多天的努力,达到了组长预定的采集基本要求,涉及到python、PHP、MySQL一些标准的技术,体验到一回生二回熟的快感,但是还是有告一段落,后期将会针对该系统做进一步的优化吧{/card-describe}
2024年06月27日
15 阅读
0 评论
0 点赞
2024-06-20
python自动化采集问题 — 采集百度长尾词失败
{alert type="warning"}2024-06-20 20:02:12 星期四在调试自动采集的过程中,遇到无脑的问题的解决过程 -----{/alert}如图所示,第一张图片没有出现下拉词,第二张图片出现了,非常的奇怪input =self.page.ele('#kw') scrollPage.scrollPage(self.page).pyautoguiLocal(input) input.clear() input.focus() self.page.wait(1) input.input("棉城吃饭哪家好吃") ---同样的输入,这段代码会出现长尾词 input.input(self.keyword) ---这段代码不能出现长尾词(从一个cvs文件提取出来的) self.page.wait(1) {alert type="info"} 找了许久没发现问题,我就注释掉获取长尾词的代码,然后当跳到百度知道时,当我看到 字符,我一脸懵逼,这是什么鬼,这个字符是不显示的,但是看到这个效果,我就可以接着这个问题寻求答案了!{/alert}{alert type="info"} 最后我找到了这个cvs文件,我哭笑不得,就是个编码错误,搞了我一个小时UTF-8 with BOM utf8bom是什么牛马,改成utf8,问题就解决了{/alert}{lamp/}消耗了我一小时,(解决问题前我立下flag,解决完就去打羽毛球的),最后球也打不成哈哈!
2024年06月20日
13 阅读
0 评论
1 点赞
2024-06-19
python自动化采集数据(三)- 内容采集
想法:搭建自己的一个内容采集站点,里面包括羽毛球、跑步、棉城两个模块。一、 采集内容根据输入的关键词,模拟浏览器的操作,采集百度知道,搜狗知道,今日头条,360,知乎,百度健康的内容,合成一个,并截取图片,主要采集的坐标,多采集得到一个内容框架先分步采集到百度健康、百度知道、搜狗知道、360问问、今日头条问问等内容,再去合成一个整体,主要目的是去伪做原创,获取百度流量。1.1 关键词模拟api(测试)后期要搭建一个后台管理系统,管理任务!{collapse}{collapse-item label="建立关键词库,模拟后台api" open}{/collapse-item}{/collapse}1.2 采集部分{x}采集百度知道、百度宝宝知道{x}采集搜狗问问{x}采集360问答{collapse}{collapse-item label="采集功能测试( 8小时稳定采集355轮,生成355次内容)" open}{/collapse-item}{/collapse}二、 采集内容处理{x}百度长尾词 + 关键词 组成 keyword 和 title 字段 ,关键词 作为 name 字段{alert type="error"}有的关键词很容易没有长尾词,这个时候为了不浪费这个词,就截掉关键词的后3个,去处理!{/alert}{x}将采集到文章的保存到 'filename_original.txt' 位置,处理删除空格段落,记为采集源文章{ }检测内容的字数长度,至少要满足 500 字,不满足则继续采集{x}翻译采集到的内容,保存到 'filename_fy.txt' 位置,记为翻译后的文章{x}对翻译后的内容,处理删除空格段落,与关键词进行匹配,算法评分(示例):关键词单次分值五院5汕头4生孩子3性别2医院1..........{x}取出最高排名的段落,查看字数,200字以下,有上段加上端,有下段加下段,循环4轮,期间字数大于250就break,此时的文段就是文章的 brief 和 description 字段{x}对翻译后的内容,进行p标签和img标签和去空格处理,作为 content 字段2.1 内容转换通过 python 的 pyperclip 库完成文本内容的处理,根据段落添加p标签,去除多余的空格{collapse}{collapse-item label="修改前采集文本" open}{/collapse-item}{collapse-item label="翻译去伪,添加p标签后的文本" open}{/collapse-item}{/collapse}
2024年06月19日
12 阅读
0 评论
0 点赞
1
2
3