srq 发布的文章 - RQ桑个人博客_程序员的个人网站-个人博客搭建与设计

登录

标签搜索

RQ桑

累计撰写 15 篇文章
累计收到 38 条评论

搜索到 15 篇与的结果

2024-06-19
python自动化采集数据（三）- 内容采集想法：搭建自己的一个内容采集站点，里面包括羽毛球、跑步、棉城两个模块。一、采集内容根据输入的关键词，模拟浏览器的操作，采集百度知道，搜狗知道，今日头条，360，知乎，百度健康的内容，合成一个，并截取图片，主要采集的坐标，多采集得到一个内容框架先分步采集到百度健康、百度知道、搜狗知道、360问问、今日头条问问等内容，再去合成一个整体，主要目的是去伪做原创，获取百度流量。1.1 关键词模拟api(测试)后期要搭建一个后台管理系统，管理任务！{collapse}{collapse-item label="建立关键词库，模拟后台api" open}{/collapse-item}{/collapse}1.2 采集部分{x}采集百度知道、百度宝宝知道{x}采集搜狗问问{x}采集360问答{collapse}{collapse-item label="采集功能测试（ 8小时稳定采集355轮，生成355次内容）" open}{/collapse-item}{/collapse}二、采集内容处理{x}百度长尾词 + 关键词组成 keyword 和 title 字段，关键词作为 name 字段{alert type="error"}有的关键词很容易没有长尾词，这个时候为了不浪费这个词，就截掉关键词的后3个，去处理！{/alert}{x}将采集到文章的保存到 'filename_original.txt' 位置，处理删除空格段落，记为采集源文章{ }检测内容的字数长度，至少要满足 500 字，不满足则继续采集{x}翻译采集到的内容，保存到 'filename_fy.txt' 位置，记为翻译后的文章{x}对翻译后的内容，处理删除空格段落，与关键词进行匹配，算法评分(示例):关键词单次分值五院5汕头4生孩子3性别2医院1..........{x}取出最高排名的段落，查看字数，200字以下，有上段加上端，有下段加下段，循环4轮，期间字数大于250就break，此时的文段就是文章的 brief 和 description 字段{x}对翻译后的内容，进行p标签和img标签和去空格处理，作为 content 字段2.1 内容转换通过 python 的 pyperclip 库完成文本内容的处理，根据段落添加p标签，去除多余的空格{collapse}{collapse-item label="修改前采集文本" open}{/collapse-item}{collapse-item label="翻译去伪，添加p标签后的文本" open}{/collapse-item}{/collapse}
- 2024年06月19日
- 14 阅读
- 0 评论
- 0 点赞
2024-06-19
python自动化采集数据（二）- 图片采集一、采集图片库内容站需要与内容相关的图片，本文的内容是采集图片1.1 采集第一张图片1.1.1 采集sougou图片，并压缩成一张原创的图片 ✓{collapse}{collapse-item label="采集搜狗图片，滚轮滚动若干个页面尺寸，滚动到 2 次采集 20 左右张图时，用request库抓取图片(已测试10小时稳定抓取60615张图片)" open} {/collapse-item}{collapse-item label="将图片压缩成一张大图" open} {/collapse-item}{/collapse}1.1.2 采集bing图片，并压缩成一张原创的图片 ✓{collapse}{collapse-item label="采集 bing 图片，滚轮滚动若干个页面尺寸，滚动到 2 次采集 20 左右张图片时，用request库抓取图片(已测试稳定抓取39489张图片)" open}{/collapse-item}{/collapse}将图片压缩成一张大图（测试效果同上）想法：用 pytorch 训练一个可以识别大楼的机器人，遇到不是大楼的图片能够智能化的筛掉1.2 采集第二张图片 ✓获取页面的 1-3条，使用 DrissionPage 截图实用的加水印工具 pip install filestools -i https://pypi.org/simple/ -U如果页面少于3张，就截取1-2条，以此类推{collapse}{collapse-item label="百度知道（同一个ip不稳定，10小时只采集了33个截图）" open}{/collapse-item}{collapse-item label="搜狗问问（同一个ip稳定，10小时采集了2043个截图）" open}{/collapse-item}{/collapse}
- 2024年06月19日
- 16 阅读
- 0 评论
- 0 点赞
2024-06-19
python自动化采集数据（一）- 采集思路一、采集原则1.1 学习与创新内容还是那些内容，但是采集的思路要重新考虑，不要一味照搬，这样就失去了思考的意义，但是也要借鉴前车之优，2024年6月15日开始动工，采集多个知识站点的数据，处理成伪原创的文章，目的是获取百度流量。1.2 分工明确将内容模块分成A、B、C ... 去写，不要挤在一起，各自去处理各自的事，A、B、C三个事件互不影响。二、采集思路{collapse}{collapse-item label="1.图片采集和处理" open}方案一（滚动刷新）X {x}从搜狗采集图片若干张随机获取 16 张 {x}从 bing 采集图片若干张随机获取 16 张（采集效率低） {x}通过python处理，随机挑选执行搜狗还是 bing ,将16张图组合成一张新的图片问题：需要滚动 bing 很容易一次性采不满16张，速度比搜狗慢一倍方案二（直接采集页面有的图片）X {x}从搜狗采集图片若干张随机获取 8 张 {x}从 bing 采集图片若干张随机获取 8 张 {x}通过python处理，将16张图组合成一张新的图片想法，没有实际去使用方案三（采集搜狗图库图片）✓ {x}从搜狗采集图片若干张随机获取 16 张 {x}通过python处理，将 16 张图组合成一张新的图片测试后稳定出图{/collapse-item}{collapse-item label="2.内容采集和处理" open}{x}从搜狗问问采集一张位置截图 {x}从百度知道，通过关键词，获取百度知道的长尾词,采集一条百度知道的内容作为描述词 {x}采集搜狗问问 {x}采集百度知道 {x}采集头条问答 (效率较低，经常采集不到内容) {x}使用 bing 翻译处理这些内容，变成伪原创的内容 { }发布文章，看流量知道效果(需要经过百度的验证){/collapse-item}{/collapse}
- 2024年06月19日
- 5 阅读
- 0 评论
- 1 点赞
2024年 3 - 6 月工作心得
- 2024年06月13日
- 11 阅读
- 0 评论
- 1 点赞
2024-06-13
PHP是我的入职敲门砖，即使后续学习的方向会偏向python，但是这份工作至少不会让我的职业生涯被扼杀，土木是风吹日晒，没有休息，离家遥远，作假的活，是我这种性格干不了的事。3-4月，接触的是网站的套入，以及后端PHP写一个通用的一级菜单、二级菜单模板的实现，负责人给了个数据库和快速建站模板，指导我数据库查询要用limit，反反复复的磨合模板，其他全靠自己摸索，这两个月，套了30几个网站是有的。5月是毕业季，回了学校三趟，完成了毕业设计，这个月就套了不到5个站，开始追求网站的质量，接触python自动化脚本的学习，模拟点击和爬取搜索引擎的热点信息，第一次用自动化脚本，出现了很多bug，在解决问题的过程中，学到了try解决一切问题，软件要while无限循环执行，模拟点击的鼠标和滚动细节 6月，搭建了自己的个人博客，开始学习pytorch机器深度学习...
2024-06-12
PyTorch学习笔记（一）一、配置开发环境1. 安装Anaconda1.1 Anaconda介绍Anaconda，中文大蟒蛇，是一个开源的Anaconda是专注于数据分析的Python发行版本，包含了conda、Python等190多个科学包及其依赖项。1.2 Anaconda安装网站清华大学镜像站1：https://repo.anaconda.com/archive/清华大学镜像站2(用科技后速度还行)：https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/?C=M&O=D1.3 安装配置命令教程https://www.jb51.net/python/304622456.htm#_lab2_1_2建议安装3.9以下的python版本，高版本会出现比较多的版本冲突问题！2. 安装PytorchPytorch官网：https://pytorch.org/3. 安装pycharmpycharm官网：https://www.jetbrains.com.cn/pycharm/3.1 配置 conda 环境选择 G:\myware\anaconada\envs\mypython310\python.py4. 启动jupyter默认情况下，只有base环境能够启动jupyter，所以要在新建的环境启动jupyter，需要执行如下操作#python版本要低于3.9，不然会安装不下 conda install nb_conda #重新安装python conda uninstall python conda install python=3.9 # 安装完成后，在新建环境下执行 jupyter notebook{dotted startColor="#ff6c6c" endColor="#1989fa"/}本次学习环境搭建结束，下一篇学习pytorch基础！
- 2024年06月12日
- 17 阅读
- 0 评论
- 1 点赞

1
2
3