对于爬虫中的数据分析,简单的理解就是从一般爬虫得到的响应数据中进一步提取出一些我们需要的特定数据,比如一段文字或者一张图片。

聚焦爬虫:抓取页面中指定的页面内容。
——编码过程
1.指定网址
2.发起请求
3. 获取响应数据
4. 数据分析
5. 持久化存储
数据分析分类:
- 常规的
——BS4
——xpath(***通用)
数据分析原理:
——解析后的本地文本内容会存储在标签之间或者标签对应的属性中。
——1.定位指定标签
——2.提取(解析)标签或标签对应属性中存储的数据值
用于数据分析的正则表达式
正则表达式:
可以看作是通配符的增强版,用于匹配规则指定的字符串。
——预选赛
1. ?:表示前一个字符出现0次或1次
2. *:代表匹配0个或多个前面的字符
3.+:表示匹配前一个出现多次的字符
4. {…}:指定前一个字符出现的次数。例如,{2,6} 表示出现 2 到 6 次,{2,} 表示出现 2 次以上。
注意:以上四种方法都是针对单个字符。如果要定位多个字符,可以使用 () 将目标字符串括起来。
——”或“运算符(…|…)
例如(cat|dog),意思是匹配猫或狗
——字符类 ( )
1、[…]+方括号内的内容表示需要匹配的字符只能从中取出。
2. 可以在方括号中指定字符范围。例如[az]+代表全部小写英文字母; [a-zA-Z]+代表所有英文字母
3. 如果在方括号前添加“^”,则表示需要匹配尖号后面列出的字符以外的字符。如[^0-9]+,代表所有非数字字符
——元字符(Meta-)
正则表达式中的大多数元字符都以反斜杠开头。
d:代表数字字符
w:代表单词字符(所有英文字符、数字、下划线)
s:表示空白字符(包括Tab(制表符)和换行符)
D:代表非数字字符
W:代表非单词字符
S:代表非空白字符
句点.:代表任意字符,但不包括换行符
特殊字符:^ 匹配行首,$ 匹配行尾
例如,^a 只会匹配行首的 a,a$ 只会匹配行尾的 a。
——贪婪与懒惰相配
贪心匹配:正则表达式中的*+{}在匹配字符串时默认会匹配尽可能多的字符。例如,.+ 表示任何单个字符匹配多次。
惰性匹配:.+?表示条件只匹配一次
数据分析bs4
bs4数据分析原理:
——1.实例化一个对象,并将页面源码数据加载到该对象中
——2.通过调用对象中的相关属性或方法来进行标签定位和数据提取
如何实例化一个对象:
——摘自BS4
——对象的实例化:
1.将本地html文档中的数据加载到对象中
fp = open('./.html','r',='utf-8')
汤=(fp,'lxml')
2.将从网上获取的页面源码加载到对象中
= .text
汤=(,'lxml')
用于数据解析的方法和属性(即标签名称):
——soup.:返回html中第一次出现的对应标签
——soup.find(参数):
1.find(''):相当于汤。
2、属性定位:标签可以根据具体属性进行定位。语法如下:
汤.find('div',='')
——soup.(''):返回所有符合要求的标签(列表)
——汤。(参数)
1.('某种选择器(id,class,label...)'),返回一个列表
2. 电平选择器:
(1)
汤.('.tang > ul > li > a')
:> 代表一个级别
(2)
汤。('.tang > ul a')
: 空格表示多个级别
如何获取标签之间的文本数据:
——汤..text //()
text/():可以获取一个标签内的所有文本内容
:只能获取该标签下的直接文本内容
如何获取属性值:
汤。['属性名称']
数据分析xpath
这种方法是最常用、方便、高效的方法。
Xpath解析原理:
——1.实例化一个etree对象,并将需要解析的页面源码数据加载到该对象中。
——2.调用etree对象中的xpath方法,与xpath表达式结合,实现标签定位和内容提取。
如何实例化 etree 对象:来自 lxml etree
——1.将本地HTML文档中的源代码数据加载到etree对象中,如
etree.parse()
——2.从网上获取的源代码数据可以加载到对象中,例如
etree.HTML('')
xpath表达式(级别选择)(返回列表)
——/:放在标签前面,表示从根节点开始定位。放置在标签之间代表层次结构。
——//:放在标签之间表示多级(效果相当于bs4中()方法中的空格),放在单个标签之前表示从任意位置定位(例如'//div'表示定位所有 div 标签)
——属性定位:例如
tree.xpath('//div[@class="song"]')
,表示定位标签名为div,属性名为class,值为song。
——索引定位:例如
'//div[@class="歌曲"]/p[3]'
,表示定位到上述标签下的第三个p标签。 ps:索引从1开始。
——获取文字:
1. /text():获取标签的直接文本内容
2. //text():获取标签下所有文本内容
——获取属性值:
/@属性名
# 武汉推广营销的公司排名
# 可以使用
# 青岛seo优化排名招商
# 互联网营销推广推荐乐云seo包满意
# 网站建设胶州
# 深圳品牌企业网站建设
# 网站变现 泉州seo.net
# 福田手机网站建设
# 网站建设 意向协议书
# 惠州注册公司网站建设
# seo亚马逊收录
# 行尾
# seo082345
# 丰泽推广网站有哪些公司
# seo前景好的公司
# 潭州学院seo下载
# 宁德网站优化收费公司
# 返回500 seo
# 开发区营销推广
# 晋江网站推广怎么做的
# 黑龙江品牌网站建设优势
# 广州网站建设网络推广
# 到该
# 深入解析爬虫数据提取
# 聚焦爬虫与正则表达式应用指南
# 象中
# 加载
# 放在
# 多个
# 只会
# 并将
# 正则表达式
# 源代码
# 深入解析爬虫数据提取:聚焦爬虫与正则表达式应用指南
# 英文字母
# 都是
# 文档
# 选择器
# 换行符
# 网上
# 下划线
# 是从
# 英文
相关文章:
seo软件叫什么,seo软件视频教程 ,用ai3d做异形瓶
seo需要会什么技术呢,seo需要会什么技术呢知乎 ,ai vr高达
初中英语单词必背2500词汇_初中必背高频英语单词清单有哪些?初中英语必背983个核心单词按词性大公开怎么用?
seo站长什么意思,站长工具 - seo综合查询 ,主持人ai头像
*热点下拉:支持多平台下拉,低成本打造好用产品
七上数学期末试卷真题怎么找?2026年最新人教版_鲁教版题库免费下载攻略
SEO搜索关键词是什么意思?让你轻松网站流量的秘密!
iPhone13 的 iOS 16.0 系统下,抖音视频时长权限你知道多少?
佳木斯文艺交通广播新闻线索征集电话公布!微信安全中心提醒防*
微信号被限制怎么办?微信官方解封办法详细介绍
抖音抖不出真学者?我看未必,其价值远超想象
初三英语句子翻译训练软件真的能快速提升翻译分数吗?
自媒体人素材需求大揭秘!图文易找视频难,版权成关键?
Typecho主题定制,打造个性化网站的秘密武器
SEO收费还是免费?如何选择适合自己网站的优化方案
常用聊天软件微信,头像尺寸你知道多少?快来看看
SEO的物理含义:如何在数字世界中获得“引力”?
骏游斗地主:融合团队与个人策略,多种玩法带来极致体验
WordPress对接微信支付宝支付:轻松搭建高效电商系统
嗨格式在线录屏的功能特点及操作指南,你知道多少?
免费SEO网站排名优化软件哪个好?轻松提升网站排名的选择指南
中小学教辅教材如何选择?小学三年级数学教辅推荐,这份实用指南请收好!
学英语口语的网站:想找免费的英语口语学习网站,有什么靠谱推荐吗?
微信封号如何解封?详细操作步骤及注意事项在这里
初中英语语法填空与选词填空区别_解题技巧与高分突破?
截至2025年8月1日收盘,广西广电股价下跌,关注股权变动?
2026年哪些免费的学习资料网站能真正帮你提升技能?
小学教育教学资源网真的能找到高质量的免费课件吗?一位资深教师的资源挖掘实战经验分享
seo描述是写什么,seo描述的专业要求 ,纸飞机ai怎么画
seo是以什么为导向,何为seo ,ai随意排布
大学几年级用英语怎么说_大学各年级英语叫法与大一学年表达是怎样的?
百度网盘资源搜索引擎入口最新版 _ 2026年实测7大免登录神器
专业网站推广优化,助力企业互联网发展新机遇
十大免费自学英语app不用下载直接使用_实测推荐免安装在线学习神器
毒贩竟将毒品假称肉在网络贩卖,江苏警方破获大案
2025年五年级上册期末测试卷及答案哪里找?人教版五年级数学期末真题2025如何高效使用?
SEO怎么排名?这5大技巧,轻松提升网站排名
SEO提高权重的有效方法,助你轻松登上搜索引擎首页
互联网技术带来便利,微众银行微粒贷成左女士应急首选?
SEO是需要借助工具,还是直接在网站上做的?
人教版初中英语课本电子版旧版_如何免费获取2012版PDF?八年级上册内容有哪些重点?
人教版小学六年级上册数学试卷题_应用题总是丢分?期末培优卷如何高效使用?
小学三年级科学上册期末试卷,实验探究题常见错误有哪些?改进方法你知道吗?
为什么相同的问题AI工具得出的答案不一样?
免费试用AI工具,体验智能科技革新-无需登录,随时随地轻松畅享!
顶级无损音乐网站推荐!免费下载工具,多线路高音质超顺畅
小学生试卷哪里能免费下载?这份超全网站清单请收好,附使用技巧
SEO推广论坛-如何在竞争激烈的市场中脱颖而出
什么软件能根据摘要分类总结下载的所有文献的主要研究内容?
英语同步点读免费软件到底哪个好用?小学生家长亲测这3款完全免费
相关栏目:
【
网络营销44070 】
【
网络推广122852 】
【
网络优化116010 】
【
网址导航102054 】
【
网络技术82194 】
【
网络资讯43554 】