返回

多御浏览器

多御浏览器

爬虫获取bug信息

用户头像

elegant lv.1

发布时间：2022-10-13 07:33:17 335

相关标签： # html# python# 爬虫# 脚本# 信息

经过几天的努力，简单的对爬虫有点认识，获取mantis上bug相关信息已经成功了

爬虫获取bug信息_用户名

在浏览器登录内网mantis，进入登录网页，但是不要登录

爬虫获取bug信息_html_02

右击选择“检查”或者F11,调出网页编码，然后再输入登录的用户名

爬虫获取bug信息_html_03

再输入密码

爬虫获取bug信息_html_04

这时就可以看到登录的网页相关信息。（我一开始一溜烟的输入用户名和密码，然后F12，发现什么都没有，看不到任何login网页信息，犯了一个低级错误，这就是菜鸟应该踩的坑）

爬虫获取bug信息_用户名_05

爬虫获取bug信息_搜索_06

搜索login主页面，可以看到登录的相关信息，重点关注一下登录的网址，有时候这个网址，可能跟我们在浏览器中输入的网址不一样，一定要用这个网址。

爬虫获取bug信息_搜索_07

在载荷中可以看到我们登录的相关账号信息，但是本次试验不用账号和密码登录，使用cookie信息登录

爬虫获取bug信息_用户名_08

这里可以看到cookie的相关信息，以及使用期限

爬虫获取bug信息_html_09

由于我们的网页是分屏显示的，可能有多页，实际中在网址中需要加page_number

爬虫获取bug信息_用户名_10

这是实际运行的脚本，payloadHeader也可以用账号和密码来做。

在获取网页信息的时候可以用个get和post两种方法，最好选择login中的方法

爬虫获取bug信息_搜索_11

爬虫获取bug信息_html_12

爬到的内容，中文无法显示，一直无法解决？但是在实际搜索中是用中文搜索的。

爬虫获取bug信息_搜索_13

爬虫获取bug信息_用户名_14

根据HTML的结构特征，我们通过python处理html的方式去获取我们想要的内容

问题：

采取了如下的解码方法，中文始终无法解决，都是乱码

爬虫获取bug信息_用户名_15

爬虫获取bug信息_搜索_16

文章来源： https://blog.51cto.com/576642026/5740537

特别声明：以上内容（图片及文字）均为互联网收集或者用户上传发布，本站仅提供信息存储服务！如有侵权或有涉及法律问题请联系我们。

举报

评论区(0)

按点赞数排序

匿名

用户头像

elegant lv.1

0 声望

0 粉丝

0 获赞

TA的文章更多>

initramfs概述 2023-12-03 06:07:08

Spring Boot 通用应用程序属性（二） 2023-12-01 00:05:03

Vue.js -- 生命周期函数（钩子） 2023-11-27 23:52:45

精选文章

中国研究员首次曝光美国国安局顶级后门—“方程式组织”

俄乌线上战争，网络攻击弥漫着数字硝烟

从网络安全角度了解俄罗斯入侵乌克兰的相关事件时间线

下一篇

【Pandas总结】第一节 Pandas 简介与Series，DataFrame的创建 2022-10-13 07:08:21