大家好,今天小编关注到一个比较有意思的话题,就是关于在哔哩哔哩看视频学习python的问题,于是小编就整理了1个相关介绍在哔哩哔哩看***学习python的解答,让我们一起看看吧。
如何利用python爬取哔哩哔哩上的弹幕评论?在爬取过后应该如何进行统计分析?
这个实现起来很简单,主要是抓包分析,哔哩哔哩的弹幕信息都保存在一个xml文件中,只要找到这个xml文件,然后进行解析,就能提取到我们所需的弹幕信息,下面我简单介绍一下实现过程,实验环境win10+python3.6+pycharm5.0,主要如下:
1.这里***设我们要爬取的是《动物世界》的弹幕信息,如下,看着信息好多:
接着按F12调出开发者工具如下,分别点击“网络”->“XHR”,刷新页面,查看抓包信息,很快就能发现list.so这个文件很大,而且是xml格式的,很可能是弹幕信息:
打开这个文件,复制链接到浏览器中,果然出现了我们需要的弹幕信息,如下:
2.接着就是爬取这个xml文件,并进行解析了,其实很简单,主要用到requests和BeautifulSoup这2个组合,requests请求xml文件,BeautifulSoup进行解析,很快就能提取到我们需要的弹幕信息,主要代码如下,很简单:
到此,以上就是小编对于在哔哩哔哩看***学习python的问题就介绍到这了,希望介绍关于在哔哩哔哩看***学习python的1点解答对大家有用。