不用编程,如何5分钟爬取一个知乎账号所有回答?

与你成长
相逢不忘

这是摸鱼运营小报笔记的第 014 期原创

Hello,大家好,我是摸鱼田。

最近在玩知乎平台,为了寻找答题规律,于是我就去看看大V们是如何回答问题的,想去学习一些规律,跟着大V们的思路玩。

可是大V的回答和文章那么多,一个个去点击记录又太麻烦,于是我想到用web scraper的方法,结果快速解决了问题。

这里就分享给大家……

 
01.下载安装

我们需要安装两个软件:

Chrome浏览器
webscraper插件

谷歌浏览器,大家根据自己的操作系统,windows或者mac,百度搜索,下载安装即可。
webscraper插件安装方法:

下载一个webscraper的爬虫插件,并把它安装到你的谷歌浏览器(其实360,IE,QQ、搜狗浏览器都可以,这次就不介绍)。

(在我的公众号【摸鱼运营小报】后台回复“爬虫”即可获得)

下载好以后

(1)Chrome 浏览器中输入:chrome://extensions/

(2)将下载好的文件拖动到此此页面

(3)根据提示点击:Add extensions;即完成安装。

以上,所需软件就已安装完毕。
 
02.打开软件

webscraper打开的入口有三种方法:

(1)windows, linux:Ctrl+Shift+I 或者 f12, 或者 Tools / Developer tools

(2)mac: Cmd+Opt+I, 或者 Tools / Developer tools

(3)或者:右键——> 审查元素(适用于各个系统)

如上图,大家可以看到,红框标注的地方,出现了一个web scraper,没有安装之前是看不到的。
 
03.创建sitemap

如上图,我们点击“create sitemap”,进入下面下一步

这个步骤需要输入 2 个信息:

Sitemap name:自定义名字,什么都可以,比如抓的是张佳玮的文章,就取名  zhangjiawei。

Start URL:当前网址 (直接从浏览器复制)。比如这里抓的一个知乎号,
就直接复制网址。XXXXX。

设置完成后点击  Create Sitemap 按钮即可

 
04.设置selector

点击“Add new selector”,进入下图

如上图,我们按照标号来挨个看。

输入 “Id”。(自定义,不能为空,至少三个字符(数字,字母均可))

选择 “Type”,此处选择Element

点击 “Select” 进行元素抓取

上一步,点击“Select”后,会出现标号4出悬浮的工具框

点击第一个帖子

点击第二个帖子,完成后,点击悬浮工具框蓝色的“Done slecting!”

勾选 “Multiple”

输入 Delay(延迟抓取时间,建议填 600-2000)

点击”Save Selector“保存

这步完成后,你会发现,sitemap下出现了一个叫content的选择器,如下图

点击上图的“content”,进入下图:

你会发现,这里多了一个content。

我们点击这里,“Add new selector”,进入下图:

如上图:我们按照标号依次看:

(1)输入 “Id”。(自定义,不能为空,至少三个字符(数字,字母均可))

(2)选择 “Type”,此处选择Text(文本)

(3)点击 “Select” 进行元素抓取

(4)上一步,点击“Select”后,会出现标号4出悬浮的工具框(注意,当我们点击上一步4的select后,第一个帖子会变黄,我们点击这个黄色区域,它会变为红色。)

(5)点击”Save Selector“,其他的都不用设置。

重复操作抓取网址和点赞数

抓取网址的时候,选择 “Type”,此处选择link(文本)

以上,我们抓取一个知乎号的所有设置都已完成。

05.开始抓取

这步,我们开始正式抓取:

如上图,点击中间这列,点击下拉框中出现的“Scrape”,进入下图:

这几个都默认就行,直接点击“Start scraping”。

点击后,浏览器会弹出一个新窗口,进行抓取工作,不要关闭,等待他抓取完毕。
你会发现,弹出的窗口,会自动下拉鼠标,模拟人的手,自动化的将这页全部的帖子全部抓取下来。
完毕后,会出现抓取的数据,如下图:

06.文件导出

如上图,点击中间这列,点击下拉框中的“Export data as CSV”,

再点击“Download now”,即可将数据下载到本地,会以表格的形式存储。

文件可以用excel打开,mac下用numbers打开。

至此,知乎号我们已经全部抓取完毕了。
怎么样,是不是很厉害。
其实这个软件的功能远不止此,后面会继续推出其他功能的爬取教程,记得关注哦,有问题可以在后台留言。

-END-

作者简介:摸鱼田,90后,热爱读书写作。公众号内容以干活为主,包括学习成长,求职面试,阅读写作等干货;偶尔写写故事。转载请联系(ID:lycwin)授权。
 推荐阅读 
点击题目或图片均可查看

如何在8分钟内找到心仪的工作?
如何爬取招聘网站,用5分钟完成岗位筛选。

摸鱼运营小报分享知识,让年轻人少走弯路

扫码关注,更多干货


『摸鱼运营小报』专注分享超高性价比的干货,推送高效率的应用工具报告。

添加站长微信:dugu5288,免费送最新网赚资源2000G

独孤求胜为您提供免费互联网资源,网赚教程,副业项目。
独孤求胜 » 不用编程,如何5分钟爬取一个知乎账号所有回答?