facebook有复杂的请求机制,在实际开发爬虫的过程中非常的麻烦,对其http的构造,有N个动态参数,让人很难摸清,因此使用模拟的方式采集是很好的一个选择。
采集Facebook指定账号下更新的推文数据是非常常见的采集需求。
详细采集需求包括:
采集字段:账号名、账号主页url、账号加入时间、账号发布的推文数、推文标题、推文内容、推文url等页面上可见的、或者源码中有的字段。
支持按照账户名或账户主页url自动访问账户并采集数据。像约翰霍普金斯大学这样的Twitter账户有很多,需自动批量访问和采集。
支持滚动翻页以显示和采集更多页数据。
支持采集历史帖子和根据推文更新频率,定时采集新增的推文数据。
以上需求已做好采集模板。
★境外采集模板属于特殊模板,如有需要请联系客服。