抓取某新闻客户端的数据
注意事项
- 在抓取数据之前先清除缓存,缓存会影响抓包
过滤get请求
通过ping命令获取新闻数据的目标IP地址,封包信息中网址带有163可能就是新闻客户端的url
拿到目标IP地址,就可以通过目标IP地址过滤数据
用浏览器打开抓到的url,即可得到新闻的数据
http://c.m.163.com/nc/article/list/T1467284926140/0-20.html
新闻分类id
url组织形式:http://c.m.163.com/nc/article/list/id/startindex-count.html
其中tid是新闻类别的id,startindex是数据的起始索引,count是新闻数据的条数
- 体育T1348649079062
- 头条T1467284926140
- 娱乐T1348648517839
- 要闻T1348647909107
新闻Tab标签
http://c.m.163.com/nc/topicset/android/subscribe/manage/listspecial.html
|
|
json数据中的tid即为上文中的新闻类别id
新闻详情页
https://c.m.163.com/news/a/docid.html
http://c.m.163.com/nc/article/docid/full.html
例如:
https://c.m.163.com/news/a/CG4A99320001899O.html
http://c.m.163.com/nc/article/CG4A99320001899O/full.html
其中CG4A99320001899O是docid,如图所示