近日使用爬虫scrapy,过程中需要用到对于信息的提取,进行总结,以备后查。
安装scrapy
- 使用pip install scrapy
- 注意:过程中有可能存在twist安装出现问题,可以通过百度查找,因为距离当时安装有一段时间了,忘记怎么填坑的了,貌似是通过下载wheel包,手动安装的。
初始化scrapy并创建项目
- 暂时不总结
测试并进行采集
- 主要是记录几个规则
- 抓取页面
scrapy shell http://news.nankai.edu.cn/ywsd/index.shtml
- 抓取内容
- 抓取css内容中以某些字符开始的href
response.css('.cms_block_span a[href^="http://news."]::attr(href)').extract()
- 抓取xpath内容,xpth可以同chrome浏览器右键得的xpath,直接复制可以。
response.xpath('//*[@id=\"root\"]/table[3]/tbody/tr/td[1]/table[2]/tbody/tr[1]/td//text()').extract_first()
- 抓取xpath内容内部图片的地址。如果是内容,则直接在地址后加
//text
,如果为img的src,则为//img/@src
response.xpath('//*[@id=\"root\"]/table[3]/tbody/tr/td[1]/table[2]/tbody/tr[3]//img/@src').extract()
- 下面几个有代表意义的参考
备注用到的几个规则记录
1 | "methods": { |