最新消息:20210816 当前crifan.com域名已被污染,为防止失联,请关注(页面右下角的)公众号

Scrapy

【记录】爬取CHILDES中的字幕和音视频文件

【记录】爬取CHILDES中的字幕和音视频文件

crifan 6年前 (2018-03-22) 1764浏览 0评论

根据需求,需要去爬取: Eng-NA Corpora Bilingual Corpora 中,对应的内容的: 字幕,去掉各种标注的 音频,如果有 视频,如果有 参考之前自己的: 【记录】用Python的Scrapy去爬取Youtube中Humf的字幕...

【已解决】Scrapy中丢失部分url链接没有抓取

【已解决】Scrapy中丢失部分url链接没有抓取

crifan 6年前 (2018-03-07) 5228浏览 0评论

折腾: 【记录】用Python的Scrapy去爬取Youtube中Humf的字幕 期间,发现个问题: 对于原始的页面中的多个分组的内容: 结果最后抓取的内容,缺了很多: 比如: ☆ Shorts 中,本来有18个,但是实际上只爬取了8个: 缺了1...

【整理】pyspider vs scrapy

【整理】pyspider vs scrapy

crifan 6年前 (2018-02-27) 5891浏览 0评论

pyspider vs scrapy pyspider 和 scrapy 比较起来有什么优缺点吗? – 知乎 “Pyspiders是国内某大神开发了个WebUI的[Pyspider](GitHub – binux/pyspid...

68 queries in 0.184 seconds, using 22.02MB memory