折腾:
【未解决】用Python爬取汽车之家的车型车系详细数据
期间,看到爬取数据中,除了之前已知的:
【已解决】汽车之家车型车系数据:车身结构的值包含span标签
结果发现更多字段有此问题:
并且:
carModelEnvStandard
从页面上去看:
<div>国IV/<span class="hs_kw48_configpB"></span>V</div>
但是前面的:
value="国IV/京V"
但是无法确定:
环保标准:
的值是第一个还是第二个才是我们要的
京
且对于:
<div>国IV/<span class="hs_kw48_configpB"></span>V</div>
也不太容易对比找到
国IV/京V
或:
国IV/国V
的关系
即:
无法确定上述的span部分,就是 对应着 京
即使确定了,也无法准确获取到值是:
国IV/国V 中的 国
还是
国IV/京V 中的 京
所以,找到对应值去替换的方法,此处很难实现了。
所以,能想到的是:
除非破解js和css的具体写法
否则无法彻底解决此处的问题
只能是一直想办法规避而已
那就去看看:
【未解决】汽车之家车型车系数据:想办法破解js和css加密的文字显示