发布时间:2014-05-16 发布者:本地
以前因为爬虫程序受资源有限,因此下列最终表现形式的网页不利于爬虫程序索引资源:
1,展现的内容需要一定时间运算,需要第三方插件
动态网页、ajax、flash。
2,网页加载速度太慢
我建议把网页另存为下来,如果超过120k就优化一下代码。
3,网址目录结构不合理
这个问题我不知道怎么解释,这个涉及到网址存储技术(每天收录新网址1万个跟20亿个,这个已经不单纯的只是数字问题,保持快速索引且唯一是非常艰难的),目录结构逻辑不清晰不利于百度自己存储你的网址。
那么因此我们在做SEO的时候,只要避免上述问题就行,没必要限定在程序这一块。
避免:异步加载、需要第三方插件才能展现、动态程序运算逻辑太复杂、目录结构不合理 就行。