第一:除了公开数据,别乱伸手
公民隐私数据: 身份证号、手机号、家庭住址(这些碰了真会进去)。
国家机密/国防信息: 绝密区域,想都别想。
版权保护内容: 比如付费的小说、电影、音乐,爬下来传播就是侵权。- ★ TIPS ★
如果你需要登录才能看到,或人家明确加密不让你看的数据,强行暴力破解去爬,风险极大。
原则:可见即可爬(公开数据),越权即违法。
第二:温和的爬虫,不是暴力的 DDoS
- 写代码时别太贪心,必须控制请求频率。如果你一秒钟并发几千个请求,把人家网站资源耗尽了,导致服务器崩了,这就叫 DDoS 攻击。这不仅是技术烂,更是法律责任。随时请喝茶
。 - ★ TIPS ★
代码里加一句time.sleep(),模拟人类的浏览速度。慢一点,才安全。这是对服务器的尊重,也是你的护身符。
第三:看清门规,别搞破坏
- Robots 协议: 动手前,先看眼网站的
robots.txt文件,它规定了哪些能爬,哪些不能爬。这叫“先礼后兵”。 - 数据用途: 你爬数据自己做分析、练手没问题。但如果你把数据直接打包卖,或者做一个一模一样的竞品网站,这就叫不正当竞争。
- ★ TIPS ★
技术本身无罪,就像刀具不犯法,看你怎么用。
切菜(数据分析)是工具;砍人(恶意攻击/倒卖)就是凶器。
第四:总结
- 总结:爬虫是为了提效搞工作,不是为了包吃包住。
- 且爬且珍惜。