V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
vincekang
V2EX  ›  Python

INFO-SPIDER 爬虫工具箱,已开源,持续更新,欢迎 Star

  •  1
     
  •   vincekang · 2020-08-17 15:18:10 +08:00 · 2606 次点击
    这是一个创建于 1596 天前的主题,其中的信息可能已经有所发展或是发生改变。

    项目代码:https://github.com/kangvcar/InfoSpider

    项目使用文档: https://infospider.vercel.app

    项目视频演示: https://www.bilibili.com/video/BV14f4y1R7oF/


    INFO-SPIDER 是一个集众多数据源于一身的爬虫工具箱,旨在安全快捷的帮助用户拿回自己的数据,工具代码开源,流程透明。支持数据源包括 GitHub 、QQ 邮箱、网易邮箱、阿里邮箱、新浪邮箱、Hotmail 邮箱、Outlook 邮箱、京东、淘宝、支付宝、中国移动、中国联通、中国电信、知乎、哔哩哔哩、网易云音乐、QQ 好友、QQ 群、生成朋友圈相册、浏览器浏览历史、12306 、博客园、CSDN 博客、开源中国博客、简书。

    第 1 条附言  ·  2020-08-20 22:45:54 +08:00
    🌈🌈🌈

    # 开发者回忆录🌈
    ### 场景一

    小明一如往常打开 Chrome 浏览器逛着论坛,贴吧,一不小心点开了网页上的广告,跳转到了京东商城,下意识去关闭窗口时发现 ( OS:咦?京东怎么知道我最近心心念念的宝贝呢?刚好我正需要呢!),既然打开了那就看看商品详情吧 ( OS:哎哟不错哦),那就下单试试吧!

    ### 场景二

    小白听着网易云音乐的每日推荐歌单无法自拔 ( OS:哇!怎么播放列表里都是我喜欢的音乐风格?网易云音乐太棒了吧!深得我心啊!黑胶会员必须来一个!),逛着知乎里的“如何优雅的 XXX?”,“XXX 是怎样一种体验?”,“如何评价 XXX?” ( OS:咦?这个问题就是我刚好想问的,原来早已有人提问!什么???还有几千条回答!!进去逛逛看!)

    ### 场景三

    小达上班时不忘充实自己,逛着各大技术论坛博客园、CSDN 、开源中国、简书、掘金等等,发现首页的内容推荐太棒了( OS:这些技术博文太棒了,不用找就出来了),再打开自己的博客主页发现不知不觉地自己也坚持写博文也有三年了,自己的技术栈也越来越丰富( OS:怎么博客后台都不提供一个数据分析系统呢?我想看看我这几年来的发文数量,发文时间,想知道哪些博文比较热门,想看看我在哪些技术上花费的时间更多,想看看我过去的创作高峰期时在晚上呢?还是凌晨?我希望系统能给我更多指引数据让我更好的创作!)

    看到以上几个场景你可能会感叹科技在进步,技术在发展,极大地改善了我们的生活方式。

    但当你深入思考,你浏览的每个网站,注册的每个网站,他们都记录着你的信息你的足迹。

    细思恐极的背后是自己的个人数据被赤裸裸的暴露在互联网上并且被众多的公司利用用户数据获得巨额利益,如对用户的数据收集分析后进行定制的广告推送,收取高额广告费。但作为数据的生产者却没能分享属于自己的数据收益。

    ### 想法

    如果有一个这样的工具,它能帮你拿回你的个人信息,它能帮你把分散在各种站点的个人信息聚合起来,它能帮你分析你的个人数据并给你提供建议,它能帮你把个人数据可视化让你更清楚地了解自己。

    > 你是否会需要这样的工具呢? 你是否会喜欢这样的工具呢?

    基于以上,我着手开发了 INFO-SPIDER
    4 条回复    2020-08-19 15:42:42 +08:00
    Team
        1
    Team  
       2020-08-17 15:40:18 +08:00
    收藏了
    MrhuangSTR
        2
    MrhuangSTR  
       2020-08-17 17:40:54 +08:00
    这是一个爬虫比赛的赛题吗
    vincekang
        3
    vincekang  
    OP
       2020-08-18 12:30:43 +08:00 via iPhone
    vincekang
        4
    vincekang  
    OP
       2020-08-19 15:42:42 +08:00
    已更新
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1017 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 22:08 · PVG 06:08 · LAX 14:08 · JFK 17:08
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.