豆瓣笔记分析

#scrapy

豆瓣笔记是指形如https://www.douban.com/note/699086917/这样链接样式的帖子,严格来讲,我没有搞清楚豆瓣对于这款产品的定位,话题广场、日记、豆列下的文章似乎都在其中。

想做这个事情,缘起于单纯想看看这个文艺网站下的青年们在关注什么。

另外一个是很久不爬东西了手痒,厂长经常说不忘初心,我的初心有一部分大概也是 spider.

断断续续爬了130w+的文章,用的 scrapy,代码就不介绍了,放到了TinyTools这里,这里贴下一些结论。

1. 200 vs 404

个人觉得判断豆瓣是否重视这个产品可以看下死链率,从 scrapy 运行日志可以很轻松的拿到,匹配Crawled (200)或者Crawled (404)即可。

其中 404 页面占比 6.7%,还是比较高的,感觉 note 系列应该不是很受重视。

200vs404

其中 404 大概是两种原因:

  1. 用户主动注销账号,例如https://www.douban.com/people/Redreaming/
  2. 用户删除了文章,但是主页还在,例如https://www.douban.com/people/3673971/notes,这里的文章实际上都已经不能访问了,但是摘要之类的还在。

2. 时间轴

按照年份来看,笔记数量有一个下降再上升的趋势,应该跟样本无关。

pub_year

最早的一篇文章是在2006年,搜了下没找到这个产品上线的时间,应该是对的上的。

不过最早的一篇已经被删掉了,可能跟标题有关,我就不放出来了。

*************************** 1. row ***************************
        url: https://www.douban.com/note/2137882/
     author: aruni
comment_num: 44
   pub_date: 2006-08-19 19:48:18
       tags:
*************************** 2. row ***************************
        url: https://www.douban.com/note/2137828/
      title: 现在的中青年,对孔子生平的了解实在已经少得可怜。
     author: aruni
    snippet: 序:孔子是中华民族的大圣哲。他和他的门生们的故事能够千载不灭地流传下来,总应该是天经地义、情理之中,非如此不可的吧?但是果真如此吗?
comment_num: 1
   pub_date: 2006-09-02 00:53:33

最新的一篇文章就在发表这篇笔记的下午,爬虫时效性还不错

        url: https://www.douban.com/note/702307251/
      title: 小事412
     author: 月半月半弯
    snippet:   假如生活欺骗了你。不要悲伤,不要心急……相信吧,快乐的日子将会来临。
comment_num: 0
   pub_date: 2019-01-02 15:44:28

文艺青年喜欢在凌晨发布文章,这点挺符合我的认知,大概夜深人静的时候,思绪放飞的更远一些吧。

pub_time

3. 作者

这1302975篇文章,一共由 129220 个作者完成,人数应该是很多了吧?虽然时间线(2006~2018)比较长。在现在内容为王的今天,这个内容生产者的数量也是相当高了,何况作者质量应该也比较高。

平均每个作者写了10篇文章,发表数最多的是这位用户https://www.douban.com/people/GloriaLaura/notes,数据库里显示3756篇,真实数据可能更高。

数据的分布很不均匀,有35807个作者只写了1篇文章。

author

值得一提的是爬了 800w+ 豆瓣er的主页,其中大部分人都不产生内容。

4. tags

我在知识整理时,更倾向于使用 tags 而不是层级目录的形式,因为目录的形式太单一了,而且整理过程本身浪费很多时间,所以也比较关注大家都在用什么tags.

所有文章里,有 tag 的只占 17.2%。

tag

最常见的tag有

情感 成长 读书 思想 人文 旅行 电影 自我管理 社会热点 美食

5. 评论

评论数上,最开始没有注意有翻页的功能,因此最大只记录了100个。

大部分文章还是没有评论的,一共909373篇。

comment_num