豆瓣笔记分析

声明：本站点文章内容均为古法手作，仅用 AI 辅助，没有使用 AI 生成（代码、图片、公式、格式化除外）。

豆瓣笔记是指形如https://www.douban.com/note/699086917/这样链接样式的帖子，严格来讲，我没有搞清楚豆瓣对于这款产品的定位，话题广场、日记、豆列下的文章似乎都在其中。

想做这个事情，缘起于单纯想看看这个文艺网站下的青年们在关注什么。

另外一个是很久不爬东西了手痒，厂长经常说不忘初心，我的初心有一部分大概也是 spider.

断断续续爬了130w+的文章，用的 scrapy，代码就不介绍了，放到了TinyTools这里，这里贴下一些结论。

1. 200 vs 404

个人觉得判断豆瓣是否重视这个产品可以看下死链率，从 scrapy 运行日志可以很轻松的拿到，匹配Crawled (200)或者Crawled (404)即可。

其中 404 页面占比 6.7%，还是比较高的，感觉 note 系列应该不是很受重视。

200vs404

其中 404 大概是两种原因：

用户主动注销账号，例如https://www.douban.com/people/Redreaming/
用户删除了文章，但是主页还在，例如https://www.douban.com/people/3673971/notes，这里的文章实际上都已经不能访问了，但是摘要之类的还在。

2. 时间轴

按照年份来看，笔记数量有一个下降再上升的趋势，应该跟样本无关。

pub_year

最早的一篇文章是在2006年，搜了下没找到这个产品上线的时间，应该是对的上的。

不过最早的一篇已经被删掉了，可能跟标题有关，我就不放出来了。

*************************** 1. row ***************************
        url: https://www.douban.com/note/2137882/
     author: aruni
comment_num: 44
   pub_date: 2006-08-19 19:48:18
       tags:
*************************** 2. row ***************************
        url: https://www.douban.com/note/2137828/
      title: 现在的中青年，对孔子生平的了解实在已经少得可怜。
     author: aruni
    snippet: 序：孔子是中华民族的大圣哲。他和他的门生们的故事能够千载不灭地流传下来，总应该是天经地义、情理之中，非如此不可的吧？但是果真如此吗？
comment_num: 1
   pub_date: 2006-09-02 00:53:33

最新的一篇文章就在发表这篇笔记的下午，爬虫时效性还不错

        url: https://www.douban.com/note/702307251/
      title: 小事412
     author: 月半月半弯
    snippet:   假如生活欺骗了你。不要悲伤，不要心急……相信吧，快乐的日子将会来临。
comment_num: 0
   pub_date: 2019-01-02 15:44:28

文艺青年喜欢在凌晨发布文章，这点挺符合我的认知，大概夜深人静的时候，思绪放飞的更远一些吧。

pub_time

3. 作者

这1302975篇文章，一共由 129220 个作者完成，人数应该是很多了吧？虽然时间线(2006~2018)比较长。在现在内容为王的今天，这个内容生产者的数量也是相当高了，何况作者质量应该也比较高。

平均每个作者写了10篇文章，发表数最多的是这位用户https://www.douban.com/people/GloriaLaura/notes，数据库里显示3756篇，真实数据可能更高。

数据的分布很不均匀，有35807个作者只写了1篇文章。

author

值得一提的是爬了 800w+ 豆瓣er的主页，其中大部分人都不产生内容。

4. tags

我在知识整理时，更倾向于使用 tags 而不是层级目录的形式，因为目录的形式太单一了，而且整理过程本身浪费很多时间，所以也比较关注大家都在用什么tags.

所有文章里，有 tag 的只占 17.2%。

tag

最常见的tag有

情感 成长 读书 思想 人文 旅行 电影 自我管理 社会热点 美食

5. 评论

评论数上，最开始没有注意有翻页的功能，因此最大只记录了100个。

大部分文章还是没有评论的，一共909373篇。

comment_num

PREVIOUSpapers of bloom filter

NEXT《离线和实时大数据开发实战》读书笔记