小趴趴 知乎精華回答的非專業大資料統計

2021-07-09 23:26:11 字數 2028 閱讀 1406

入坑知乎三年有餘,數月前靈光閃現,做個網頁爬蟲,專爬知乎下的精華回答,作統計分析。

以下,即是此專案的分析結果,希望能從另乙個角度呈現出不一樣的知乎。

「talk is cheap, show me the code!」 --屁話少說,放碼過來。心急的朋友可以直接戳鏈結看原始碼,用的是python3:

以根話題的話題樹為啟始,按廣度優先遍歷各子話題。話題的遍歷深度為3。解析各話題下的精華回答。

目前收集的資訊共計50539個精華回答。

男15740,女5749.是否從乙個側面印證了知乎上程式設計師佔了很大的比例.

按答主的所在(畢業)學校統計,top10的學校是:

可以看出,中國的頂尖高校對知乎的精華回答貢獻頗多。

按答主所在的專業統計,top10專業是:

果然是程式猿的天堂。(上面的資料,我針對「計算機」和「金融」的資料做了處理,把「計算機」「電腦科學」「電腦科學與技術」合併為「計算機」,把「金融」和「金融學」合併為「金融」)

按精華回答所獲得的贊同數落在的區間,做統計

贊同數區間

此區間內的精華回答數量

0~4999

46546

5000~9999

2623

10000~14999

71315000~19999

30520000~24999

15425000~29999

9430000~34999

4435000~39999

2240000~44999

1645000~49999

850000~54999

455000~59999

360000~64999

365000~69999

070000~74999

275000~79999

180000~84999

085000~89999

090000~94999

195000~999990

可見,大多數精華回答獲得的贊同數是處於0~4999範圍內的。

目前統計到的最高票回答是這篇:《哪些素質很重要,卻是讀書學不來的》中肥肥貓的回答,共獲得了91433個贊同。

如果按以下標準將精華回答按字數分類:

字數分類

0~99

短篇100~999

中篇1000~9999

長篇10000以上

超長篇

那麼,精華回答的字數分布如下:

看來各位答主對沒少在知乎上碼字。長篇的數量甚至超越了短篇和中篇。

目前收集到的最長字數回答是:《人究竟能摳到什麼程度》中郭永年的回答,答主揚揚灑灑寫了98904字,敢情是在知乎上寫**了啊。

作為乙個對python和c都有使用的程式設計師,在開發的過程中不斷地領略著這兩種語言的巨大差異。

python把對開發者友好做到了極致,犧牲了效能。

c把效能做到了極致,犧牲了對開發者的友好。

這個專案只用了500行python,如果換作500行c,估計只能完成上述功能的1/10吧。

最後再貼一遍原始碼:

知乎大神的回答

1 乙個人越成熟就越難愛上另乙個人?答 其實不是越成熟越難愛上乙個人,而是是越成熟,越能分辨那到底是不是愛。2 乙個人如何讓這個世界變得美好?答 首先,你得把你自己變得更美好。3 經歷苦難到底有什麼價值?答 其實永遠不要相信什麼苦難是值得的這類雞湯,苦難它就是苦難,苦難多數時候並不會帶來成功。苦難不...

2021 03 11 關於知乎乾貨回答的思考

2021.03.11 10 04 54 每個人上知乎上找問題答案的時候,總是希望找到一些最乾貨的回答,可以最短時間裡面幫助自己理清乙個問題的脈絡,或者說提供一些軟體資源之類的,這個是無可厚非的。但是對於一些思想類的乾貨回答,就名不其實了。思想類的乾貨回答對於別人來說確實是乾貨,但是對於你來說只是乙個...

怎麼把知乎的回答轉化成自己的知識

主題閱讀 批判性思考 learning by doing,三大利器,可以解決這個問題!以本題為例,在我寫這個回答時,已發布的答案共67個。我可以將其預設為與該主題相關的所有材料 當然,知乎上還有與這個問題極其類似的其他問題,理論上也應拿來閱讀 分析,但本文僅侷限在這個問題下 第一步,建立術語體系。在...