資料分析5

2021-10-14 20:04:59 字數 3634 閱讀 9063

具體**以及講解

將作者列表進行處理,並完成統計。具體步驟如下:

圖是複雜網路研究中的乙個重要概念。graph是用點和線來刻畫離散事物集合中的每對事物間以某種方式相聯絡的數學模型。graph在現實世界中隨處可見,如交通運輸圖、旅遊圖、流程圖等。利用圖可以描述現實生活中的許多事物,如用點可以表示交叉口,點之間的連線表示路徑,這樣就可以輕而易舉的描繪出乙個交通運輸網路。

迪傑斯特拉路徑:.從乙個源點到其它各點的最短路徑,可使用迪傑斯特拉演算法來求最短路徑;

連通圖:在乙個無向圖 g 中,若從頂點i到頂點j有路徑相連,則稱i和j是連通的。如果 g 是有向圖,那麼連線i和j的路徑中所有的邊都必須同向。如果圖中任意兩點都是連通的,那麼圖被稱作連通圖。如果此圖是有向圖,則稱為強連通圖。

對於其他圖演算法,可以在networkx和igraph兩個庫中找到。

首先讀取我們想要的資料:

// an highlighted block

# 匯入所需的package

import seaborn as sns #用於畫圖

from bs4 import beautifulsoup #用於爬取arxiv的資料

import re #用於正規表示式,匹配字串的模式

import requests #用於網路連線,傳送網路請求,使用網域名稱獲取對應資訊

import json #讀取資料,我們的資料為json格式的

import pandas as pd #資料處理,資料分析

import matplotlib.pyplot as plt #畫圖工具

// an highlighted block

def readarxivfile

(path, columns=

['id'

,'submitter'

,'authors'

,'title'

,'comments'

,'journal-ref'

,'doi'

,'report-no'

,'categories'

,'license'

,'abstract'

,'versions'

,'update_date'

,'authors_parsed'

], count=none)

:'''

定義讀取檔案的函式

path: 檔案路徑

columns: 需要選擇的列

count: 讀取行數

'''data =

with

open

(path,

'r')

as f:

for idx, line in

enumerate

(f):

if idx == count:

break

d = json.

loads

(line)

d =data.

(d) data = pd.

dataframe

(data)

return data

data =

readarxivfile

('arxiv-metadata-oai-2019.json',[

'id'

,'authors_parsed'],

200000

)

// an highlighted block

import networkx as nx

# 建立無向圖

g= nx.

graph()

# 只用五篇**進行構建

for row in data.iloc[

:500].

itertuples()

: authors = row[2]

authors =

[' '

.join

(x[:-1

])for x in authors]

# 第乙個作者 與 其他作者鏈結

for author in authors[1:

]:g.

add_edge

(authors[0]

,author) # 新增節點2,3並鏈結23節點

// an highlighted block

# 將作者關係圖進行繪製:

)

如果我們500片**構建圖,則可以得到更加完整作者關係,並選擇最大聯通子圖進行繪製,折線圖為子圖節點度值。

資料分析 資料分析概述

了解業務 了解資料 確認業務和資料 預期分析和管理 資料分析方式01.了解資料資料 1.測量標度型別 屬性本源並不是數字或者符號,通過測量標度將數值或者符號和物件的屬性建立關聯。屬性的型別 測量尺度 nominal 標稱 等於或者不等於 一對一的變換 ordinal 序數 大於或者小於 單調函式的變...

《精益資料分析》筆記 第5章 資料分析框架

1 戴夫.麥克盧爾 的海盜指標說 麥克盧爾將創業公司最需要關注的指標分為五大類 1 獲取使用者acquisition 2 提高活躍度 activation 3 提高留存率 retention 4 獲取營收 revenue 5 自傳播 referral 這一模型,描述了使用者 客戶 訪客須經歷的五個環...

資料分析的統計基礎5

當樣本容量很大時,樣本比例的抽樣分布可用正態分佈近似當樣本容量很大時,樣本比例的抽樣分布可用正態分佈近似 棣莫弗 拉普拉斯中心極限定理 設 x 1,x 2,x n,是獨立同分布 independently identically distribution 的隨機變數,x i 的分布是 p x i 1...