DateWhale作業 task5 作者資訊關聯

2021-10-17 11:20:55 字數 1990 閱讀 1323

1.匯入相關包 

# 匯入所需的package

import seaborn as sns #用於畫圖

from bs4 import beautifulsoup #用於爬取arxiv的資料

import re #用於正規表示式,匹配字串的模式

import requests #用於網路連線,傳送網路請求,使用網域名稱獲取對應資訊

import json #讀取資料,我們的資料為json格式的

import pandas as pd #資料處理,資料分析

import matplotlib.pyplot as plt #畫圖工具

2.讀取檔案

data  =  #初始化

#使用with語句優勢:1.自動關閉檔案控制代碼;2.自動顯示(處理)檔案讀取資料異常

with open(r"d:\arxiv-metadata-oai-snapshot.json", 'r') as f:

for idx, line in enumerate(f):

d = json.loads(line)

d =

data = pd.dataframe(data) #將list變為dataframe格式,方便使用pandas進行分析

3.解析作者關聯關係

import networkx as nx 

# 建立無向圖

g = nx.graph()

for row in data.iloc[:50].itertuples():

authors = row[1]

authors = [' '.join(x[:-1]) for x in authors]

# 第乙個作者 與 其他作者鏈結

for author in authors[1:]:

g.add_edge(authors[0],author) # 新增節點2,3並鏈結23節點

4.畫 迪傑斯特拉路徑 

5.畫特別兩個作者的關聯

try:

print(nx.dijkstra_path(g, 'balázs c.', 'nadolsky p.m.'))

except:

print('no path')

6.統計**關係中有多少個聯通子圖,並繪圖

# 計算**關係中有多少個聯通子圖

Task中啟動task的風險分析

序 這兩天遇到乙個task中引數傳遞錯誤的問題,折騰了一天多,總算找到原因了,記錄之。設計思維 maintask是程式的主task,在 maintask 中重新建立新的task,呼叫關係 maintask 實際引數 位址 資訊 param 0x12a154 0x0 void taskastart i...

Task任務取消

如下 using microsoft.entityframeworkcore using system using system.collections using system.collections.concurrent using system.collections.generic usin...

理解Task動作

問題描述 建立乙個全新的工作流,並拖放task activity,部署到目標library後,執行工作流例項出錯。在日誌中發現以下資訊 system.invalidoperationexception correlation value on declaration workflowtoken is...