大資料在高校中的應用

2021-07-11 15:49:12 字數 4369 閱讀 5520

高校大資料及其處理架構

大資料的處理流程與一般資料的處理過程類似,可以定義為在合適工具的輔助下對廣泛異構的資料來源進行抽取和整合,將結果按照一定的標準統一儲存,利用合適的資料分析技術對儲存的資料進行分析從中提取有益的知識,並利用恰當的方式將結果展現給終端使用者。具體來說可以分為資料抽取與整合、資料分析和資料展示。

資料抽取與整合

目前高校已經基本建立了完備的管理資訊系統、學習管理系統等,在統一資料中心中積累了大量的結構化資料;同時各類系統中還散布著大量的半結構化和非結構化資料。半結構化和非結構化的資料經過一定處理後,可以轉化為更容易分析使用的結構化資料。

資料分析

經過抽取和整合得到的資料, 需要經過分析挖掘其潛在的價值。傳統的資料探勘、機器學習、統計分析等方法仍然可以用來對資料進行分析,只是需要根據大資料的特徵進行調整。首先,為了實現對海量資料的分析,需要依map/reduce 模型,將資料拆分處理,然後再將結果彙總,乙個完整的分析可能會經過多層類似的處理過程;其次,大資料的應用通常具有實時性的特點,資料的價值會隨著時間的流逝而遞減,因此分析方法需要平衡處理的效率和準確率;最後,大資料一般構建在雲計算平台之上,分析方法需要考慮與雲計算平台的整合或做為一種雲服務。

資料展示

資料分析得到的分析結果,需要以直觀可理解的方式呈獻給終端使用者,在大資料時代,資料分析產生的結果有可能也是非常大量的,且結果之間的關聯關係複雜、資料維度更多,資料視覺化技術通過更加適合人類思維的圖形化的方式展示資料分析結果,已經被證明是展示資料分析結果非常有效的方法。常見的視覺化方法有:多維疊加式資料視覺化、資料在空間、時間座標中的變化和對比等,當然要將枯燥的資訊轉換為美麗的、令人印象深刻的圖形,需要較高的技術素養和藝術素養。

很多高校正在使用大資料分析技術解決遇到的實際問題,如美國德克薩斯大學利用大資料技術分析學校使用者it 使用行為產生的資料,確定使用者行為異常,審計it 基礎環境,制定安全防護措施。其他的一些應用場景包括分析學生參與網路課堂產生的資料,進而確定如何改進課程講述方式,達到因材施教的教育目標。

高校可以在就業情況分析、學習行為分析、學科規劃、心理諮詢、校友聯絡等方面借助大資料分析技術,挖掘資料中潛在的價值。

就業情況分析

當前市場經濟高速發展、高校不斷擴招、就業制度改革不斷深化和畢業生數量逐年增加、社會整體就業形勢日益嚴峻,大學生就業問題己經越來越成為目前大家共同關心的話題,研究大學生就業問題具有緊迫性和重要性。本文提出在大資料分析框架下的就業問題分析思路。

1. 資料**

傳統的就業分析一般從就業單位、就業地區、所在院系專業、性別、簽約類別、就業年份等維度來分析,得到的只是一般意義上的統計結果,對於指導單個學生的就業以及**未來的就業情況發揮的作用比較有限。應用大資料分析技術,就可以將學生就業模型涉及到的學習情況、社團資訊、生活資訊、校外實習、參加的競賽及獲獎情況、所投公司當年的招聘計畫、歷屆學生在所投公司的表現等眾多的資訊進行收集。以上海財經大學為例,可以從圖1 所示的各類系統中抽取學生的各類資訊,構成就業分析模型所需的各類資料。

2. 資料抽取與儲存

針對資料**的不同,我們採取不同的資料抽取方式,對於結構良好的各資訊系統的資料,我們採用etl 工具如informaticapowercenter、kettle 將資料抽取到hbase 資料庫中;對於web 網頁這類非結構化資料,通過nutch 進行抓取,solr 對資料進行索引後儲存到hbase 資料庫中,示意圖如圖2 所示。hbase 資料庫是乙個開源的高可靠性、高效能、可伸縮、並非建立在關係模型基礎上的分布式資料庫,用以儲存大規模結構化資料。

3. 資料分析

將就業分析模型所需的資料儲存在hbase 資料庫後,可以利用hive 對hbase中的資料進行查詢和分析。hive 提供了一種簡單的類sql 查詢語言,十分適合資料倉儲的統計分析。通過hive 我們可以實現傳統資料倉儲所實現的對就業資料的匯**計分析,而且可以容易的擴充套件其儲存能力和計算能力。

除了資料統計分析之外,我們還可以利用mahout 這個機器學習工具對資料進行監督學習和無監督學習。監督學習使用先驗知識對資料進行分類;無監督學習則由計算機自己學習處理資料,並在做出判斷後給予一定的激勵或懲罰。在進行就業分析時,我們可以使用mahout 已經實現的具體方法。首先是協作篩選,通過分析已就業學生的成績、參加的社團活動、關注的行業、性格特點、就業單位、就業崗位等,計算學生之間的相似度,為即將畢業的學生推薦適合的就業單位和崗位,提供個性化的服務;其次是聚類,這是一種無監督的機器學習方法,我們可以通過不同的維度將未能及時就業的學生進行分析,從中找出其共同的特點,再通過比較在校學生的相關屬性,及時對學生給出預警,以便其在後續的學習和生活中加以改進,如圖3 所示。

4. 資料展示

在資料展示層, 我們可以使用tableau 軟體將分析的結果進行視覺化的展示,tableau 將資料與美觀的圖表完美地結合在一起,它包含非常多的預定義的圖**式,同時還可以將時間、地圖等多種維度在單一的圖表中進行展示。

學習行為分析

為了支援學生的自主學習,高校一般都有自己的學習管理系統如blackboard、sakai 等。這些學習管理系統為學生、教師提供了課程學習和交流的空間。美國教育部教育技術辦公室認為教育資料分為鍵擊層(keystroke level)、回答層(answer level)、學期層(session level)、學生層(student level)、教室層(classroom level)、教師層(teacher level)和學校層(school level),資料就寓居在這些不同的層之中。一般高校每年的開課數在數千門,學生數在數萬人,產生的資料量非常大。應用大資料分析技術使得監控學生的每乙個學習行為變為了可能,學生在回答乙個問題時用了多長時間,哪些問題被跳過了,為了回答問題而作的研究工作等都可以獲得,用這些學生學習的行為檔案創造適應性的學習系統能夠提高學生的學習效果。

學科規劃

促進學科交叉融合發展,構築有生命力的學科生態,打造凸顯核心競爭力的高水平學科是學校學科規劃的重要任務。借助大資料分析技術,充分收集各學科的教學狀態資料、科研專案資料、前沿發展動態等資訊,從而分析學科建設存在的不足,確定學科未來發展的方向,發掘出潛在的具有國際視野的學科帶頭人。

心理諮詢

校友聯絡

校友資源猶如一座座寶藏,對高校的發展建設有著不可替代的重要作用,是高校工作的重要組成部分。有效地把校友聯絡起來、團結起來,對學校的建設和發展具有重要意義。利用傳統的管理方法,僅校友資訊收集就要耗費大量的時間和精力。利用大資料技術,收集各類社交**上的非結構化資料,通過分類、聚類等資料探勘方法,確定校友身份並收集其****、參加的活動資訊等,可以大大提高校友資料收集的效率,為以後利用校友資源提供良好的基礎。

應用難點與對策

大資料在高校應用的美好前景令人神往,但目前大資料的應用還存在很多應用難點,主要有資料整合困難、資料分析方法有待改進和資料隱私問題。

資料整合

在很多高校中,因為管理資訊系統設計時未考慮到對一些過程資料的收集,導致在分析時缺乏必要的資料**,需要對應用系統進行擴充套件;同時對於定義良好的結構化資料很多高校也尚未很好的整合。在大資料時代,異構的資料型別、廣泛存在的資料**、參差不齊的資料質量給資料整合帶來了新的挑戰。高校應該探索融合結構化、半結構化、非結構化資料的統一模型,同時提高資料採集的質量,強化資料文化。

資料分析方法

半結構化和非結構化資料的迅猛增長,給傳統的聚類、關聯分析等資料探勘技術帶來了巨大的衝擊和挑戰。一方面,很多應用場景要求資料的實時分析;另一方面缺乏對半結構化和非結構化資料的先驗知識,難以構建其間的關聯關係。高校需要緊密跟蹤業界對大資料分析方法的研究動態,同時通過高校間的協作溝通探索新型的資料分析方法。

資料隱私

大資料分析的資料基礎必然建立在獲取更多個人資訊之上,而且通過分析還可以使資料之間產生關聯關係,進而揭示更多的個人隱私。然而為了保護隱私就將所有資料加以隱藏,那麼資料的價值就無法體現。這種矛盾在相當長的時間內必將一直存在,需要通過技術和制度的完善逐步解決。

移動互聯、mooc 等技術的不斷興起給高校的發展帶來了極大的挑戰,為了應對這種挑戰,高校應當充分發揮大資料在其中的支撐作用。在人才培養、科學研究和管理等方面廣泛收集過程資料,結合視覺化技術充分分析和挖掘蘊含在資料之中的豐富價值。同時我們需要在高校內倡導和強化資料文化,建立持久運作的收集、分析資料並將分析結果轉換為教育決策和實踐的體系,真正發揮大資料在高校發展中的價值。

大資料在高校的應用場景 大資料在高校中的應用研究

龍源期刊網 大資料在高校中的應用研究 許春秀廖明海年第期 摘要 隨著國內大資料時代的到來,高校正常執行中產生大量資料。高校內的資料來自於 不同的層次和分類,這些資料主要圍繞著面對教師或學生的服務與管理而產生。文章介紹了大 資料的產生的背景,大資料在高校教學和管理中的應用,以及 大資料在高校未來的應用...

大資料應用專案創新大賽 全國高校大資料應用創新大賽

本競賽是全國性的大資料學科競賽,旨在為相關專業的學生提供乙個應用創新設計競技平台,促進學生技術技能 創新思維 實踐能力和協作能力的培養,並圍繞競賽建立起專業研討 師資研修和產學研融合創新體系,逐步推動大資料相關專業的建設,為產業發展提供人才支撐。一 競賽組織 主辦單位 教育部高等學校計算機類專業教學...

大資料在應急管理中的應用

隨著網際網路 社交 和人工智慧的技術發展和應用普及,大資料在應急管理中發揮的作用將越來越重要,是應急管理未來發展的重要方向之一。應急管理部的成立為中國應急管理的發展提供了政策上的支援,也為發展大資料在中國應急管理中的應用提供了契機。現階段,理論研究尚無法完全預知大資料在應急管理中的具體應用。但基於對...