時空大資料與眾包計算學習總結

2021-08-20 13:06:26 字數 1466 閱讀 1350

秦浩桐 2016.12

在應用課堂課程的學習後,我在學習報告選取童詠昕老師的《時空大資料與眾包計算》專題進行總結**。毫無疑問,無論是時空大資料還是眾包計算,這兩者的興起都依賴於技術龐大的網際網路使用人數,但這兩種技術在獲取資訊時所側重的物件又有所不同:時空大資料所依賴的,是數目龐大的移動式智慧型裝置提供的資訊;而眾包計算需要的則是有特定要求的,需要解決發布者問題的資料。所以在這篇報告中,我在對每種技術進行概述之後,又進一步從兩種技術中所採集資訊裡可能存在的一些問題和問題的部分解決方法的角度對兩種技術進行**。

時空大資料是目前最重要也是較為複雜的大資料之一,其表達與組織是資料內容準確度量和價值提煉的基礎,全域性表達能力是其最本質的特性。在大資料時代,資料內部複雜關係是資料核心價值所在,時空大資料的價值在於時間、空間、物件之間的關聯關係。需要研究時空大資料多維關聯描述的形式化表達、關聯關係動態建模與多尺度關聯分析方法,時空大資料協同計算與重構提供快速、準確的面向任務的關聯約束。

在時空大資料應用裡,需要從資料中進行資料探勘來採集資訊,所以前期採集到的資料的要求應該是大量、資訊豐富、符合要求的資料。但在實際情況中,所採集到的資料可能會存在各種各樣的問題,例如被常常抱怨的「資料豐富,資訊貧乏」,**其中的原因,一是資料分析技術不夠完備高效,二是所採集到的資料質量不高,如資料的輸入錯誤產生的無效資料、不同**資料引起的不同表示方法,資料間的不一致等,導致現有的資料中存在這樣或那樣的無效資料或髒資料。這些資料的主要表現為:拼寫問題和列印錯誤,不合法值和空值、不一致值,簡同一實體的多種表示,不遵循引用完整性等。時空大資料報括時間、空間、專題屬性三維資訊,具有多源、海量、更新快速的綜合特點。它的資料特點決定了它存在著與其他所需海量資料的技術中一樣的問題。

對於這種問題,目前的解決方法是對所採集的資料進行資料清洗。資料清洗(data cleaning)的目的是檢測資料中存在的錯誤和不一致,剔除或者改正它們,以提高資料的質量。由所能蒐集到的資料進行整理,目前的資料清洗演算法的分類可以大致分為如下四種:自動檢測屬性錯誤的演算法、屬性清洗的演算法、檢測重覆記錄的演算法、重覆記錄清洗的演算法。資料清洗可以很大程度上解決採集到資料所存在的問題,使得接下來的資料探勘產生有效的結果,使計算得出結果更加準確。

眾包指的是乙個公司或機構把過去由員工執行的工作任務,以自由自願的形式外包給非特定的大眾網路的做法。眾包作為一種靈活、有效的解決方式,開始受到人們越來越多的關注。最近幾年,眾包領域的各方面研究都取得了很大的進展,提出了許多採用眾包手段的新型應用,出現了不少具體的處理方法,得到了不錯的工作效果。

針對此問題,還有許多眾包質量控制的方法已經被研發了出來。選取評測惡意工作者這一角度來進行分析,目前存在以下幾種類別:一是制定隨機型別和統一型別惡意工作者的評分公式;二是利用相互間標註一致性,測量不同工作者之間完成任務的一致性;三是依據期望最大值演算法,估計出多個工作者的個人誤差率以及正確答案的估計值。除此之外,還可以通過其他角度進行判斷,使得眾包計算所得的結果足夠可靠。

這就是我對這兩種技術中對於採集到資訊的優化處理方面目前存在的一些的問題和方法的總結,希望在以後接觸這兩項技術時,對這些問題的分析能對我起到一定的引導作用。

智慧型宜興時空大資料與雲平台專案通過專家論證

8月30日下午,宜興市經信委在宜興市國土資源局組織召開了智慧型宜興時空大資料與雲平台專案論證會,市 財政局及國土資源局分管領導參加會議。與會專家領導對專案申請立項過程 時空大資料內容 雲平台建設技術路線 經費使用等方面進行質詢後,一致認為,開展智慧型宜興時空大資料與雲平台建設,是宜興市測繪地理資訊部...

雲計算學習素材 課件,大資料和雲計算的關係是什麼?

大資料和雲計算的關係是什麼?從理論角度來看,二者屬於不同層次的事情,雲計算研究的是計算問題,大資料研究的是巨量資料處理問題,而巨量資料處理依然屬於計算問題的研究範圍,因此,從這個角度來看,大資料是雲計算的乙個子領域。從應用角度來看,大資料是雲計算的應用案例之一,雲計算是大資料的實現工具之一。綜上,大...

02雲計算與大資料學習之大資料關鍵技術與應用習題

以下是大資料技術架構的特點的是 a 整合性 b 架構先進性 c 實時性 d 以上都是 大資料分析的理論核心是 a 資料探勘演算法 b 聚類演算法 c 統計分析演算法 d 神經網路演算法 是大資料的驅動力。大資料總體架構的特點有 分布式資料庫系統是 和 相結合的產物。根據資料來源的資訊和分析目標不同,...