看完《塊資料》後的一點思考

2022-08-24 13:42:11 字數 1066 閱讀 8829

資料時代已經到來,大有一種得資料者得天下趨勢,更有觀點認為,未來資料將成為公司的固定資產的一部分。我覺得這種觀點是合理的,資料跟能源一樣也是資源,未來整個商業社會將被資料驅動。

首先,總結一下,我理解的資料價值實現的一般步驟:

資料跟其他資源一樣,因為被人類開採才有價值。未來資料量之大將打破現有人們對資料量的認知,要能在資料海洋中開採到有用的資料,大資料技術將是每個資料公司的必須,所以這方面的工作有理由會火。目前,多數擁有大資料的公司好像都沒有大資料處理能力。

當我們開採到有用的資料之後,一般會將這些資料放在乙個叫資料倉儲(data warehouse)的地方,這個資料倉儲和普通oltp(on-line transaction processing)資料庫有所不同,資料倉儲不需要很強的事務性,強調聯機分析能力。

在建立資料倉儲之後,我們需要對資料倉儲中的資料進行olap(online analytical processing)和資料探勘(data mining)。因此資料分析方法和資料探勘演算法就顯得尤為重要,這是資料最終實現價值的最核心環節。在追求實時性和可靠性的商業需求下這方面也會是乙個難點。這個領域也是大有可為的,需要仔細琢磨。

然後,總結一下我理解的塊資料:

塊資料由條資料組成,條資料是分布在各個行業各個領域的業務資料,比如公安部門人口資料、**客戶消費資料以及銀行業務資料等等都是條資料。這些資料都只是時空中單一維度上的資料,都不能單獨反映乙個完整時空狀態。從常識我們都可以知道,銀行判斷目標貸款客戶如果單從銀行業務資料判斷是遠遠不夠的,這就強調在塊資料中分析客戶的重要性。

多個條資料需要互聯互通,才能交織成塊資料,才能發揮資料的真正魅力。這個過程實現面臨層層阻礙。比如,如何讓社會不同組織之間都願意交出自己的資料(畢竟這些資料都是企業辛辛苦苦收集的,總不能白送吧)?如果某個組織願意交出自己的資料,那麼其他組織就會完全信任?在資料交換的過程中哪些資料是敏感資料,交換會不會導致資料洩露危機?

這些問題需要**與企業共同努力。**從上層構築好相關法律法規,企業界則要在技術上讓資料交換更加安全暢通。

在單個企業不可能擁有完整的塊資料情況下,條資料要上公升為塊資料的核心可以理解為資料資產的交易。資料如何衡量價值,怎樣才能像商品一樣進行交易,也是乙個可以思考的方向。

讀《量子之謎》後的一點思考

為了重構自己的知識體系,這段時間惡補了一點科普性知識。昨天在圖書館借了本 量子之謎 這本書寫得不錯,翻譯得也不錯。基本上是一鼓作氣讀完的。讀完書,照樣得總結一下 1 對於 薛丁格的貓 量子處於疊加態 貓是死的,也同時是活的 經由 觀察 向確定態塌縮 瞬間,不用時間,超越光速 從理解上來說也好理解,因...

對Oracle收購BEA後的一點思考

相關新聞 oracle出價85億美元成功收購bea oracle公司宣布,該公司已經同bea達成協議,將以85億美元收購後者,而bea公司董事會也一致通過接受這一新的 塵埃終於落定,這場長達數月的收購大戰,最終以oracle成功入主bea而告終,但這場交易也被 稱為 重傷收購 每次收購都是幾家歡喜幾...

關於資料冗餘的一點思考

此處我暫且把對資料冗餘的思考限定於資料庫中的資料和 中的資料,資料備份不算作冗餘。以前寫 從來不會考慮到資料冗餘,是我的第乙個頭兒年看了我的 後提醒了我,在此表示感謝,今天立文記錄下頭兒給我的忠告和自己的一些體會,以免他日陷入資料冗餘的深淵苦苦掙扎。資料冗餘主要 有兩個。一是在多處儲存實際上是相同的...