挑戰 資料提取 2016tabfun面試題

2021-08-01 09:26:14 字數 1099 閱讀 7316

linux資料提取(grep命令的簡單應用)

介紹

小明在做資料分析的時候需要提取檔案中關於數字的部分,同時還要提取使用者的郵箱部分,但是有的行不是陣列也不是郵箱,現在需要你在data2這個檔案中幫助他用正規表示式匹配出數字部分和郵箱部分。

目標

在檔案data2中匹配數字開頭的行,結果寫入/home/kwx/num中

在檔案data2中匹配出正確格式的郵箱,結果寫入/home/kwx/mail的檔案中

提示

1.郵箱的格式

2.注意符號.的處理

答案

1.使用grep命令  '^[0-9]' ^符號表示匹配行開始的字元,

[0-9]表示匹配數字.

2.使用grep命令  '.*@.*\.com'  開頭'.*'表示匹配前面的任

意多個字元,第二個'.*'同理。

總結:答案很簡單,但粗心就很容易出錯.

擴充套件: 請匹配郵箱伺服器名稱為非字元的行,並輸出

到/home/kwx/servnochar檔案中

大資料的挑戰 提取實際的商業價值

雲的工具和能力來捕捉大資料,但搞清楚你想從中得到什麼以及最終如何提取它,才是決定性的挑戰。資料網路和儲存的進步表明企業組織正捕捉著越來越多的資料。企業cto可以弄清楚全部資料儲存部分 他們有著到位的mongdb雲資料庫,或者他們從cloudant租dbaas。但乙個企業究竟如何處理所有這些非結構化資...

華為2023年精英挑戰賽總結

4月11日晚上23 59分就是32強出現的時刻,由於自己對自己的要求不高,以及自己的水平和時間有限,離結束時間還有很久就放棄了對演算法的優化,就導致了現在的結果。最後提交的結果如下 在3月4號看到今天華為精英挑戰賽的題目開始,自己覺得這個題目不難,加上有兩個同學邀請我參加此次比賽,因此自己也就參加了...

資料提取 常用的手機資料提取方法

閒暇時間,隨手記錄,願與諸位朋友分享。學識有限,不當之處,懇請各位大神不吝賜教,也是對我自己的學習提高過程!言歸正文 手機取證,從字面理解,可以分為取和證兩個過程。取,把資料原原本本的從手機中提取出來。證,通過資料檢索 挖掘 分析,尋找與案件有關的線索和證據。對於我們來說,二者缺一不可。但萬事開頭難...