檔案排序去重新思路

2022-03-27 11:57:07 字數 562 閱讀 7926

我一直覺得思路是比較重要的。

我寫了個乙個python指令碼從中提取密碼(使用者名稱和郵箱我都不需要),用來做乙個字典。

但是我發現,其中有很多是重複的,比如123456789之類的。

所以,第乙個問題擺在了我的面前,怎麼去重,怎麼給檔案中的資料去重。

我首先想到的就是python 中的先set在list。

然後我遇到了第二個問題,當這個字典檔案比較大的時候,全部讀取到記憶體是不合理的。

通過資料,我查到了一條linux命令,uniq,去重,我的字典有70mb左右,速度還可以接受。

第三個問題,如果資料量真的很大很大,我該如何處理呢?

這時候我想到了資料庫,資料庫設計中有乙個約束,叫做唯一性約束,既已經插入的值,不能再次插入。

那麼,我讀取檔案中的資料,嘗試往資料庫插入,如果資料庫中已經存在,我就忽略此次插入。

這就滿足了我的需求了。

我的第四個問題,我需要排序,簡單的排序就是sorted了,linux也有sort命令,那麼,使用資料庫應該也可以排序吧?

這裡僅僅是乙個思路,我還未做嘗試,不過應該可行。

wince 電阻觸控螢幕去抖動新思路

最近在除錯imx515 wince的觸控驅動,奇怪的問題就此展現給大家。一般來說觸控螢幕越大越容易抖動,但是我經過測試發現,我們的7寸屏,8寸屏一點都不抖動,反而4.3寸屏,抖動的厲害。去抖的方法,最多的是多次取樣,排序掐頭去尾,中間求平均。然後取樣值之間的取樣絕對值,遵循乙個閾值設定。但是這次這些...

檔案內容去重及排序

本文將使用 php 和 linux sort 命令兩種方法,分別實現檔案內容去重及排序,並提供完成演示 寫入1000000個數字,每行乙個數字 file user id.txt num 1000000 tmp for i 0 i num i 檢視檔案行數 wc l user id.txt 10000...

檔案內容去重及排序

本文將使用 php 和 linux sort 命令兩種方法,分別實現檔案內容去重及排序,並提供完成演示 寫入1000000個數字,每行乙個數字 file user id.txt num 1000000 tmp for i 0 i 檢視檔案行數 wc l user id.txt 1000000 use...