利用sas軟體將txt文件轉為excel文件

2021-07-26 14:01:09 字數 1488 閱讀 1074

一、前言

在python爬蟲抓取拉勾網職業資訊這篇部落格中,已經抓取了拉勾網資料分析職位的資訊並儲存在本地,下面介紹一下如果將txt文件轉化為csv文件。

二、實戰

這裡要注意的是,為了在sas中資料步編寫方便,爬蟲儲存在本地的資料格式有所改動,後邊會詳細說明。

1、資料讀取

libname lagou 'f:\lagou';

filename intxt 'f:\lagou\深圳.txt';

filename outcsv 'f:\lagou\深圳.csv';

data lagou.sz;

infile intxt firstobs=2;

length companyname $60. companytype $20. companystage $20. companylabel $60. companysize $10. companydistrict $10.

positiontype $15. positioneducation $10. positionadvantage $60. positionsalary $10. positionworkyear $10.;

input companyname companytype companystage companylabel companysize companydistrict

positiontype positioneducation positionadvantage positionsalary positionworkyear;

run;

在上面可以看到,讀取檔案的時候,分隔符使用的是預設的空格,這與之前爬蟲抓取時儲存的資料格式有所不同,需要自行修改。

因為資料第一行是標籤名,所以從第二個觀測開始讀取,length語句保證資料長度足夠,結果如下:

2、轉化為csv文件

option nocenter;

ods listing close;

ods results off;

ods csvall file=outcsv;

proc print data=lagou.sz;

title '2023年拉勾網深圳資料分析職位資訊';

run;

ods csvall close;

ods results on;

ods listing;

option nocenter將將輸出的檔案內容局左,ods listing close關閉到output視窗的預設輸出,ods result off關閉預設到result的輸出,結果如下:

3、到這裡將txt文件轉為csv文件就結束了

將unicode編碼的txt檔案轉為utf 8編碼

利用codes編寫 coding utf 8 import string import codecs def changecode tt codecs.open c 111.txt rb utf 16 111.txt為unicode編碼檔案,以unicode編碼開啟,utf 16 unicode m...

aspose將word文件轉為html內容

引入aspose相關jar包 將word內容轉為html字串 word轉html文字 param doc 需要轉換的doc檔案物件 return public string parseword2html document doc catch exception e e.getmessage retu...

如何利用pandas將Excel轉為html格式

大家談及用pandas匯出資料,應該就會想到to.系列的函式。這其中呢,比較常用的就是pd.to csv 和pd.to exupoqrtvtocel 但其實還可以將其導成html網頁格式,這裡用到的函式就是pd.to html 今天我們要實現excel轉為html格式,首先需要用讀取excel中的 ...