pandas字串 列等操作

2022-02-27 07:24:54 字數 2457 閱讀 5612

# in[1]

import pandas as pd

import numpy as np

import json

import os

import re

# in[2]

# !pwd

os.chdir('./root/faq/')

# in[2]

with open('./data/all_data.txt', 'r') as f:

data = f.read().split('[sep]')

aq = pd.dataframe(data, columns=['question'])

# in[3]

# 冬奧會類(可以回答),設定為正例(2)

aq['question'] = aq['question'].str.strip()

aq['label'] = 2

# in[3]

aq # 冬奧會類, 後面只取一部分

# in[4]

# 資料集1(因為量少,多弄幾個)

# 體育-非東奧; 非體育類;

f = open('./data/negative.json', 'rb')

line = f.read().decode('utf8', 'ignore')

f.close()

with open('./data/negative.txt', 'w') as f:

f.write('[' + ','.join(line.split()) + ']')

# in[5]

# 體育類-非東奧; 非體育類

noaq = pd.read_json('./data/negative.txt')

noaq['title']

# in[4]

# 資料集2

# 體育-非東奧; 非體育類;

f = open('./data/negative02.json', 'rb')

line2 = f.read().decode('utf8', 'ignore')

f.close()

with open('./data/negative02.txt', 'w') as f:

f.write('[' + ','.join(line2.split()) + ']')

# in[5]

noaq02 = pd.read_json('./data/negative02.txt')

noaq02['title']

# 資料集3

# in[5]

print(len(noaq))

# in[6]

# 285155

# 285155

train_len = len(noaq)

aq = aq.iloc[:train_len]

print('東奧(可回答): ', len(aq))

# 285155

print('體育-非東奧 + 非體育類:', train_len)

aq# in[7]

# 篩選體育-非東奧;非體育類;

# 改列名

noaq = noaq.drop(labels=['answer', 'desc', 'url'], axis=1)

noaq.columns = ['question']

noaq

# in[8]

# 非體育類:0

noaq['label'] = 0

noaq

# in[9]

# 體育類,非東奧類:1

sports = ['雪', '贏', '速', '跳', '滑', '冬', '自由', '冰', '劇烈', '開賽', 'vs', '武術', '奧運會', '健身', '跑步', '打球', '強', '壯', '體育', '運動員', '運動', '活動', '訓練', '得分', '比賽', '參賽', '贏', '球']

found = noaq['question'].str.contains('|'.join(sports))

sports_idx = noaq['question'][found].index

print(len(sports_idx))

noaq['label'].iloc[sports_idx] = 1

# in[9]

noaq.loc[noaq['label'] == 1]

noaq.loc[noaq['label'] == 0]

# in[10]

# 整合資料

# in[11]

aq# in[11]

aq.to_csv('./data/faq.csv', sep='\t')

# in[12]

test = pd.read_csv('./data/faq.csv', sep='\t')

test

# %%

shell字串,列表操作等

bin bash function1 function1 a 34 if abcd a then echo 包含 else echo 不包含 fiwhoami grep qe kog2 kog1 返回為0包含 1或其他不包含a abcd b 123412 c a b echo c abcd12341...

字串 列表

定義 使用單引號或者雙引號括起來的任意字串,我們都可以稱之為字串。字串建立 str1 或者 str2 字串的拼接 注意 不同型別不能使用 進行拼接 注意 會在逗號位置產生乙個空格 使用格式化的方式 print format str1,str2 print join list1 序列裡的必須是字串 s...

字串,列表

一.資料型別 type 4 二.字串 1.如何分割字串 url sdasdada,sdasdasd,122323,url.split split 分割字串 sdasdada sdasdasd 122323 2.把字串每個字都單獨弄到列表裡 s codeclassroom.cn l list s pr...