貝殼房產問答匹配比賽划水之旅

乙個月前，參加了貝殼找房的房產問答匹配比賽，因為和我的方向比較契合都是屬於mrc的。第一次參加比賽，因此記錄一下。

參加比賽為了讓自己有實戰經驗，簡歷上可以寫上一筆。同時還可以獲取豐厚的獎金（雖然說基本不可能，但是夢想要是要有的），鍛鍊自己的code能力。可謂一舉多得（想的很美）。

1個問題對應多個回答，看對應的回答是否是乙個問答句。這不就是二分類問題。

輸入部分，在網上找到類似的**改了改。

def read_file():
train_query = pd.read_csv(path+'/train/train.query.tsv',sep='\t',header=none)
train_query.columns=['id','q1']
train_reply = pd.read_csv(path+'/train/train.reply.tsv',sep='\t',header=none)
train_reply.columns=['id','id_sub','q2','label']
df_train = train_query.merge(train_reply, how='left')
df_train['q2'] = df_train['q2'].fillna('好的')
test_query = pd.read_csv(path+'/test/test.query.tsv',sep='\t',header=none)
test_query.columns=['id','q1']
test_reply = pd.read_csv(path+'/test/test.reply.tsv',sep='\t',header=none)
test_reply.columns=['id','id_sub','q2']
df_test = test_query.merge(test_reply, how='left')
return df_train, df_test

模型利用huggface的api很快寫出了baseline。這麼簡單（too young too ******）。

之後就是不斷調參和修改**的過程，沒想到這部分才是最折磨人。

寫出乙個baseline，之後提交一看，f1= 0.75097 還不錯，（但是這就是我的最高分，之後再也沒有超過這個分數。。。）

當時沒想到還挺簡單，那且不是有機會拿獎了（心裡竊喜）。

但是沒想到。。。

好一波反向調優。。。給自己鼓掌

當時在想是不是思路錯了，之後又寫了好幾個baseline，基於sentence-bert的語義匹配、抽取區域性資訊的text_cnn。但是效果並沒有提高。

是不是調優的姿勢不對啊，請教學長、請教同學。

首先加上focal loss，對樣本不平衡的資料集可以關注較少的、較難的類別。

class focalloss(nn.module):
def __init__(self, gamma=2, weight=none, reduction='mean'):
super(focalloss, self).__init__()
self.gamma = gamma
self.weight = weight
self.reduction = reduction
def forward(self, output, target):
# convert output to pseudo probability
out_target = torch.stack([output[i, t] for i, t in enumerate(target)])
probs = torch.sigmoid(out_target)
focal_weight = torch.pow(1-probs, self.gamma)
# add focal weight to cross entropy
ce_loss = f.cross_entropy(output, target, weight=self.weight, reduction='none')
focal_loss = focal_weight * ce_loss
if self.reduction == 'mean':
focal_loss = (focal_loss/focal_weight.sum()).sum()
elif self.reduction == 'sum':
focal_loss = focal_loss.sum()
return focal_loss

這波應該穩了，**提交一氣呵成。然而並沒有用。

嗯，還不能放棄，考慮考慮對抗學習，樣本量這麼少。果斷加上對抗訓練fast gradient method。

class fgm():
def __init__(self, model):
self.model = model
self.backup = {}
def attack(self, epsilon=1., emb_name='bert.embeddings.word_embeddings.weight'):
# emb_name這個引數要換成你模型中embedding的引數名
for name, param in self.model.named_parameters():
if param.requires_grad and emb_name in name:
self.backup[name] = param.data.clone()
norm = torch.norm(param.grad)
if norm != 0 and not torch.isnan(norm):
r_at = epsilon * param.grad / norm
param.data.add_(r_at)
def restore(self, emb_name='bert.embeddings.word_embeddings.weight'):
# emb_name這個引數要換成你模型中embedding的引數名
for name, param in self.model.named_parameters():
if param.requires_grad and emb_name in name:
assert name in self.backup
param.data = self.backup[name]
self.backup = {}

這波應該錯不了了，信心滿滿。訓練、**、提交。但是分數絲毫沒變。。。。

這，，，心態**。

好吧，之後就慢慢放棄這個比賽，並沒有什麼所謂的逆襲，，，（菜雞好慘）

雖然這次比賽並沒有拿到很好的名次，但是我也從中學習了不少（自我安慰。。），學習了不少小技巧。雖然在比賽並沒有什麼用。賽後，我也搜尋了一些相關參賽的**，人家的baseline的效果都能達到78（比我高了三個點），仔細看看，基本思路一致。都是看作分類問題，但是人家使用五折交叉驗證。好吧，誰叫自己沒有學習機器學習相關知識。。。直接上手深度學習。對於基本的一些機器學習技巧都不知道。。。對於樣本量比較少的資料來說，n折交叉驗證是乙個不浪費資料的乙個好方法。之後，如果sota的方法出來，我也會去學習的。

最後的最後，如果感覺能有大佬帶著參加比賽，會少走很多彎路，如果能和大佬組隊，肯定會學到不少。（那個大佬來帶帶我）。。。

貝殼房產問答匹配比賽划水之旅

仿貝殼房產中介ERP管理系統

貝殼找房面試之c 基礎問答

貝殼找房IPO，房產電商依舊難走

貝殼房產問答匹配比賽 划水之旅

仿貝殼房產中介ERP管理系統

貝殼找房面試之c 基礎問答

貝殼找房IPO，房產電商依舊難走

相關推薦

貝殼房產問答匹配比賽划水之旅