мне нужно удалить все слова, которые повторяются в 1) каждой строке 2) выписать слова которые встречаются почти в каждой (например в 80% строк)
import pandas as pd
df = pd.DataFrame({'source': ['A B C D', 'A B L D', 'X B C D', 'A B C D', 'A Z B C D']})
print(df)
ind source
0 A B C D
1 A B L D
2 X B C D
3 A B C D
4 A Z B C D
то есть мне например нужно удалить все
В и
D из данного примера, и вывести
А и
C как часто встречающиеся
Как лучше всего это делать на огромном датасете? (например 1млн строк)