@Insukuro

Как вычесть из множества все элементы не являющиеся навыками?

Итак столкнулся я с задачей, которая подразумевает отфильтровать данные, чтобы упростить себе жизнь я решил
сделать из них множество.

{'location location', 'pagespeed', 'resultset resultset', 'xgboost', 'professional', 'gunicorn gunicorn', 'intel core', 'manager', 'sql server', 'docker', 'axure rp', 'lemmatization', 'morph', 'final', 'sale', 'sl', 'integration', 'apache flink', 'git', 'polyline', 'PMI', 'sorted', 'vector', 'DIMM', 'bind', 'COM', 'exec', 'IBM', 'memo', 'management', 'redis', 'apache storm', 'cassandra', '‘ ’', 'backend', 'p p', 'ajax', 'django', 'c #', 'okapi', 'scikit learn', 'sar', 'train dataset', 'ping', 'cosine similarity', 'swift', 'dataset', 'qt', 'recycler', 'visual c++', 'PCI', 'favicon', 'limit', 'linux', 'install', 'added', 'android', 'switch', 'color', 'quicksort', 'colors', 'research', 'soundscapes', 'RNN', 'CSS', 'snowflake', 'landscape', 'value value', 'templates', 'opencv', 'yandex', 'models model', 'ar', 'cart', 'append', 'flexunit', 'spline', 'execute', 'jquery', 'calculation', 'environment variable', 'source', 'animation controller', 'analytic', 'hdfs', 'virtual machine', 'asp net core', 'scipy', 'threading', 'stdin', 'en', 'unix', 'openpyxl', 'blueprints', 'python', 'translate', 'bisecting', 'target', 'postgresql', 'front end', 'chrome', 'manage', 'request form', 'bluetooth', 'logfile', 'firefox', 'sha 256', 'window medium', 'pooling', 'template', 'installed', 'net core', 'statistic', 'windows runtime', 'settings application', 'data science', 'pandas', 'sap hana', 'mnist', 'wordpress', 'ts', 'recipe', 'sqlcommand', 'unsupervised learning', 'active directory', 'matplotlib', 'redux', 'ibeacons', 'delphi', 'css', 'COS', 'google sheet', 'kotlin', 'size size', 'clickjacking', 'tensorflow', 'firebase', 'java', 'joblib', 'resolution image', 'images', 'tracking', 'perl', 'google drive', 'j++', 'machine learn', 'macro', 'user experience', 'Html', 'ilog', 'log event', 'postgis', 'x x', 'vocabulary', 'node', 'system windows', 'm m', 'typeid', 'translator', 'BERT', 'cos', 'active', 'log log', 'gunicorn', 'serial', 'nltk', 'seaborn', 'std', 'PDF', 'mit', 'jsunit', 'path', 'blueprint', 'person', 'oracle database', 'account', 'electron', 'staging area', 'textfield', 'pycharm', 'phpmailer', 'restful api', 'microsoft edge', 'pdf', 'fortran', 'random forest', 'recycler recycler', 'payload', 'blackline', 'softmax', 'pyqt5', 'subsample', 'apache spark', 'widget', 'GPU', 'scheduler', 'node js', 'value values', 'native api', 'unreal engine', 'Api', 'activity', 'cplex', 'histogram', 'javascript', 'graph', 'host', 'ANSI', 'catboost', 'offset offset', 'tkinter', 'XML', 'tutorials', 'intellij idea', 'ibeacon', 'codec codec', 'moodle', 'studio code', 'windows form', 'vue', 'db objects', 'blob', 'motherboard', 'write', 'k means', 'rest api', 'mysql', 'image', 'internet explorer', 'postman', 'coefficient', 'question answer', 'tool', 'angular', 'recursion', 'sqlite', 'highcharts', 'mongodb', 'HTML', 'android studio', 'hana', 'word2vec word2vec', 'visual studio', 'laravel', 'flash', 'pool', 'edition', 'react redux', 'jsx', 'visual', 'snippet', 'ul', 'ETL', 'model view controller', 'ERP', 'apache kafka', 'jinja', 'edit', 'animation', 'form form', 'dockerfile', 'single page application', 'phpunit', 'substring', 'log4j', 'API', 'tesseract', 'vue js', 'express js', '2d', 'infected', 'digital', 'gitlab', 'test unit', 'dart', 'webgl', 'geocode', 'phpmyadmin', 'statistics', 'dot', 'github', 'middleware', 'adam', 'string format', 'sql server management studio', 'video marketing', 'decision tree', 'windows server', 'font font', 'read', 'echo', 'typescript', 'logback logback', 'command line interface', 'tabbar', 'query language', 'ads', 'yarn', 'api', 'session', 'pl pgsql', 'spectral clustering', 'flask', 'article', 'usergroups', 'safari', 'return return', 'recyclerview', 'recycle', 'system net', 'back end', 'pipelines', 'index', 'LAT', 'sources', 'nunit', 'stage', 'textview', 'map', 'html', 'data warehouse', 'processing', 'open server', 'ARIMA', 'pointwise', 'OLE', 'nosql', 'rabbitmq', 'cppunit', 'accounts', 'case', 'dunit', 'trim', 'junit', 'react js', 'webpack', 'php', 'epidemiological', 'window runtime', 'command line', 'svelte', 'sass', 'natural language processing', 'plotly', 'c++', 'propagation', 'dataframe', 'networkx', 'LSTM', 'bitmap', 'dispatch', 'render', 'predicted', 'localhost', 'typescript typescript', 'compile', 'free pascal', 'gradle', 'application databases', 'CRM', 'tokenization', 'sale order', 'plotly plotly', 'codec', 'transact sql', 'controller model view', 'systemd', 'cloudflare', 'panel', 'pattern pattern', 'ubuntu', 'com', 'high resolution', 'xt', 'parse', 'selenium webdriver', 'access', 'jdbc', 'cms', 'pen', 'commonjs', 'react', 'smtp', 'OCR', 'CPLEX', 'genome', 'java virtual machine', 'sql sql server', 'equals', 'nginx', 'docker container', 'test dataset', 'hierarchical clustering', 'bash', 'microsoft sql server', 'tk', 'Cplex', 'position', 'processing unit', 'geopy', 'beautifulsoup', 'xaml', 'bitrix', 'mechanism', 'asp net', 'item response theory', 'backends', 'sql', 'microsoft office', 'numpy', '’ ‘', 'pyunit', 'IEEE', 'abstract', 'mousemove', 'docs google', 'DNS', 'google chrome', 'script', 'base64', 'keras', 'autoencoder', 'picturebox', 'power bi', 'optical character recognition', 'tmp', 'azure blob storage', 'd d', 'virtual environment', 'markdown', 'data buffer', 'recall', 'modul', 'sqlalchemy', 'word2vec', 'cascade', 'trello', 'Css', 'json', 'algorithm', 'maven', 'gis', 'microsoft azure', 'IDE', 'utf 8', 'phpstorm', 'file image', 'cutter', 'bigquery', 'russian', 'debug', 'name entity recognition'}


Суть вопроса: Как мне удалить из множества все элементы не являющиеся скиллами? По возможности не хочется ручками это делать.

Ps/ Также была идея обработать исходные данные, путём добавления количества повторений каждому элементу. И убрать все элементы, которые были бы меньше элемент с наименьшим количеством повторений. Но это решение через чур в лоб
  • Вопрос задан
  • 92 просмотра
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы