Как правильно переписать часть кода с Python на Си?

Question

AprilSnow @AprilSnow

Как правильно переписать часть кода с Python на Си?

Есть такой код:

primary_list = tuple([line.strip() for line in open('file1.txt', 'r')])
secondary_list = tuple([line.strip() for line in open('file2.txt', 'r')])
f = open('test.txt', 'w')

users_unique = []

def isUnique(value):
	if value not in users_unique:
		users_unique.append(value)
		return True
	else:
		return False

def common():
	for item in primary_list:
		if item is None:
			continue
		elif item in secondary_list and isUnique(item):
			f.write(str(item)+'\r\n')
	print 'Complete'

Стоит задача переписать его на Си. Вот мои наработки:

#include <stdio.h>
#define N 10
#include <stdbool.h>

bool isvalueinarray(char val, char arr, char size){
    int i;
    for (i=0; i < size; i++) {
        if (arr[i] == val)
            return true;
    }
    return false;
}

main () {
    FILE *primary_list;
    char arr[N];
    FILE *secondary_list;
    char arr2[N];
    FILE *f;

    primary_list = fopen("file1.txt", "r");
    secondary_list = fopen("file2.txt", "r");
    f = fopen("f.txt", "w");

    while (fgets (arr, N, primary_list) != NULL){
        fputs(arr, f);
    };
    while (fgets (arr2, N, secondary_list) != NULL){
            fputs(arr2, f);
    };

    printf("\n");
    fclose(f);
}

Что нужно поправить в функции проверки на уникальность, чтобы все работало? Подскажите, пожалуйста, куда копать. Заранее спасибо

Вопрос задан более трёх лет назад
1312 просмотров

2 комментария

Подписаться 3 Оценить 2 комментария

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 4

Комментировать

14 комментариев

AprilSnow @AprilSnow Автор вопроса

Это изолированный код, я хотел потом Сишный код запихнуть в ctypes и подключить к основному. А данные очень большие

Написано более трёх лет назад
bobrovskyserg @bobrovskyserg

AprilSnow:
Большие - это сколько?

Написано более трёх лет назад
AprilSnow @AprilSnow Автор вопроса

bobrovskyserg: Больше 10мб. Моим кодом все это очень долго обрабатывается

Написано более трёх лет назад
bobrovskyserg @bobrovskyserg

AprilSnow:
10мб - фигня, код из ответа их и не заметит

Написано более трёх лет назад
AprilSnow @AprilSnow Автор вопроса

bobrovskyserg: В каком смысле? Даже если я запускаю изолированный скрипт с данными весом по 1,5мб, то он обрабатывается 235-240 секунду, что довольно критично. А при файлах весом больше 10мб все будет еще хуже

Написано более трёх лет назад
bobrovskyserg @bobrovskyserg

AprilSnow:
_код_из_ответа_ а не _код_из_вопроса_

Написано более трёх лет назад
AprilSnow @AprilSnow Автор вопроса

bobrovskyserg: Твой код не проводит проверку на уникальность, он просто записывает абсолютно все в файл

Написано более трёх лет назад
bobrovskyserg @bobrovskyserg

AprilSnow:
Неужели? )))
А ты пробовал его запустить? То-то.

Написано более трёх лет назад
AprilSnow @AprilSnow Автор вопроса

bobrovskyserg: Пробовал

Написано более трёх лет назад
AprilSnow @AprilSnow Автор вопроса

bobrovskyserg: Мой скрипт вписывает 30кб уникальных записей, твой же каким-то образом находит их на 2,4мб. При весе обоих файлов 1,2мб, соответственно

Написано более трёх лет назад
bobrovskyserg @bobrovskyserg

AprilSnow:
И он действительно "не проводит проверку на уникальность, а просто записывает абсолютно все в файл"?
Я убит наповал.

Написано более трёх лет назад
bobrovskyserg @bobrovskyserg

AprilSnow:
Ну это просто про проверить:
file1.txt
---
a
b
---
file2.txt
---
b
c
---

У меня на выходе:
---
a
b
c
---

А у тебя пусто.
Как же так?

Написано более трёх лет назад
Eddy_Em @Eddy_Em
bobrovskyserg: Большие - это под пару-тройку гигов.

А насчет простейшего способа - вот пример:
echo -e "1\n2\n3" > filea echo -e "4\n2\n3\n5" > fileb sort -u filea > filea.s sort -u fileb > fileb.s comm filea.s fileb.s -12 2 3
Написано более трёх лет назад
bobrovskyserg @bobrovskyserg

Японский Городовой:
Уж проехали.
Да, на больших файлах рулит слияние, и неважно, на чем оно реализовано.
Но большие начинаются там, где всё не лезет в память.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 19 июл.
- 80 просмотров
1

ответ
C++

Простой
Нарушается ли тут strict aliasing rule?
- 1 подписчик
- 19 июл.
- 46 просмотров
1

ответ
C++

Простой
Безопасно ли преобразование reinterpret_cast из указателя в массив?
- 1 подписчик
- 18 июл.
- 49 просмотров
1

ответ
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 91 просмотр
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 315 просмотров
0

ответов
C++

Простой
Как сделать скриншот второго монитора на С++?
- 1 подписчик
- 14 июл.
- 126 просмотров
4

ответа
C

+2 ещё

Сложный
Почему зависают прерывания клавиатуры (IRQ1) после первого нажатия при переходе на GOP в самописной ОС (x86_64)?
- 1 подписчик
- 12 июл.
- 202 просмотра
2

ответа
C++

Простой
Возможно ли сделать скрин действующего окна через Alt + PrtSc на С++?
- 1 подписчик
- 08 июл.
- 138 просмотров
2

ответа
C

+1 ещё

Средний
Как работает выравнивание памяти в С в структурах?
- 1 подписчик
- 07 июл.
- 158 просмотров
2

ответа
C++

Простой
Как можно через ООП сериализировать в разные форматы в едином стиле?
- 2 подписчика
- 07 июл.
- 107 просмотров
3

ответа
Показать ещё Загружается…

Если цель ускорение, то не имеет смысла переписывать.
Александр Таратин: Почему? У меня большие данные обрабатываются эим кодом, что критично. На пайтоне тот объем занимает 5-6 минут. Хотел переписанный код закинуть в ctypes, это бы ускорило обработку

Answer 1 · 2015-06-18 18:23:10

primary_list = tuple([line.strip() for line in open('file1.txt', 'r')])
secondary_list = tuple([line.strip() for line in open('file2.txt', 'r')])

Квадратные скобки, на мой взгляд, необязательны.

for item in primary_list:
    if item is None:
      continue

Не уверен, что эта ветвь выполнится хотя бы раз.

Если стоит задача ускорить работу скрипта, то, на мой взгляд, проще переписать так:

primary_set = frozenset(line.strip() for line in open('file1.txt', 'r'))
secondary_set = frozenset(line.strip() for line in open('file2.txt', 'r'))
with open('test.txt', 'w') as f:
    for item in primary_set&secondary_set:
        if item:
            f.write(item+'\n')
print 'Complete'

Можете добавить сортировку по вкусу.

Answer 2 · 2015-06-18 17:38:05

Множества (set) нужно использовать и на c++, и на питоне.
Считать оба файла в множества, взять пересечение, и распечатать.

Answer 3 · 2015-06-18 17:48:37

Если списки небольшие, можно вообще в баше выдрать уникальные записи, просто отсортировав оба и запустив comm.
Если списки большие, то я бы использовал БД, нежели самостоятельно такое выделывать.
Если же это — лабораторная работа, то а) заполняем два строковых массива считанными данными; б) сортируем их; в) пробегаемся по отсортированным данным, избегая повторов, и выдираем совпадения. Можно готовые алгоритмы поискать.
А еще есть самый тупой вариант: делаем mmap обоих файлов, строка за строкой читаем первый, при помощи strstr ищем это во втором, заполняем. В принципе, на коротких файлах даже этот способ никакого заметного торможения не выдаст.

Answer 4 · 2015-06-18 21:53:41

Если файлы отсортированы, то можно итерировать оба файла одновременно (с выравниванием позиции по значению), таким образом за один проход можно получить пересечение, без необходимости все загружать в память.

Если не сортированы, тогда загрузить в set'ы и выполнить пересечение, как посоветовали выше.

Answer 5 · 2015-06-19 02:18:20

bool isvalueinarray(char val, char arr, char size){
    int i;
    for (i=0; i < size; i++) {
        if (arr[i] == val)
            return true;
    }
    return false;
}

Эм... что это за char size? Почему тип int сравнивается с типом char?

Как правильно переписать часть кода с Python на Си?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт