scala> spark.sql("select count(*) from(select distinct v1,v2 from graph_df)").show()
+--------+
|count(1)|
+--------+
| 1343124|
+--------+
scala> spark.sql("select count(*) from (select v1 from graph_df union select v2 from graph_df)").show()
+--------+
|count(1)|
+--------+
| 166061|
+--------+
Я бы сейчас поостерегался выдавать задачи на ML для студентов потому что на результат
этих задач совешенно невозмножно написать acceptance criteria. И задание сделанное
за деньги или задней левой рукой на ChatGPT может быть совршенно неподвержено
анализу на уровень качества. Вот допустим распознает система котов и собак.
Достаточно показать преподавателю на защите одну собаку и он будет доволен.
Но если подойти к задаче с точки зрения метрик accurecy, precision, то задача
защиты потребует очень большого времени на анализ всех этих метрик и это
в любом случае процесс длинный и для преподавателя мучительный в плане
оценки. Вроде с одной стороны система работает. Узнает собак. Но насколько
глубоко студент проработал тему и насколько хороша confusion matrix - вот
большой вопрос. А если отбиться от студента по принципу сделал и ладно
то зачем вообще такое машинное обучение надо?