WideCharToMultiByte msvc 2012 bug?

Question

Door @Door

C++

WideCharToMultiByte msvc 2012 bug?

Здравствуйте.

Есть некая ф-я конвертации wchar_t* строки:

bool WcharToString(const wchar_t* wstr, std::string& converted, UINT codePage = CP_ACP)
{
	if(wstr)
	{
		int length = ::WideCharToMultiByte(codePage, 0, wstr, -1, NULL, 0, NULL, NULL);
		char* str = new char[length + 1];
		str[length] = '\0';
		
		// ignoring returned value
		::WideCharToMultiByte(codePage, 0, wstr, -1, str, length, NULL, NULL);
		converted.assign(str);
		delete [] str;
		return true;
	}
	return false;
}

И она, оказывается, прекрасно работает, если использовать 2010 студию, но не работает, если это 2012 студия. Что скажете по этому поводу — некорректно написана ф-я выше или баг библиотек 2012 студии?

( сама WideCharToMultiByte обьявляется в WinNls.h 2010 студии и в Stringapiset.h 2012 — т.е. что то меняли :) ).

Если баг, то может сообщить Microsoft? А если не баг, подскажите как сделать правильно.

Заранее спасибо.

Вопрос задан более трёх лет назад
4405 просмотров

5 комментариев

Подписаться 4 Оценить 5 комментариев

vScherba @vScherba

Расшифруйте, пожалуйста, что значит — не работает? Какой код возврата обоих вызовов WideCharToMultiByte и какой GetLastError()? У меня 2012 студии нет в наличии, проверить код нет возможности.
Вообще, WideCharToMultiByte к студии отношения имеет мало, реализуется виндой в Kernel32.dll. Возможно, ошибка в чем-то другом.

Написано более трёх лет назад
Door @Door Автор вопроса

По поводу отношения к студии, да — некоректно выразился, конечно, студия не при чём.

GetLastError что в 1м, что во 2м случаях говорит, что никаких ошибок нету. WideCharToMultiByte возвращает length записаных байт, т.е. ещё раз говорит, что ф-я отработала корректно.
Это всё под Windows 7, 32 bit, на всякий случай.

Написано более трёх лет назад
Door @Door Автор вопроса

но, результат работы 2010 студии — нормальная, UTF-8 строка. А вот 2012 — крякозябрики возвращает.

Написано более трёх лет назад
BrainHacker @BrainHacker

Вы хоть приведите пример неправильной работы.

Написано более трёх лет назад
Door @Door Автор вопроса

Итак, codePage = CP_ACP.
msvc10

и msvc12

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Разработчик на C++

12 месяцев

Далее
Академия Эдюсон

Разработчик игр на Unreal Engine + ИИ

9 месяцев

Далее
Stepik

Профессия: Разработчик C++ (Junior)

2 месяца

Далее

Решения вопроса 1

2 комментария

Door @Door Автор вопроса
да, Вы абсолютно правы.
по поводу кода, то, если уж совсем правильно:

int length = ::WideCharToMultiByte(codePage, 0, wstr, -1, NULL, 0, NULL, NULL); char* str = new char[length]; ::WideCharToMultiByte(codePage, 0, wstr, -1, str, length, NULL, NULL);
Написано более трёх лет назад
Константин Власов @CaptainFlint

Ах да, точно. Возвращается же размер именно требующегося буфера, а не длина сконвертированной строки.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 3

6 комментариев

Door @Door Автор вопроса

ммда, не хотелось бы COM с собой таскать. Но спасибо за «быстрый» способ.

Написано более трёх лет назад
Door @Door Автор вопроса

Ой, всё также — баг Майкрософта. 10я студия — нормально, 12 — крякозябрики.

Написано более трёх лет назад
vScherba @vScherba

По поводу быстрого способа, который не тянет за собой либы COM: воспользуйтесь converted = CW2A(wstr); (atlbase.h).

Написано более трёх лет назад
Door @Door Автор вопроса

Спасибо. С CW2A даже будет проще — там используется всё та же WideCharToMultiByte.

Написано более трёх лет назад
Руслан @ruzzz

По поводу CW2A, там вроде когда-то проблема была с alloca

Написано более трёх лет назад

Door @Door Автор вопроса

наверное, сейчас уже нету такой проблемы. Вот код, который выделяет память под строку (выходной параметр ppBuff):

template <class _CharType>
inline void AtlConvAllocMemory(
	_Inout_ _Deref_post_cap_(nLength) _CharType** ppBuff,
	_In_ int nLength,
	_Inout_cap_(nFixedBufferLength) _CharType* pszFixedBuffer,
	_In_ int nFixedBufferLength)
{
	ATLENSURE_THROW(ppBuff != NULL, E_INVALIDARG);
	ATLENSURE_THROW(nLength >= 0, E_INVALIDARG);
	ATLENSURE_THROW(pszFixedBuffer != NULL, E_INVALIDARG);

	//if buffer malloced, try to realloc.
	if (*ppBuff != pszFixedBuffer)
	{
		if( nLength > nFixedBufferLength )
		{
			_CharType* ppReallocBuf = static_cast< _CharType* >( _recalloc(*ppBuff, nLength,sizeof( _CharType ) ) );
			if (ppReallocBuf == NULL) 
			{
				AtlThrow( E_OUTOFMEMORY );
			}
			*ppBuff = ppReallocBuf;
		} else
		{
			free(*ppBuff);
			*ppBuff=pszFixedBuffer;
		}

	} else //Buffer is not currently malloced.
	{
		if( nLength > nFixedBufferLength )
		{
			*ppBuff = static_cast< _CharType* >( calloc(nLength,sizeof( _CharType ) ) );
		} else
		{			
			*ppBuff=pszFixedBuffer;
		}
	}

	if (*ppBuff == NULL)
	{
		AtlThrow( E_OUTOFMEMORY );
	}
}

Т.е. используется calloc (_recalloc)

Написано более трёх лет назад

3 комментария

ixSci @ixSci

std::string utilities::utf16ToUtf8(const std::wstring& utf16)
{
    std::wstring_convert<std::codecvt_utf8<wchar_t>, wchar_t> convert;
    return convert.to_bytes(utf16.c_str());
}

Написано более трёх лет назад

Door @Door Автор вопроса

это ведь новый стандарт, а то я еще ничего не пробывал :)? Нужно иметь возможность работать с компиляторами, не поддерживающими C++11. Но и за это спасибо.

Написано более трёх лет назад
ixSci @ixSci

новый, да

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Сложный
Как решить задачу на 3D DP?
- 1 подписчик
- вчера
- 123 просмотра
2

ответа
C++

Простой
Нарушается ли тут strict aliasing rule?
- 1 подписчик
- 19 июл.
- 53 просмотра
1

ответ
C++

Простой
Безопасно ли преобразование reinterpret_cast из указателя в массив?
- 1 подписчик
- 18 июл.
- 57 просмотров
2

ответа
C++

Простой
Как сделать скриншот второго монитора на С++?
- 1 подписчик
- 14 июл.
- 138 просмотров
4

ответа
C++

Простой
Возможно ли сделать скрин действующего окна через Alt + PrtSc на С++?
- 1 подписчик
- 08 июл.
- 139 просмотров
2

ответа
C++

Простой
Как можно через ООП сериализировать в разные форматы в едином стиле?
- 2 подписчика
- 07 июл.
- 109 просмотров
3

ответа
C++

+1 ещё

Простой
Почему компилятор подчёркивает импортируемый класс как ошибку «индификатор не определён»?
- 1 подписчик
- 04 июл.
- 120 просмотров
2

ответа
C++

Сложный
Концепт проверки совместимости с шаблонным конструктором?
- 1 подписчик
- 25 июн.
- 109 просмотров
1

ответ
C++

Простой
Я единственный у кого cppreference.com через раз падает с ERR_TIMED_OUT?
- 1 подписчик
- 21 июн.
- 197 просмотров
2

ответа
C++

+1 ещё

Простой
Как правильно посчитать UV координаты из локальных нормальных?
- 1 подписчик
- 20 июн.
- 115 просмотров
1

ответ
Показать ещё Загружается…

Расшифруйте, пожалуйста, что значит — не работает? Какой код возврата обоих вызовов WideCharToMultiByte и какой GetLastError()? У меня 2012 студии нет в наличии, проверить код нет возможности.
Вообще, WideCharToMultiByte к студии отношения имеет мало, реализуется виндой в Kernel32.dll. Возможно, ошибка в чем-то другом.
По поводу отношения к студии, да — некоректно выразился, конечно, студия не при чём.

GetLastError что в 1м, что во 2м случаях говорит, что никаких ошибок нету. WideCharToMultiByte возвращает length записаных байт, т.е. ещё раз говорит, что ф-я отработала корректно.
Это всё под Windows 7, 32 bit, на всякий случай.
но, результат работы 2010 студии — нормальная, UTF-8 строка. А вот 2012 — крякозябрики возвращает.
Вы хоть приведите пример неправильной работы.

Answer 1 · 2012-12-03 22:49:16

::WideCharToMultiByte(codePage, 0, wstr, -1, str, length, NULL, NULL);

Небольшая поправка: размер целевого буфера должен быть не length, а length+1 (ведь именно столько памяти выделено), тогда не придётся вставлять завершающий ноль вручную, функция сделает это сама.

Что касается проблемы, я не понял, при чём тут UTF-8. Конвертируется-то не в UTF-8 (CP_UTF8), а в ANSI (CP_ACP). И в отладчике Студии отображается ANSI. Только в 2012 этот ANSI из другой кодовой страницы. То есть, судя по всему, имеет место баг отладчика Студии. Если раскрыть строку и рассмотреть её посимвольно, то будет видно, что коды символов в обоих случаях одинаковые. Просто 2010 для отображения этих кодов в виде строки использует одну кодовую страницу (русскую, 1251), а 2012 — другую (1252, западную).

Answer 2 · 2012-12-03 21:58:52

А попробуйте явно указать кодировку вместо CP_ACP.

Часто для перекодировки используется прием:

string str = _bstr_t(wstr).operator char*();

.operator char*() в реализации использует WideCharToMultiByte. Если этот прием также сработает неправильно, скорее всего баг у Майкрософт.

Answer 3 · 2012-12-04 08:24:31

Если Вы используете 2012 студию, то почему бы не писать:

std::string utilities::utf16ToUtf8(const std::wstring& utf16)
{
    std::wstring_convert<std::codecvt_utf8<wchar_t>, wchar_t> convert;
    return convert.to_bytes(utf16.c_str());
}

Answer 4 · 2013-01-16 17:21:36

У меня тоже были кракозябры вместо русских букв, решилось так:

#include <locale.h>
int main (int argc, char **argv)
{
   setlocale (LC_ALL, ".1251");
}

WideCharToMultiByte msvc 2012 bug?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт