Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Установка кодировки #23

Open
visavi opened this issue May 30, 2016 · 2 comments
Open

Установка кодировки #23

visavi opened this issue May 30, 2016 · 2 comments

Comments

@visavi
Copy link

visavi commented May 30, 2016

Подскажите как можно установить кодировку документа самостоятельно
если в html не указана кодировка, то nokogiri неверно отображает слова
к примеру при парсинге страницы https://games.mail.ru/pc/news/ срабатывает метод loadHtml хотя должен сработать loadHtmlNoCharset так как там в коде нет установленной кодировки

из-за этого весь текст отображается в неверной кодировке

если извернуться и сделать что-то типа такого

$html = file_get_contents('https://games.mail.ru/pc/news/');
$html .= '<meta http-equiv=Content-Type content="text/html;charset=UTF-8">';

то страница парсится в верной кодировке

PS. в принципе разобрался, можно сделать вот так

$html = file_get_contents('https://games.mail.ru/pc/news/');
$saw = nokogiri::fromHtmlNoCharset($html);

но не знаю насколько это правильн

@olamedia
Copy link
Owner

да, nokogiri::fromHtmlNoCharset это верный вариант в случае если просто нет указания кодировки.
loadHtmlNoCharset делает то же самое с уже созданным объектом $nokogiri->loadHtmlNoCharset

@olamedia olamedia added the FAQ label Jun 13, 2016
@morsvox
Copy link

morsvox commented Aug 16, 2016

Помогло:)спасибо

@olamedia olamedia added the v1.0 label Sep 15, 2020
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

3 participants