Телеграмм чат группы usePerlOrDie страница 1751

Детекция на utf8 обычно работает так: берём первый килобайт файла – если там нет «ошибочных utf8-последовательностей» (то есть бинарщины с >127), но при этом была хоть одна валидная – то это utf8.
Иначе – открыть в кодировке по умолчанию.

источник

19:27пожаловаться #6

Ivan Bessarabov in use Perl or die;

Алексей Клименко

в этом алгоритме бом зачем?

источник

19:27пожаловаться #7

АК

Алексей Клименко... in use Perl or die;

Ivan Bessarabov

в этом алгоритме бом зачем?

BOM – это первый же валидный utf8-символ.

источник

19:29пожаловаться #8

АК

Алексей Клименко... in use Perl or die;

Суть в том, что если «близко к началу файла» оказалось так, что попало только ASCII – то детекция на utf8 без BOM не сработает.

Потому что ~никто не будет читать весь файл только чтобы кодировку его узнать.

источник

19:31пожаловаться #9

Vasily Terkin in use Perl or die;

Если только аски, то можно смело открывать как ютф8

источник

19:32пожаловаться #10

АК

Алексей Клименко... in use Perl or die;

Vasily Terkin

Если только аски, то можно смело открывать как ютф8

Открывал я недавно бинарный PDF в AkelPad, а тот за каким-то фигом его как UTF-8 распознал (явно ошибочно).

А я долго понять не мог, почему не могу найти латинскую подстроку, которая в нём точно есть – потому что он где-то в середине вообще файл обрезал, видимо по \0

Я переоткрыл вручную в win1251, норм.

источник

19:34пожаловаться #11

Yuri Myasoedov in use Perl or die;

Vasily Terkin

Вот марлик обрадуется

только в го проблема есть, там всё уже написано, остаётся только патчи и багфиксы присылать, никакого творчества

источник

19:41пожаловаться #12

Anton Petrusevich in use Perl or die;

как в Греции?

источник

19:42пожаловаться #13

Yuri Myasoedov in use Perl or die;

нет, в Греции уже всё разобрали, один госдолг остался

источник

19:44пожаловаться #14

ID:1433858436 in use Perl or die;

источник

19:55пожаловаться #15

Anton Petrusevich in use Perl or die;

Ruby 3.0 Released With ~3x The Performance — шевелится, курилка!

источник

20:23пожаловаться #16

Rajesh in use Perl or die;

Anton Petrusevich

Ruby 3.0 Released With ~3x The Performance — шевелится, курилка!

Wew

источник

20:25пожаловаться #17

Vadim Goncharov in use Perl or die;

Алексей Клименко

JSON:XS тоже упирается в BOM и выдаёт

malformed JSON string, neither tag, array, object, number, string or atom …

UPD: Ну ладно, пусть вот так будет:

$str =~ s/^\s*\xef\xbb\xbf\s+//;
$str =~ s/\s+$//;

ох, сколько я с этим в mail.ru на заебался, с их собственной версией JSON::XS для 1251...

источник

22:18пожаловаться #18

Vadim Goncharov in use Perl or die;

Yuri Myasoedov

нет, в Греции уже всё разобрали, один госдолг остался

s/в Греции всё есть/в Греции всё было/ ?

источник

22:19пожаловаться #19

Vadim Goncharov in use Perl or die;

Алексей Клименко

Эвалю через
$data = eval(<$handle>);

Решил в принт добавить

local $Data::Dumper::Useqq = $utf8 ? 0 : 1;
my $bom = $utf8 ? encode_utf8(chr(65279))."\n" : '';
my $str = $bom.Dumper($data);

Теперь файл создаётся корректный в UTF-8 с BOM.
Но! При чтении – нифига не считывается, пока BOM не уберу.

Что, регуляркой резать?..

а что мешает оставить Storable?

источник

22:20пожаловаться #20