Телеграмм чат группы prophp7 страница 12490

и не дай бог в строчку прилетит какой-то левый символ (опять же могу загоняться, слышал звон)

02:40пожаловаться #1

а это проблемы именно во время выполнения или во время парсинга и компиляции скрипта? если второе, то ещё можно понять (не хотят ломать обратную совместимость)

02:41пожаловаться #2

ну ты хочешь прочитать xml, а там кривой байт какой

02:41пожаловаться #3

т.е. рантайма получается

02:42пожаловаться #4

но вообще это надо спрашивать питонистов, будет ли в этом случае ошибка, если туда (в строчку) залетит, например, поломанный нижний суррогат. Т.к. я с этим сталкивался 1000 лет назад и вполне допускаю, что у меня тогда просто руки из жопы были

02:43пожаловаться #5

Ааа. Ну да. Если файл/строка не в Юникоде, то нужно конвертировать. Эт с любой строкой так будет.

02:44пожаловаться #6

Почему, вполне в юникоде, только с битым чаром

02:45пожаловаться #7

Это зависит ещё от количества битых чаров. Так то любая строка может быть одновремено во всех кодировках (ну т.е. содержимое одно, а читать можем по разному). Возникает лишь одной вопрос — автоопределения кодировки.

Из-за этого ранее если из разных шаблонов взять чуть html в одной кодировке и скрестить с частью в другой, то браузер не мог понять какую использовать и временами ошибался

02:47пожаловаться #8

Ну и как бы спека юникода постоянно расширяется. Те же эмодзи, например, используют конкатенацию из верхнего + нижнего суррогатов, которых в utf-8 "как бы нет", но вот как оказалось есть

02:47пожаловаться #9

А вот и нет, для юникода есть управляющие секции байт

02:47пожаловаться #10

Вот с расширением кодировки я рил немного не въезжаю, но это скорее не вопрос к работе с кодировкой, а вопрос шрифтов (отображения кодировки)

02:48пожаловаться #11

тоже не всегда

02:48пожаловаться #12

эмодзи, например, могут отображаться картинками

02:49пожаловаться #13

и так почти везде делают

02:49пожаловаться #14

А толку от них, если ПО определило, что внутри куча текста в Win1251? Тут браузер подумает, что юзер натупил и вначале прилетело то, что прилететь не должно было (как когда хеадеры раньше времени прилетели)

02:49пожаловаться #15

Ну блин, это либо битый чар, либо не так кодировка

02:50пожаловаться #16

картинка ж частью шрифта есть (если не о браузерах говорить)

02:50пожаловаться #17