Size: a a a

2020 November 09

O

Orodret in Science FYI
Anastasia Pivnyuk
Ну иногда нужно писать высокопроизводительный код, например, чтобы быстро пройтись по данным и собрать датасет, а потом уже дата анализ. Высокопроизводительный код, который правильно работает с памятью - это С/cython/golang, как мне казалось
Хм... а как голанг с памятью работать помогает? Оо хотя с производительностью там все хорошо, да
источник

AZ

Arthur Zalevsky in Science FYI
Anastasia Pivnyuk
Ну иногда нужно писать высокопроизводительный код, например, чтобы быстро пройтись по данным и собрать датасет, а потом уже дата анализ. Высокопроизводительный код, который правильно работает с памятью - это С/cython/golang, как мне казалось
ой да камон. такого, в реальности, полторы задачи. любой нормальный биоинформатик просто бахнет на кластер и забьет. я знаю единичные случаи, когда люди вот прям серьезно упираются в производительность. и то в этом случае обычно уже есть прототип и проще нанять прогера в команду, чем ждать хорошего кода от биоинформатика
источник

DA

Dmitry A in Science FYI
Maria Firuleva
я бы java на kotlin в этом списке заменила
в перспективе да, но сейчас вроде еще не очень много
источник

AP

Anastasia Pivnyuk in Science FYI
Orodret
Хм... а как голанг с памятью работать помогает? Оо хотя с производительностью там все хорошо, да
Ну он же си-подобный, насколько я помню? ХЯ про него только краем уха слышала от нескольких людей, которые в индустрии работают
источник

Jelena Čuklina in Science FYI
Arthur Zalevsky
ой да камон. такого, в реальности, полторы задачи. любой нормальный биоинформатик просто бахнет на кластер и забьет. я знаю единичные случаи, когда люди вот прям серьезно упираются в производительность. и то в этом случае обычно уже есть прототип и проще нанять прогера в команду, чем ждать хорошего кода от биоинформатика
Вот да. Если человек умеет в параллелизацию, то даже на R можно жить (не для всех задач, но многих, и даже ML)
источник

A

Anastasia in Science FYI
@SymbioticMe @aozalevsky С изучением матчасти и алгоритмов проблем нет. Я задала конкретный вопрос про ЯП
источник

O

Orodret in Science FYI
Anastasia Pivnyuk
Ну он же си-подобный, насколько я помню? ХЯ про него только краем уха слышала от нескольких людей, которые в индустрии работают
Ну, там конкаранси удобное. А управление памятью - там тот же гц) сишные указатели там есть, но это скорее для совместимости с си библиотеками
источник

AZ

Arthur Zalevsky in Science FYI
Anastasia
@SymbioticMe @aozalevsky С изучением матчасти и алгоритмов проблем нет. Я задала конкретный вопрос про ЯП
на него ответил в самом первом комменте. мои имхо - питон, обмазанный шеллом
источник

Jelena Čuklina in Science FYI
Anastasia
@SymbioticMe @aozalevsky С изучением матчасти и алгоритмов проблем нет. Я задала конкретный вопрос про ЯП
Хозяин барин. Но так как тут дают советы «для большинства», большинству ответ «какой язык учить» - Python, R и английский
источник

AZ

Arthur Zalevsky in Science FYI
Anastasia Pivnyuk
Ну иногда нужно писать высокопроизводительный код, например, чтобы быстро пройтись по данным и собрать датасет, а потом уже дата анализ. Высокопроизводительный код, который правильно работает с памятью - это С/cython/golang, как мне казалось
"быстро пройтись по данным", кстати, чаще упирается в ИО. и уже слабо зависит от языка. скорее от модели хранения/чтения данных
источник

MF

Maria Firuleva in Science FYI
Dmitry A
в перспективе да, но сейчас вроде еще не очень много
мне кажется, если нет корпоративной культуры одного языка, и человек волен выбирать, то не должно проблем возникнуть?
источник

Jelena Čuklina in Science FYI
Arthur Zalevsky
"быстро пройтись по данным", кстати, чаще упирается в ИО. и уже слабо зависит от языка. скорее от модели хранения/чтения данных
Кстати тогда докину основы SQL, они пригождались пару раз
источник

AP

Anastasia Pivnyuk in Science FYI
Arthur Zalevsky
ой да камон. такого, в реальности, полторы задачи. любой нормальный биоинформатик просто бахнет на кластер и забьет. я знаю единичные случаи, когда люди вот прям серьезно упираются в производительность. и то в этом случае обычно уже есть прототип и проще нанять прогера в команду, чем ждать хорошего кода от биоинформатика
Ну если честно, я вот уже какое-то время решаю задачи регулярного быстрого сравнения 700-800 таблиц по ~10^6 строк с референсом размером ~10^5 строк. Задача - собрать огромный датасет, где по ключу к строкам из первой таблицы джойнится строка из референса, если хэмминг дистанс между записями не более 1. Задача сама по себе довольно тупая, но я пока не упоролась в нормальное распаралеливание и тот же сайтон, даже параллельные вычисления на кластере занимали кучу времени
источник

LD

Lavrentii Danilov in Science FYI
Jelena Čuklina
Кстати тогда докину основы SQL, они пригождались пару раз
В прицнипе работа с БД и их архитектурой навык полезный
источник

Jelena Čuklina in Science FYI
Anastasia Pivnyuk
Ну если честно, я вот уже какое-то время решаю задачи регулярного быстрого сравнения 700-800 таблиц по ~10^6 строк с референсом размером ~10^5 строк. Задача - собрать огромный датасет, где по ключу к строкам из первой таблицы джойнится строка из референса, если хэмминг дистанс между записями не более 1. Задача сама по себе довольно тупая, но я пока не упоролась в нормальное распаралеливание и тот же сайтон, даже параллельные вычисления на кластере занимали кучу времени
Интересно. Это в какой задаче столько данных?
источник

AZ

Arthur Zalevsky in Science FYI
Anastasia Pivnyuk
Ну если честно, я вот уже какое-то время решаю задачи регулярного быстрого сравнения 700-800 таблиц по ~10^6 строк с референсом размером ~10^5 строк. Задача - собрать огромный датасет, где по ключу к строкам из первой таблицы джойнится строка из референса, если хэмминг дистанс между записями не более 1. Задача сама по себе довольно тупая, но я пока не упоролась в нормальное распаралеливание и тот же сайтон, даже параллельные вычисления на кластере занимали кучу времени
ну казалось бы, сам боженька велел ее решать параллельно. особенно в тупом приближении, что все сравнения независимы и отношения нетранзитивны.  мое любимое для таких задач python + h5py + mpi4py в режиме multiple readers/multiple writers хоть в тысячу потоков
источник

AP

Anastasia Pivnyuk in Science FYI
Ну вот кстати h5py я особо не пользовалась нигде, кроме как в анализе HiC и вот такого всякого. Предполагаю, что это не единственное его применение 🙈😂
источник

AP

Anastasia Pivnyuk in Science FYI
А в чем его соль, если в 2 словах?)
источник

PD

Plague Doctor in Science FYI
Положительная рецензия после Major revision! Маленькую правку по методам и все!

Editor and Reviewer comments:    

EBM:
Paper is much improved. But the request from the 2nd reviewer about a comprehensive methods description is needed please.

Reviewer #2: The manuscript has now improved. However, since this is mainly a methodological paper, still in the methods section I consider should be included information like the size of the samples and the protocol of samples preparation and not to send it to Supplementary data or just mention a previous paper.
This is my last suggestion.
источник

LL

Lama Llama in Science FYI
Plague Doctor
Положительная рецензия после Major revision! Маленькую правку по методам и все!

Editor and Reviewer comments:    

EBM:
Paper is much improved. But the request from the 2nd reviewer about a comprehensive methods description is needed please.

Reviewer #2: The manuscript has now improved. However, since this is mainly a methodological paper, still in the methods section I consider should be included information like the size of the samples and the protocol of samples preparation and not to send it to Supplementary data or just mention a previous paper.
This is my last suggestion.
источник