Автор Тема: С наступающим!  (Прочитано 27314 раз)

valexey_u

  • Hero Member
  • *****
  • Сообщений: 3013
    • Просмотр профиля
Re: С наступающим!
« Ответ #15 : Декабрь 27, 2012, 11:06:13 am »
Кстати, эту статистику, при желании как-то оправдать спад активности на оберонкоре, можно интерпретировать как многократное возрастание качества выделения нужной, полезной информации, и удаления не нужной. То есть уменьшается число сообщений, значит эффективность модераторов растет - остается только то, что нужно! Соотношение сигнал/шум растет!

:-)
Y = λf.(λx.f (x x)) (λx.f (x x))

Губанов Сергей Юрьевич

  • Hero Member
  • *****
  • Сообщений: 590
    • Просмотр профиля
    • Домашняя страница
Re: С наступающим!
« Ответ #16 : Декабрь 27, 2012, 02:49:10 pm »
А не скажу пока. Но ты можешь попробовать угадать, а когда будет бета, может и скажу на чем писано . :-)
Ставлю на C++11.

ilovb

  • Hero Member
  • *****
  • Сообщений: 2538
  • just another nazi test
    • Просмотр профиля
    • Oberon systems
Re: С наступающим!
« Ответ #17 : Декабрь 27, 2012, 03:37:05 pm »
А я ставлю на Go

Romiras

  • Sr. Member
  • ****
  • Сообщений: 264
    • Просмотр профиля
    • Romiras Dev Lab
Re: С наступающим!
« Ответ #18 : Декабрь 27, 2012, 08:50:37 pm »
А в какой СУБД хранятся данные? И в каких кодировках?

Кстати, нет смысла тянуть с публикованием файла резервной копии форума. Можно уже сейчас выставить в торрент.
У меня как раз будет на чём тестировать свой модуль автоматической каталогизации тем. Как только будет готов, конечно.

Более того, зачем вести разработки по-партизански. Поди, если не кодом - может советом помочь сможем.

valexey_u

  • Hero Member
  • *****
  • Сообщений: 3013
    • Просмотр профиля
Re: С наступающим!
« Ответ #19 : Декабрь 27, 2012, 09:32:29 pm »
А в какой СУБД хранятся данные? И в каких кодировках?
В текущей версии форума - в sqlite2

Кстати, нет смысла тянуть с публикованием файла резервной копии форума. Можно уже сейчас выставить в торрент.
as is базу выложить нельзя - ведь в ней находится в том числе и конфеденциальная информация (e-mail (не все e-mail свой публикуют) и хеши паролей (теоретически вполне ломаемые на современной персоналке). Поэтому нужно кое-что поотрезать.

Да, а суммарно база (даже как есть) не крупная - метров 30. Так что можно без торрентов - просто с сайта будет скачать.

У меня как раз будет на чём тестировать свой модуль автоматической каталогизации тем. Как только будет готов, конечно.
Да, я тоже об это думал. В смысле о автоматической категоризации и о том что кому-то еще база для этого может пригодиться. От автоматической категоризации отказался пока. Но базу выложу, как только так сразу :-) Постараюсь завтра это сделать. В csv-формате.

Более того, зачем вести разработки по-партизански. Поди, если не кодом - может советом помочь сможем.
Я боюсь, что не показав работу я не смогу просто объяснить в чем суть идеи. Точнее даже хуже - меня поймут не так.

Но есть одна проблема которая, пожалуй, может быть озвучена и понята: в текущим виде сообщения темы все плоские. То есть у каждого сообщения никак не указано на кого это ответ. Обсуждения не выстраиваются в деревья. В простейшем случае понятно как выстроить связь - если в данном сообщении цитируется одно сообщение из данной ветки, значит на него это ответ и есть. Но существуют сообщения которые либо не цитируют кого-либо вообще, либо цитируют сразу нескольких. Как с ними быть? Причем человек, по контексту, обычно может понять к какой подветки обсуждения относится данное сообщение, и, возможно, даже на какое сообщение это отвечает.
Y = λf.(λx.f (x x)) (λx.f (x x))

valexey_u

  • Hero Member
  • *****
  • Сообщений: 3013
    • Просмотр профиля
Re: С наступающим!
« Ответ #20 : Декабрь 28, 2012, 12:35:38 am »
Наврал. Будет json (с большой вероятностью). csv слишком вольно трактуется всеми подряд.
Y = λf.(λx.f (x x)) (λx.f (x x))

Peter Almazov

  • Sr. Member
  • ****
  • Сообщений: 482
    • Просмотр профиля
Re: С наступающим!
« Ответ #21 : Декабрь 28, 2012, 01:51:55 am »
То есть у каждого сообщения никак не указано на кого это ответ. Обсуждения не выстраиваются в деревья.
Это не так. На что ответ - указывается цитированием. Если не указано , значит на последнее сообщение. Этого вполне достаточно.

То, что все сообщения темы плоские - большой плюс, на самом деле. Четко видна хронология.
Форум в виде дерева - отстой. Это я как врач говорю. Хронология теряется, сообщения сдвигаются вправо. Так сделан форум 1С.

valexey_u

  • Hero Member
  • *****
  • Сообщений: 3013
    • Просмотр профиля
Re: С наступающим!
« Ответ #22 : Декабрь 28, 2012, 02:04:34 am »
То есть у каждого сообщения никак не указано на кого это ответ. Обсуждения не выстраиваются в деревья.
Это не так. На что ответ - указывается цитированием. Если не указано , значит на последнее сообщение. Этого вполне достаточно.
Я же упомянул этот частный случай (один из трех возможных).

То, что все сообщения темы плоские - большой плюс, на самом деле. Четко видна хронология.
Форум в виде дерева - отстой. Это я как врач говорю. Хронология теряется, сообщения сдвигаются вправо. Так сделан форум 1С.
Я не собираюсь делать древовидный вид для чтения/ответов сообщений. Срачика аля 1С-форум не будет.

Мне это нужно для гм-гм. иного :-)
Y = λf.(λx.f (x x)) (λx.f (x x))

valexey_u

  • Hero Member
  • *****
  • Сообщений: 3013
    • Просмотр профиля
Re: С наступающим!
« Ответ #23 : Декабрь 28, 2012, 12:00:41 pm »
По поводу категоризации - категоризация и разделение на темы позволяет лучше следить за появлением интересных тем, следить за ответами, и не отвлекаться на то что точно не интересно. Но разбиение на категории не помогает при поиске информации которая где-то на форуме точно есть, только вот не помню точно где. Свежий пример: http://forum.oberoncore.ru/viewtopic.php?p=76759#p76759
Цитата: Борис Рюмшин
Где-то на форуме Сергей Губанов пояснял почему это сделать нельзя. Вернее, почему не получится это сделать полноценно.

Поэтому вот так вот, в лоб, категоризации не будет.
Y = λf.(λx.f (x x)) (λx.f (x x))

Romiras

  • Sr. Member
  • ****
  • Сообщений: 264
    • Просмотр профиля
    • Romiras Dev Lab
Re: С наступающим!
« Ответ #24 : Декабрь 28, 2012, 05:01:18 pm »
Почему же, обычным поиском по темам можно найти или при помощи сужения круга поиска или же без него.
Скорее всего неясно по каким критериям искать тему.

valexey_u

  • Hero Member
  • *****
  • Сообщений: 3013
    • Просмотр профиля
Re: С наступающим!
« Ответ #25 : Декабрь 28, 2012, 05:08:35 pm »
Почему же, обычным поиском по темам можно найти или при помощи сужения круга поиска или же без него.
Скорее всего неясно по каким критериям искать тему.
Опыт показывает, что гуглом получается на порядок быстрее.
Y = λf.(λx.f (x x)) (λx.f (x x))

valexey_u

  • Hero Member
  • *****
  • Сообщений: 3013
    • Просмотр профиля
Re: С наступающим!
« Ответ #26 : Декабрь 28, 2012, 06:53:39 pm »
А вот и база. Как и обещал, в формате json. База ровно та, что была на момент анализа статистики, так что сообщений за последние несколько дней там нет.

Да, удалось привести все к единой кодировке, так что текст там теперь читабелен для всех сообщений и весь в utf-8.

Из особенностей - есть немного html-мусора в телах сообщений (всякие там концы строк (аля br) и прочее). Впрочем, машинной обработке это не должно помешать.

Также не следует забывать про escaping в json'e. Всякие фигурные скобочки там, угловые и прочее.

Новогодний, подарочек, так сказать :-)

Скачивать придется несколько извращенно, впрочем думаю проблем не возникнет.
Y = λf.(λx.f (x x)) (λx.f (x x))

albobin

  • Full Member
  • ***
  • Сообщений: 198
    • Просмотр профиля
Re: С наступающим!
« Ответ #27 : Декабрь 29, 2012, 05:00:30 am »
Есть вопросец.
Вроде json формат предполагает не utf-8, а unicode, да ещё с ескейпами (\u...).
Или на практике буквально уж не следуют формату?  Спрашиваю потому ,что пришлось не так давно
сляпать конверторы  в json/из json, и буквально следовал вот этому:
"A string is a sequence of zero or more Unicode characters, wrapped in double quotes, using backslash escapes."
Может зря?
PS.
Да, столько многобайт одной строкой - это проверка на вшивость :)
 

albobin

  • Full Member
  • ***
  • Сообщений: 198
    • Просмотр профиля
Re: С наступающим!
« Ответ #28 : Декабрь 29, 2012, 06:21:28 am »
Чуть не забыл.
Всех с темой! :)

valexey_u

  • Hero Member
  • *****
  • Сообщений: 3013
    • Просмотр профиля
Re: С наступающим!
« Ответ #29 : Декабрь 29, 2012, 06:30:34 am »
Есть вопросец.
Вроде json формат предполагает не utf-8, а unicode, да ещё с ескейпами (\u...).
Или на практике буквально уж не следуют формату?  Спрашиваю потому ,что пришлось не так давно
сляпать конверторы  в json/из json, и буквально следовал вот этому:
"A string is a sequence of zero or more Unicode characters, wrapped in double quotes, using backslash escapes."
Может зря?
Utf-8 это юникод - одно из его представлений (кодировок). А json, согласно rfc 4627, должен быть в следующей кодировке:
Цитировать
3.  Encoding

   JSON text SHALL be encoded in Unicode.  The default encoding is
   UTF-8.

   Since the first two characters of a JSON text will always be ASCII
   characters [RFC0020], it is possible to determine whether an octet
   stream is UTF-8, UTF-16 (BE or LE), or UTF-32 (BE or LE) by looking
   at the pattern of nulls in the first four octets.

           00 00 00 xx  UTF-32BE
           00 xx 00 xx  UTF-16BE
           xx 00 00 00  UTF-32LE
           xx 00 xx 00  UTF-16LE
           xx xx xx xx  UTF-8
http://tools.ietf.org/html/rfc4627
Y = λf.(λx.f (x x)) (λx.f (x x))