orbitando / blog

Todo | General | Status | Ayuda | Desarrollo | Wish List | Funcionalidad | Estadísticas
20091016 Friday October 16, 2009

Radiografía de la Twittósfera Chilena

Twitter es un servicio de microblogging que permite la publicación de contenidos en la forma de textos cortos (updates o tweets), de máximo 140 caracteres. Cada usuario de la red puede relacionarse con otros usuarios, en la acción de seguir (follow), suscribiéndose a sus actualizaciones. De esta forma, cada miembro de la red posee un conjunto de usuarios que sigue (sus following o friends) y un conjunto de seguidores (sus followers).

El presente estudio busca analizar y caracterizar a un subconjunto de esta red: la red de usuarios chilenos en Twitter. Para ello se desarrolló un sistema capaz de navegar por la red, recuperando los contactos de cada usuario, a partir de un conjunto inicial de chilenos. Sobre este conjunto, la tarea consistió en identificar a los usuarios chilenos, logrando construir el conjunto que es la base de este trabajo.

Ir al estudio

Enviado por carlos ( Oct 16 2009, 09:06:41 AM GMT-04:00 ) Permalink Comentarios [1]

20090812 Wednesday August 12, 2009

cuantos chilenos hay en twitter?

Una pregunta que se ha leído muchas veces en el último tiempo, sobre todo después de la explosión de usuarios de marzo/abril de este año, en Chile. Hace un par de meses atrás nos propusimos responder a esta pregunta. Para ello desarrollamos un sistema cuya misión sería identificar a todos los usuarios chilenos en twitter. Este sistema basa su funcionamiento en algunas conjeturas básicas: De esta forma, se construyó un sistema que permitiría recuperar, recorrer y analizar el grafo de chilenos y sus contactos, decidiendo qué nodos de esta red pertenecen a nuestro país. Luego de varias semanas de trabajo, y hartos fines de semana también, finalmente llegué al resultado buscado, incluyendo el empadronamiento de casi la totalidad de los usuarios del país.


El procedimiento:

El sistema consiste en un aplicación desarrollada en java/groovy, la cual se ejecuta en forma iterativa, realizando dos labores principales: una primera etapa de carga de datos, y una segunda, de análisis de los datos descargados. Este procedimiento se repite una y otra vez, actualizando el conjunto de chilenos de manera incremental.

Para comenzar con el experimento, se construyó un conjunto inicial, C0, obtenido a través de un buscador de usuarios de twitter. Esto permitió contar con un conjunto de cerca de 4mil usuarios, identificados como chilenos. Este sería el conjunto de partida para la primera iteración.

La primera fase de cada iteración (iteración-k) es la fase de descarga. Esta se realiza ejecutando llamadas a la API de twitter, obteniendo todos los following y followers del conjunto Ck-1 Después de procesar todo el conjunto, lo que se obtiene es la red completa de F/F de los chilenos, el conjunto FF(Ck-1).

La segunda es la fase de análisis. Esta consiste en aplicar un criterio de selección sobre cada usuario existente en la base de datos, utilizando toda la información disponible del usuario (location, bio, url, etc.). El criterio comienza revisando el dato de location: si indica "chile", se asume que es chileno. En caso contrario, se revisa si la locación corresponde a alguna localidad del país, utilizando un diccionario de topónimos con lugares de Chile. Luego se revisan los demás datos disponibles. Finalmente, se realiza el cálculo más importante: el ''porcentaje de chilenidad'' de sus followings/followers, considerando la proporción de chilenos reconocidos, dentro de su conjunto de F/F. Esto último es particularmente importante cuando no se tiene información del usuario (location vacío, bio vacío, etc.).

Una vez revisados la totalidad de los usuarios, lo que se obtiene es una nueva versión del conjunto de chilenos, Ck, que será la base para la siguiente iteración. De esta manera, se repite el proceso hasta que el sistema haya alcanzado un cierto nivel de estabilidad en los resultados. Esto ocurrirá cuando la cantidad de nuevos usuarios seleccionados sea menor a un cierto umbral.


Los resultados:

Para el experimento se realizó un total de 6 iteraciones. El conjunto inicial (C0) fue de 4045 usuarios. Al ejecutar el sistema, se obtuvieron los siguientes resultados:


total de chilenoschilenos al 01/06/09crecimiento al 01/06/09
conjunto C040454045...
conjunto C1156701560211557
conjunto C2283672770012098
conjunto C338402337446044
conjunto C449839383744630
conjunto C554275405822208
conjunto C65563641237655


Recién a partir de la tercera iteración se observa un comportamiento convergente. Esto se debe a que en las primeras iteraciones se realizaron algunos ajustes sobre los parámetros del algoritmo de selección. Además, se fueron corrigiendo algunas características sobre la marcha. Cabe mencionar que cada iteración es un proceso que toma varios días, lo que implica un período largo de tiempo (más de un mes) entre la primera y la última iteración. Debido a esto, lo que se hace es comparar el total de usuarios al 1 de junio, en particular, revisando el crecimiento de cada iteración.

Si entendemos el proceso como un sistema de recuperación de información, podríamos afirmar que se favoreció la precisión (la calidad del resultado) por sobre el recall (la cobertura), al restringir el criterio de selección en el caso de usuarios con muy pocos F/F (el caso de nuevos usuarios). Esto implicaría perder algunos usuarios en la recuperación, pero a cambio se consigue disminuir el número de falsos positivos.

Las pruebas realizadas sobre los datos muestran que la precisión del sistema es especialmente alta. Se tomó un grupo de usuarios seleccionados, considerando aquellos con menor probabilidad de ser chilenos, y se hizo una revisión manual que permitió comprobar que el número de falsos positivos es muy reducido: del orden de 0.1% (aunque esta cifra debiera ser comprobada de forma más estricta).

En estos momentos, la cifra total de usuarios chilenos encontrados asciende a 55.636, al 21 de Julio del 2009. Haciendo una sencilla proyección de los datos, se podría afirmar que la cantidad de chilenos no debiera superar los 60.000 usuarios, considerando la totalidad de usuarios inscritos.


Conclusiones:

La realización de este proyecto permitió la identificación de prácticamente todos los chilenos en la red de twitter. Habiendo identificado este conjunto, es posible obtener una gran cantidad de resultados y conclusiones. Desde el punto de vista estadístico, se pueden realizar una serie de análisis, realizar segmentaciones de usuarios, así como obtener rankings en base a diversas características. También, es posible la detección de grupos de usuarios, que de otra manera pasarían inadvertidos, por ejemplo, detectando chilenos en el extranjero.

En la implementación realizada quizás faltó un mayor rigor científico, por ejemplo, al momento de definir los parámetros. Para esa tarea se utilizó una mezcla de experiencia y experimentación, definiendo valores que fueron ajustados a medida que se obtuvieron los primeros resultados. El proyecto podría haberse planteado como un sistema de inteligencia artificial, permitiendo el entrenamiento automático del algoritmo de selección, sin embargo, los resultados obtenidos mostraron ser más que satisfactorios con la metodología utilizada.

Todos estos resultados darán lugar a un completo estudio sobre los usuarios de twiter en Chile, que será publicado próximamente, incluyendo una nueva actualización de las cifras.

...en twitter somos casi 60.000 chilenos.

Estudio desarrollado por Daniel Gómez de www.orbitando.com

http://www.dcc.uchile.cl/~dgomez/item.php?id=chilenos_en_twitter


Enviado por carlos ( Aug 12 2009, 11:27:34 AM GMT-04:00 ) Permalink

20080415 Tuesday April 15, 2008

Feed readers y sistemas de bookmarks usados en orbitando

El siguiente gráfico muestra las sistemas de lectura de feeds usados en orbitando el último mes:



Es interesante constatar el poderío que ha tomado google reader y cómo se mantiene bloglines.

Ahora les presentamos los sistemas de bookmark usados el último mes


Es interesante comparar respecto al gráfico que generamos en octobre del 2007, donde delicious era el segundo más usado, ahora nuestro querido delicious se mantiene en la cola.

co.


Enviado por carlos ( Apr 15 2008, 03:37:27 PM GMT-04:00 ) Permalink

20080328 Friday March 28, 2008

Prestigio del Salmon Chileno en picada

Una búsqueda en orbitando revela la peligrosa situación en que se encuentra la imagen internacional del salmón chileno, uno de nuestros principales productos de exportación. Como ejemplo, un artículo publicado esta semana en el new york times , denunciado malas prácticas por parte de los productores chilenos, es el cuarto artículo más leído en la versión electrónica del prestigioso medio estadounidense. El efecto mediático no es menor, si se considera que ese diario tiene 13 millones de visitantes únicos por mes, entre quienes se cuentan importantes tomadores de decisiones en el mundo de los negocios.
Enviado por jmhurtado ( Mar 28 2008, 10:13:43 AM GMT-04:00 ) Permalink

20080313 Thursday March 13, 2008

Orbitando en El Mercurio

Orbitando aparece nuevamente en El Mercurio. Esta vez se presenta su ranking y se entrevista a Carlos Orrego sobre las temáticas y estrategias de los blogs líderes en Chile.

La difusión es buena. Gracias a El Mercurio.



Link. Enviado por carlos ( Mar 13 2008, 09:09:39 AM GMT-04:00 ) Permalink

20080131 Thursday January 31, 2008

Grafo de la red de blogs Chilenos


Me encantan las visualizaciones y encontré un servicio de IBM llamado Many Eyes que es genial. En este sistema subí una tabla de datos que consiste en los ID de blogs que se referencian. La columna de la izquierda corresponde al ID del blog origen del link (From) y la columna de la derecha corresponde al ID del blog destino del link (To). ¿Por qué usar ID? porque el nombre o url del blog puede ser muy largo. Igual subiré otro gafo con los url de los sitios. En todo caso para saber a que blog corresponde un ID pueden usar el siguiente url:
http://orbitando.com/rss/search/canal.jsp?cid=XXXX  donde XXXX es el ID que vean en el grafo.

Esta herramienta de visualización esta basada en un applet Java, asi es que deben tener el plug-in de java instalado. A los usuarios de mac se les recomienda usar el navegador safari. Pueden ver las opciones de este visualizador de redes aquí. Ojo, puede ser lento en máquinas poco potentes, pero vale la pena jugar.

Bueno, sin más preámbulos los invito a ver e interactuar con el Grafo de la red de blogs Chilenos (solo considera los blogs chilenos que tenemos en Orbitando, que son 7,000 aproximadamente).



Link: http://services.alphaworks.ibm.com/manyeyes/view/SmAgULsOtha6cFGdaz3oL2-

Enviado por carlos ( Jan 31 2008, 11:50:54 AM GMT-04:00 ) Permalink Comentarios [1]

20080116 Wednesday January 16, 2008

SUN compra Mysql en 1 billón de dólares

Esta noticia es increible y no podía dejarla pasar. SUN  ha comprado MySql. La mejor base de datos que he usado, y que alberga todos los datos de orbitando.

Pueden leer más en el blog de Jonathan Schwarts, ceo de SUN.

Esto significa que Mysql cada vez tomará más importancia en escenarios corporativos, que tendrá financiamiento y apoyo del más alto nivel. Esperemos que tode sea para mejor y que mantengan a Mysql free and open.
Enviado por carlos ( Jan 16 2008, 12:17:00 PM GMT-04:00 ) Permalink

20080110 Thursday January 10, 2008

Explicando el ranking de orbitando


Hay muchos rankings de blogs y todos son odiosos. Como no quisimos restarnos, creamos nuestro propio ranking.
Uno de los problemas de los rankings tradicionales es que tienden a generar una inercia que hace muy difícil que los líderes cambien, o que un blog nuevo, con momentun, puedo colarse entre los primeros. Nosotros quisimos abordar este problema agregando variables que consideran otros aspectos y no solo la autoridad. Las variables de nuestro ranking son:

  1. Autoridad: Número de links desde otros blogs en los últimos 6 meses.
  2. Votos: Número de votos de IP diferentes durante la última semana.
  3. PageRank: Índice de google.
  4. Frescura: Fecha de los últimos 2 artículos publicados por el blog.

La autoridad de un blog es el indicador más importante, refleja las referencias que otros blogs hacen a él. El problema con este índice es que blogs antiguos van a tener más autoridad que blogs nuevos, solo por el hecho de llevar mas tiempo con vida. Esto es correcto, pero no refleja adecuadamente la autoridad de un blog hoy. Es por ello que nosotros solo consideramos los links (únicos) a un blog publicados en los últimos 6 meses. Cosa que también hace technorati.

Los votos en orbitando nos permiten darle un valor al interés causado por un blog en nuestro sitio. Como también recibimos muchas visitas desde buscadores, este índice nos ayuda a premiar a los blogs que escriben de temas que la gente busca. Para protegernos de bombas y robots, solo consideramos votos de IP únicas.

El pagerank es un índice bastante conocido y comentado. Le damos poco peso en la fórmula, pero nos ayuda a penalizar blogs spam, ya que google es muy bueno identificandolos y penalizandolos con su índice.

Finalmente, la frescura del blog nos permita premiar a los blogs que escriben continuamente, y castigar a los blogs demasiado esporádicos o ya inertes. Este ponderador es bastante complejo y se calcula mediante una función de decaimiento exponencial. Es decir el ranking de un blog disminuye a medida que la frescura del blog disminuye. El punto de inflexión es 2 semanas. Si el blog no ha escrito en 2 semanas, su frescura caerá mucho y hará caer todo suranking.

Aquí esta la fórmula:

(0.6*autoridad + 0.3*votos + 0.1*pagerank)*frescura





Enviado por carlos ( Jan 10 2008, 12:21:15 PM GMT-04:00 ) Permalink

20071213 Thursday December 13, 2007

Orbitando en Twitter

No nos podíamos restar del fenómeno twitter y hemos creado un canal donde publicamos los links a los artículos más destacados del momento. Síguenos en:
http://twitter.com/orbitando

Enviado por carlos ( Dec 13 2007, 03:38:47 PM GMT-04:00 ) Permalink

20071203 Monday December 03, 2007

Orbitando en Chilevisión

Orbitando salió mencionado en un reportaje deChilevision, video gracias a youtube:



Enviado por carlos ( Dec 03 2007, 05:17:24 PM GMT-04:00 ) Permalink Comentarios [2]

Calendar

RSS Feeds

Search

Links

Navigation